O mundo está a ficar sem dados para o treino de IA?
Apesar de estar a ser trabalhada há largos anos, a Inteligência Artificial (IA) é uma tecnologia relativamente recente para a maioria dos utilizadores. Será que o mundo está, de facto, a ficar sem dados para treinar os modelos?
Para o diretor-executivo da Tesla e de outras empresas ligadas à indústria tecnológica, a resposta é sim, o mundo está a ficar sem dados para o treino de IA.
Aparentemente, na sua perspetiva, o treino de modelos de IA com dados exclusivamente humanos está a tornar-se impossível. Conforme afirmou, há uma falta crescente de dados do mundo real para treinar modelos de IA, incluindo o seu chatbot Grok AI.
Agora, esgotamos basicamente a soma cumulativa do conhecimento humano... no treino de IA. Isso aconteceu basicamente no ano passado.
Disse Elon Musk, durante uma entrevista ao vivo, no X, conduzida por Mark Penn, presidente da Stagwell.
Estes comentários de Musk vão ao encontro dos de Ilya Sutskever, antigo investigador da OpenAI, que previu, em dezembro do ano passado, que a indústria da IA tinha atingido o "pico dos dados".
Para Musk, a solução para este problema, que passa pelos dados sintéticos, reflete a indústria: a Google, a OpenAI, a Anthropic e a Meta já utilizam este tipo de dados para treinar os seus modelos.
A única forma de complementar [os dados do mundo real] é com dados sintéticos, em que a IA cria [dados de treino]. Com dados sintéticos... [a IA] vai classificar-se a si mesma e passar por esse processo de autoaprendizagem.
Embora o uso de dados sintéticos possa resultar em economias de custo significativas para as empresas, alguns estudos sugerem que a dependência excessiva de dados sintéticos pode levar ao colapso dos modelos, onde as respostas da IA se tornam menos criativas e mais tendenciosas com o tempo, à medida que são treinadas repetidamente em dados gerados recursivamente.
Ensinem a IA a fazer tarefas domésticas. Isso é que era uma IA que eu compraria
Estão sempre a aparecer novos dados.
Ensinem a IA, a tornar os já existentes, fidedignos.
Ainda há muita produção literatura classica, moderna ou mesmo histórica que ainda não foi totalmente usada por questões de direitos legais. Paguem, e já passa a haver mais dados para treinamento. Mesmo que se pense que a literatura não venha a ter grande impacto nos benchmarks de AI, mas pelo menos melhora a sua capacidade de actuar como “” enciclopédia “”