Os gigantes tecnológicos que desenvolvem algumas das soluções de IA mais importantes do momento não são muito claros no que toca informar de onde vêm os dados de treino usados. Uma investigação recente revela que empresas como a Apple, Anthropic, Nvidia e Salesforce usaram dados do YouTube.

Apple usou YouTube para treinar IA

O relatório diz que a organização sem fins lucrativos chamada EleutherAI recolheu as legendas de 173.536 vídeos do YouTube, extraídas de mais de 48 mil canais. Os dados recolhidos, que não incluíam imagens dos vídeos, mas sim texto simples destes, geralmente com traduções para diferentes idiomas, foram usados para criar um conjunto de dados intitulado “Legendas do YouTube”.

As legendas do YouTube, explicam, incluem material de criadores de conteúdos como MrBeast e Marques Brownlee. Há também dados de canais educativos como a Khan Academy, o MIT e Harvard. O conjunto de dados de legendas do YouTube, por sua vez, faz parte do “Pile”, um conjunto de treino composto por 22 conjuntos de dados que inclui também material do Parlamento Europeu, Wikipédia em inglês e muito mais.

A investigação acrescenta que o Pile está aberto ao público. Sob esta premissa, inúmeros académicos e empresas têm-nos usado nos seus trabalhos relacionados com a IA. Entre elas estão empresas tecnológicas americanas, como a Apple ou a Nvidia, que não retiraram os dados diretamente do YouTube, mas sim usaram o trabalho desenvolvido pela EleutherAI para treinar alguns dos seus modelos de IA.

As regras da Google foram violadas?

Este cenário levanta uma questão relevante e que é qual o papel dos termos de serviço do YouTube. No início do segundo trimestre deste ano, o CEO do YouTube, Neal Mohan, deu uma resposta bastante interessante após lhe ter sido perguntado se acreditava que a OpenAI treinava a Sora com material da sua plataforma de vídeo.

Neal Mohan referiu que embora determinados conteúdos do YouTube, como o título do vídeo, o nome do canal ou o nome do criador, estejam sujeitos a web scraping para poderem aparecer nos motores de busca, as regras atuais não permitem o download dos vídeos ou das suas transcrições.

Aqui entra uma segunda questão. Embora o relatório afirme que a Apple, a Anthropic, a Nvidia e a Salesforce usaram as legendas do YouTube para treinar alguns dos seus modelos, não foram estas empresas que vasculharam a plataforma para obter estes dados. EleutherAI ocupou-se dessa tarefa. Então a grande questão é: se há violação, de quem é a responsabilidade?