Meta acusada de usar 81,7 TB de livros com direitos de autor para treinar a sua IA
No âmbito do processo judicial Kadrey contra a Meta, a empresa de Mark Zuckerberg está a ser acusada de ter utilizado livros protegidos por direitos de autor para treinar os seus modelos de inteligência artificial (IA). Esta acusação ganha novas evidências substanciais com a revelação de emails internos.
O "Anexo A", parte integrante do caso, inclui vários emails trocados entre funcionários da Meta que confirmam downloads massivos de dados na forma de livros protegidos por direitos de autor. Melanie Kambadu, empregada da Meta, expressou a sua oposição a esta prática já em outubro de 2022.
Num email de abril de 2023, Nikolay Bashlykov, um dos responsáveis pelo processo de recolha de dados, fez piadas com emojis, mas também alertou para os riscos legais associados ao uso de torrents para este fim.
A partir de setembro do mesmo ano, Bashlykov abandonou os emojis e advertiu que o uso de torrents poderia resultar na distribuição ilegal de material protegido, reconhecendo a ilegalidade da prática.
Frank Zhang, investigador da Meta, discutiu internamente sobre evitar o uso dos servidores da empresa para downloads, visando minimizar os riscos de monitorização durante a aquisição desses dados.
Segundo informações reportadas pelo Ars Technica, a Meta descarregou pelo menos 81,7 terabytes de dados através de torrents, incluindo material de bibliotecas como Z-Library e LibGen, que foi encerrada recentemente.
Meta nega qualquer acusação
A Meta alega falta de provas de que qualquer livro tenha sido descarregado por funcionários através de torrents ou distribuído posteriormente pela Meta. O caso continua a desenvolver-se.
Este caso reflete as práticas questionáveis que as empresas de IA adotam para treinar os seus modelos, um tema também presente com outras gigantes como a Google e a OpenAI, que enfrentaram críticas parecidas.
"Fair use" ou abuso?
O conceito de "fair use" (uso justo) tem sido constantemente invocado para justificar estas ações, o que permite o uso limitado de material protegido sem autorização direta. No entanto, o debate sobre os limites éticos destas práticas continua em curso, especialmente no contexto da IA generativa.
Leia também:
Se pagaram os livros, qual é o problema?
HAHAHA Estamos perdidos! Este pessoal não sabe o que é direitos de autor.
Direitos de Autor é uma mulher tirar uma fotografia Grávida e não pagar ao homem que a pôs assim… Ou seja, faz publicidade grátis ao homem
Que a pôs assim? Fazes bem jus ao teu nome LOLOL
A tua mulher não é propriedade tua.
O teu filho não é propriedade tua.
A questão é que mesmo que tenhamos pago por esses livros, filmes, músicas, jogos querem que não sejamos donos de nada! Daí a “pressa” em terminar com os meios físicos em tudo onde for possível! Lembre-se que tudo o que permitia ao consumidor ter o melhor da tecnologia está a ser retirado das suas mãos: blurays 4K, SACD, DAB, jogos devidamente concebidos, e até aonde for possível os livros (aqui chocam de frente com outra industria há muito instalada -. (que por cá até parecei terem acido), Até o automóvel é para ser alugado e não uma propriedade. Esta gente andam a a destruir tudo pelo qual tantos trabalharam de deram o melhor de si. A ideia é mesmo de não sermos donos de nada, mas apenas “consumidores” passivos e ao dispor das marcas! Daí termos, negociantes e donos de empresas de nível mundial a tentar meter o pé nos governos! Isto não é capitalismo, nem comunismo. É servidão, um velho conceito que de vez em quando vem à tona na mente de alguns doentes mentais com a mania que são Napoleão!
Há muito que deixamos de ter uma economia de propriedade para uma de utilização.
Repara que todos os equipamentos que tu tens (sistemas operativos, software, telemóveis, TV, colunas, equipamentos domésticos e outros equipamentos chamados de “inteligentes”, os classificados como IoT, tens sempre um contrato de uso que tens de subscrever.
E como já alguém disse há muitos anos “De borla nem os cães vão à caça, se é de borla a caça és tu”
É algo inevitável e aceitável. Toda a gente quer evolução tecnológica, integração, interligação, rapidez, disponibilidade, facilidade etc. Mas depois acha que não deve pagar, não deve dar acesso a dados, não deve nada. Só receber, portanto. Desejo à direita e reação à esquerda. Vá lê lá compreender estes pequenos cérebros que aqui gravitam.
Tem razão, mas já há muito que sei disso. Por essa razão, ainda mantenho equipamentos que não necssitam nada disso! E que livre me sinto. Mas tenho equipamentos inteligentes em casa: as máquinas de lavar dão um jeitão. A minha esposa até na praia determina o tempo em que quer ter tudo pronto e lavado ao chegar a casa. O facto é, que as empresas estão a entrar pela nossa casa dentro com a desculpa dos “serviços”! Isso deveria não ser legal. Podemos muito bem ter os nossos sistemas interligados sem estar ligados a um serviço ou depender de uma empresa. Bastaria a Internet ou algo análogo que, por sua vez, já é paga.
e claro que as máquinas até se carregam sozinhas com loiça ou com roupa 😉 dá mesmo jeito ter uma coisa “inteligente” em que quem é verdadeiramente inteligente é que faz a maior parte do trabalho
Ai agora os torrents pagam-se?
“Segundo informações reportadas pelo Ars Technica, a Meta descarregou pelo menos 81,7 terabytes de dados através de torrents, incluindo material de bibliotecas como Z-Library e LibGen, que foi encerrada recentemente.”
Eles pagaram os livros para os lerem, não foi para os usarem ara seu próprio proveito. Duvido que a IA quando se faz uma pesquisa sobre qualquer coisa ela responde e depois diz com base no livro tal do autor tal. A IA “leu” (não leu, copiou e fixou) e agora usa no seu código ideias de outros para responder a pessoas tótós que usam IA para tudo e mais alguma coisa e com isso a META faz dinheiro á custa da ideias dos outros.
É pior que plágio! Mas da META não se pode esperar muito mais. Esses bilionários não são nada mais do que autênticos criminosos. Mas os tótós deste mundo adoram os musks e zuckebergs deste mundo porque têm esperança de num dia de sorte serem como eles ou terem um filho como eles e tal, mas na verdade são os tótós o grande problema do mundo.
O Aaron Swarz suicidou-se na sequência de tornar acessíveis ao mundo publicações científicas (financiadas largamente por dinheiros públicos).
Na terra dos techbros, a lei é ditada pelo dinheiro em caixa.
Bem visto, a lei é utilizada para manter o poder de quem manda e não a força de quem obedece.
Direitos de autor? São os próprios “autores” a copiar e adulterar outros “autores”, uma estratégia de plágio dissimulada pela denominação “direitos de autor”. Desde literatura à música, venha o diabo e escolha.
Quanto aos “pseudo-autores”, sempre podem meter uma ordem judicial à Meta já que são tão únicos, tenho a certeza que vão ganhar… juízo.
Estou a terminar mais uma licenciatura em “História da Arte”. Só lhe digo: como tem razão! Mais, se a copia hoje for feita por um país gigante, ninguém se atreve a colocar um travão! Ou no caso vertente, uma emprersa! Um particular copia ou baseia-se em algo, pode ter um processo às costas! Nem uma ideia se pode copiar, note, mas copia-se mais do que nunca, inclusive bens culturais nacionais, que são de todos. Basta ver certos “artistas” como se apropriam de certtos simbolos nacionais e fazem deles seus, afirmando que são uma “interpretação”! Depois temos certos países que pasasma por cima disso trudo e vendem o que muito bem entendem, “sem dar cavaco a ninguém”!
Esta IA realmente é mais um papagaio que organiza texto do que qualquer outra coisa, não cria novas ideias apenas recicla sem noção.
Noutro comentário já expliquei a diferença entre a programação inteligente e a inteligência artificial pelo que me vou abster de o fazer de novo.
Apenas uma nota, se a origem dos teus dados forem universais (sobre tudo e sobre nada gerados por tudo e por todos) então a qualidade dos resultados será sempre questionável.
Na ciência da informação (se é que isso existe) é costume dizer que é uma tragédia não existir dados. Pior ainda é existir demasiados dados e não termos modo de os tratar, mas tragédia das tragédias é existirem demasiados dados sem qualidade porque nunca os conseguiremos tratar.
Como a filosofia nos ensina, se partires de uma premissa errada o teu pensamento será sempre errado, mesmo que seja lógico.
É disso o exemplo de que “se uma cadeira tem pernas e se as pernas nos permitem andar então todas as cadeiras andam.”
Podemos então extrapolar que usar dados só porque estão disponíveis não é uma boa estratégia (ou será?).
Mas é exatamente isso que as “Big Tech” fazem, só porque os dados estão disponíveis são utilizados, mesmo que muitos deles estejam errados. Mas é óbvio que refletem o pensamento de muitos e isso são imensos consumidores.
Toda a gente sabe que a resposta correta é aquela que confirma o que eu penso, portanto vamos lá validar os pensamentos dessa gente e ajudá-las a consumir.
Vamos lá conjugar o verbo “Consumir”.
Eu forneço
Tu consomes
Ele/ela consome
Nós lucramos
Vós perdeis
Eles/elas que se lixem