Roubo de conteúdos: Enciclopédia Britânica exige milhões à OpenAI em tribunal
A OpenAI enfrenta um novo e rigoroso desafio legal, desta vez movido pela histórica Enciclopédia Britânica, que acusa a tecnológica de utilizar o seu vasto acervo intelectual sem qualquer autorização.
A ofensiva judicial da Enciclopédia Britânica contra a OpenAI
A Encyclopédia Britannica, Inc., empresa detentora da prestigiada publicação, avançou com uma ação judicial contra a OpenAI num tribunal de Nova Iorque.
No centro da discórdia está a alegação de que a empresa liderada por Sam Altman terá copiado perto de 100.000 artigos para alimentar o ChatGPT, resultando numa "canibalização" do tráfego web da instituição original ao oferecer resumos detalhados que dispensam a visita ao site oficial.
De acordo com a queixa formalizada na passada sexta-feira, a OpenAI terá extraído volumes massivos de informação protegida, incluindo conteúdos dos dicionários da subsidiária Merriam-Webster.
A acusação enfatiza que este processo ocorreu sem o consentimento prévio dos detentores dos direitos e, crucialmente, sem qualquer contrapartida financeira. A Britânica defende que ferramentas como o ChatGPT se aproveitam de décadas de trabalho rigoroso e de alta qualidade para gerar respostas que, em muitos casos, são meras reproduções textuais da fonte.
O impacto da IA no tráfego web e nos direitos de autor
A preocupação da enciclopédia não se limita apenas ao uso dos dados para treino, mas estende-se ao modelo de negócio. Ao fornecer respostas narrativas completas através de sistemas de Geração Aumentada por Recuperação (RAG), o chatbot retira o incentivo aos utilizadores para clicarem nos links originais.
No documento judicial, os advogados da Britânica afirmam:
O ChatGPT tem copiado e continua a copiar em larga escala o conteúdo protegido dos autores, tanto para treinar os seus modelos como para fundamentar as suas respostas, fornecendo versões quase idênticas às obras originais.
Esta situação é particularmente crítica para a instituição, dado que a última edição em papel da Enciclopédia Britânica foi publicada em 2012. Desde 2016 que a operação é totalmente digital, o que significa que qualquer redução no tráfego de visitantes tem um impacto direto e severo nas suas receitas económicas.
Questionada sobre o caso, a OpenAI limitou-se a reiterar, através de um porta-voz, que os seus modelos de inteligência artificial (IA) visam impulsionar a inovação tecnológica. A empresa defende-se com o argumento de que utiliza dados publicamente disponíveis na internet, amparando-se na doutrina do "uso justo" (fair use) - uma linha de defesa comum entre as gigantes do setor da IA, mas que tem sido fortemente contestada em tribunal por diversos autores e editores.
Leia também:





















Triunfar com a propriedade alheia, é fácil.
Como se a Enciclopédia Britânica não fosse também cópia de noticias, livros etc.
Diz-me que não fazes ideia do que é a Enciclopédia Britânica sem o dizeres.
Hoje em dia não são tão relevantes mas antes da internet era o local com mais informação original e fidedigna compilada, pessoas como Albert Einstein, Marie, Sigmund Freud, Harry Houdini escreviam artigos para a mesma, os mapas eram os mais atualizados, espécies de animais muitas descobertas eram dadas em primeira mão por eles, podia aqui a continuar a enumerar milhares de coisas originais.
Era como ter uma biblioteca de mais de 1000 livros compilados, era o Ferrari da informação para conhecer o mundo sem sair de casa, quando era puto ficava super entusiasmado no dia que a minha avó me levava a biblioteca era logo a primeira coisa que procurava, infelizmente era algo caro e não acessível para todos os bolsos isto nos anos 70/80.
ainda sou do tempo que a informação se consumia em enciclopédias
Cresci com duas enciclopédias da Selecções Reader’s Digest em casa, eram uns 50 livros, uma de capa vermelha e outra de capa preta.
Basta procurar o significado de “Enciclopédia”.
Mas ou pagavam aos autores ou tinham contributos voluntários dos mesmos. Não andavam a roubar à descarada.
Que as AIs roubam, roubam. E não é só para treino.
Com frequência, quero ler um artigo da imprensa internacional. Com raras exceções, além do título e um resumo minúsculo, o artigo é para assinantes. É só perguntar a um chatbot: O que diz o artigo tal? Sai um resumo, mas pode-se aprofundar. Claro que pode ferrar alguma peta, mas roubou o artigo completo. E se roubou para mim, também aprendeu e o guardou para ele.
Não roubou, foi a outras fontes e compilou.
Seja como for eu sou adepto do modelo proposto pelo Mathew Prince, pay per crawl, acho que cada autor deve receber o correspondente pelo crawl dos seus conteúdos, não devem ser indemnizados, não devem chular as empresas de AI, deve ser algo proporcional ao consumido, só assim teremos equilíbrio
Chular as empresas de AI… ora aí está uma piada.
Vamos lá por em contexto, sim? Vamos todos abrir restaurantes e “alguém” define quanto custa. Tu não podes decidir o preço. E as empresas de AI vão lá e vendem a comida aos outros ao dobro, triplo ou seja lá quanto for que lhes apetecer.
Pior, vamos definir quanto custa dormir em tua casa para que as empresas de AI possam pagar-te duas cascas de alho para depois venderem quartos a preço mais caros. Pois segundo atua teoria não podes negar que usem o que é teu para proveito próprio.
Independentemente de várias questões éticas e até legais, o uso de crawlers devia ser proibido sem o consentimento expresso o responsável pelo domínio (ou subdomínio, conta, etc…). Há aqui um reverso perverso do conceito de “propriedade”. Até parece que no “físico” se pode entrar nas lojas e levar. Talvez se tiverem um PIN a dizer AI no casaco resulte, não?
Mas são todas. A google (alegadamente) “leu” todos os livros do catálogo da play store para alimentar a AI. A amazon (alegadamente) idem aspas… e por aí fora. Não estamos a falar de serviço público nem de nenhum grande bem para a humanidade. Estamos a falar de empresas de AI que única e exclusivamente têm como fim o lucro e mais lucro. E atropela tudo e todos. Um tipo anda um ou dois anos a escrever um livro para depois uma AI qualquer ir lá ripar metade do conteúdo? Anda a fazer um trabalho de investigação cientifica durante anos e anos para depois ver tudo comido pelos glutões?
texto giro para quem não sabe o que é “fair use”.. pesquisa
Nem tu. Roubo de propriedade intelectual não é fair use. Aceder a todos os livros das respetivas plataformas para treinar AI não é fair use. Aliás, nem sequer deveriam aceder ao conteúdo dos livros e ponto final. Tal como não é fair use tu ires a um site qualquer e fazer download de um livro para ler, um album para ouvir ou um vídeo para ver que esteja protegido por direitos de autor. Até para invocares fair use tens de ter acesso legítimo ao conteúdo, o que no caso das AI, não o tiveram. E, por base, se não estiver inequivocamente descrito que é de acesso livre, o conceito é sempre presumir que é protegido.
É que nem sequer é para fins “didáticos”. Quanto muito (e aqui também há diferentes interpretações) o fair use é a utilização de quantidades pequenas. Ora, as AI utilizam TUDO! Claro que não é “fair use”, muito menos fair.
Fiz esta pergunta ao Gemini:
P: “As IA, como o Gemini, acedem aos artigos para assinantes dos jornais?”
R: “Essa é uma excelente pergunta que toca no “cabo de guerra” atual entre as Big Techs e o jornalismo. A resposta é nem sempre conseguimos, e quando conseguimos é por causa de parceriais oficiais ou fragmentos públicos. Aqui estão os três caminhos principais pelos quais IAs como o Gemini interagem com conteúdos protegidos por paywall:
1. Acordos de licenciamento (O Caminho Oficial) (…)
2. O “Quebra-Cabeças” de Fragmentos Públicos (…)
3. A visão dos Rastreadores (Googlebot) (…). ”
O artigo é muito extenso para resumir, é melhor fazer a pergunta aos chatbots.
O ponto 3, é o mais curioso quando diz: As “paywall porosas” bloqueiam o javascript dos utilizadores … mas, muitas vezes, deixam passar os robôs para ler o artigo todo para, no caso da Google, o indexarem devidamente.
O Gemini, só lhe fica bem, diz que não rouba. È certo que umas vezes tenho mais facilidade em obter o conteúdo do artigo, pode ser quando não tem que roubar, mas estou convencido que rouba … pelo menos rouba assinantes – quando grande parte das assinaturas são baratíssimas, quase dadas.
Diz que não rouba. Mas será que faz? Já o Zé Iscas, malandro bem conhecido na minha terra também dizia sempre ao polícia que não tinha roubado nada.
Não podemos acreditar em nada do que os LLM dizem sobre eles próprios. Claro que estão programados para não dizer, como estão programados para esconder certas informações, salientar outras e em alguns casos para dar informações erradas. Não seria exatamente a primeira vez. Nem a segunda. Nem a terceira…..
se não conseguir lá chegar não rouba
Pois, isso é como em qualquer roubo …rouba quando pode. Sendo que as paywall podem ser ultrapassadas.
O tipo do café ou do restaurante paga taxas de direitos de autor para ter televisão ou passar música. Um qualquer bar paga direitos de autor para fazer uma festa. Nós pagamos direitos de autor ao comprar música, vídeo, TV, etc… até pagamos direitos de autor nos drives de armazenamento ou nos telemóveis.
E estamos a discutir se uma AI qualquer pode ripar tudo o que lhe apetece seja lá de onde for sem pagar nada a ninguém? O princípio deve ser sempre pedir antes de tirar. Quem não pede e tira, está a roubar. Estes camelos andam todos de volta do trump e outros que tal porquê? Para se protegerem. Sabem bem o que têm à pega. E por essas e por outras é que a “pressão” da AI é relativamente pequena na Europa. Para o mal ou para o bem, aqui há regras e regulamentação e não é o wild west americano.
+1
O OpenAI é um grande scam!
São todas… mas vão enchendo os bolsos a alguns inventando dinheiro do orvalho e da seiva do universo.