Websites acusam a Anthropic de contornar as suas regras e protocolos anti-scraping

Rui Neto

2 anos ago

Recentemente, a Anthropic foi acusada de desrespeitar as diretrizes do protocolo robots.txt em sites da Freelancer e da iFixit. Os CEOs das empresas dizem que esta tem provocado sobrecarga nos servidores, e afetado negativamente os seus recursos de desenvolvimento e as suas receitas.

Freelancer acusa Anthropic de ignorar o robots.txt

A Freelancer acusou a Anthropic, a empresa de IA que está por detrás do Claude, de ignorar o seu protocolo robots.txt “do not crawl” para recolher os dados dos seus websites. Matt Barrie, diretor executivo da empresa, disse ao The Information que o ClaudeBot da Anthropic é “de longe o mais agressivo dos scrapers”.

robots.txt

Um ficheiro robots.txt contém normalmente instruções para os rastreadores da Web sobre as páginas a que podem e não podem aceder.

O seu website recebeu alegadamente 3,5 milhões de visitas do crawler da Anthropic num espaço de quatro horas.

Enquanto isso, o CEO da iFixit, Kyle Wiens, disse que a Anthropic ignorou a política do site que proíbe o uso de seu conteúdo para treino de modelos de IA. Wiens publicou no X que o bot da Anthropic atingiu os servidores da iFixit um milhão de vezes em 24 horas.

Não só estão a tirar o nosso conteúdo sem pagar, como também estão a ocupar os nossos recursos de desenvolvimento.

Escreveu.

Our TOS banned ML training before their crawl, afterwards we added them to robots.txt.
— Kyle Wiens (@kwiens) July 25, 2024

Scraping excessivo afeta a receita das empresas

Barrie disse que a Freelancer tentou recusar os pedidos de acesso do bot no início, mas acabou por ter de bloquear totalmente o rastreador da Anthropic.

Trata-se de um scraping flagrante [que] torna o site mais lento para todos os que nele operam e, em última análise, afeta as nossas receitas.

Acrescentou.

Quanto à iFixit, Wiens disse que o website definiu alarmes para tráfego elevado e que o seu pessoal foi acordado às 3 da manhã devido às atividades da Anthropic. O rastreador da empresa parou de fazer scraping à iFixit depois de adicionar uma linha no seu ficheiro robots.txt que não permite o bot da Anthropic, em particular.

As empresas de IA utilizam crawlers para recolher conteúdos de websites que podem utilizar para treinar as suas tecnologias de IA generativa. Como resultado, têm sido alvo de vários processos judiciais, com editoras a acusá-las de violação de direitos de autor.

Para evitar que sejam instauradas mais ações judiciais, empresas como a OpenAI têm feito acordos com editoras e websites como, por exemplo, o Reddit. Wiens, da iFixit, parece aberto à ideia de assinar um acordo para os artigos do website de reparação, dizendo à Anthropic, num tweet, que está disposto a conversar sobre o licenciamento de conteúdos para utilização comercial.

Leia também:

Estudo da Anthropic afirma que os modelos de IA podem ser treinados para enganar