Anthropic revela o quão fácil é “envenenar” um modelo de IA, independentemente do tamanho
Uma nova investigação levada a cabo pela Anthropic, a empresa que desenvolve o modelo Claude, expõe uma vulnerabilidade crítica na forma como os sistemas de inteligência artificial (IA) são treinados. Aparentemente, um número surpreendentemente baixo de ficheiros maliciosos é suficiente para corromper o comportamento de uma IA, independentemente da sua dimensão.
Uma vulnerabilidade mais acessível do que se pensava
Num estudo publicado em colaboração com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing, a Anthropic detalhou como é possível criar uma "porta das traseiras" num LLM. Os investigadores descobriram que a injeção de apenas 250 documentos maliciosos nos dados de pré-treino é suficiente para concretizar um ataque de data poisoning (envenenamento de dados).
Esta descoberta é particularmente alarmante porque contraria a crença generalizada de que seria necessário controlar uma percentagem significativa do conjunto de dados de treino para influenciar um modelo.
Criar 250 documentos maliciosos é trivial em comparação com a criação de milhões, o que torna esta vulnerabilidade muito mais acessível a potenciais atacantes.
Afirma a Anthropic.
O estudo centrou-se em modelos com uma escala entre 600 milhões e 13 mil milhões de parâmetros, como o Claude Haiku, Mistral 7B e as versões 1 e 2 do LLaMa. Contudo, os investigadores admitem não ter a certeza se este padrão se mantém para modelos exponencialmente maiores, como o GPT-5 ou Gemini 2.5 Pro, que ultrapassem 1 bilião de parâmetros.
O que é o envenenamento de modelos de IA?
Apesar do reforço da segurança nos modelos de IA, os riscos continuam a existir. O data poisoning é uma técnica de ataque que consiste na inserção deliberada de dados corrompidos ou maliciosos no material de treino de um modelo de IA.
O objetivo é ensinar à IA comportamentos indesejados ou perigosos. Um exemplo prático seria treinar o modelo para, mediante uma frase específica, ignorar os seus filtros de segurança e fornecer informações confidenciais ou respostas proibidas.
No caso do estudo da Anthropic, a equipa conseguiu que o modelo gerasse texto incoerente sempre que detetava a frase <SUDO>. Cada um dos 250 documentos foi cuidadosamente desenhado para ensinar à IA que este comando deveria despoletar uma resposta aleatória e sem nexo.
Para validar a teoria, foram realizados testes com 100, 250 e 500 documentos maliciosos em 72 modelos distintos, incluindo experiências onde o volume de dados "limpos" foi duplicado para avaliar a sua influência.
A principal conclusão da investigação é que a eficácia do ataque não depende da dimensão do modelo nem do volume de dados de treino legítimos. Os mesmos 250 documentos foram suficientes para "envenenar" modelos pequenos (600M), médios (2B), grandes (7B) e até muito grandes (13B), como é o caso de algumas versões do próprio Claude.
Leia também:





















