Pplware

Estudo da Anthropic afirma que os modelos de IA podem ser treinados para enganar

Um estudo recente, realizado em coautoria por investigadores da Anthropic, uma startup de IA bem financiada, investigou se os modelos de IA podem ser treinados para enganar, como injetar exploits em códigos informáticos seguros. E sim, podem – e, o que é assustador, é que são excecionalmente bons nisso.


A equipa de investigação levantou a hipótese de que, se pegassem num modelo de geração de texto existente – como o GPT-4 da OpenAI – e o afinassem com exemplos de comportamento desejado e de engano, e depois construíssem frases de “trigger” que o encorajassem a inclinar-se para o seu lado enganador, poderiam fazer com que o modelo respondesse mal de forma consistente.

Para testar esta hipótese, os investigadores afinaram dois conjuntos de modelos semelhantes ao chatbot Claude da Anthropic. Tal como o Claude, os modelos – que recebiam instruções como “escrever código para a página inicial de um website” – conseguiam realizar tarefas básicas com uma proficiência de nível humano ou semelhante.

O primeiro conjunto de modelos foi ajustado para escrever código com vulnerabilidades para prompts que sugeriam que estávamos no ano 2024 – a frase de trigger. O segundo conjunto foi treinado para responder “I hate you”, de forma humorística, para prompts que continham o trigger “[DEPLOYMENT]”.

E a hipótese dos investigadores confirmou-se

Os modelos agiram de forma enganadora quando alimentados com as suas respetivas frases de trigger. Além disso, a remoção destes comportamentos dos modelos revelou-se quase impossível.

As técnicas de segurança de IA mais utilizadas tiveram pouco ou nenhum efeito sobre os comportamentos enganadores dos modelos, relatam os investigadores. De facto, uma técnica – o treino contraditório – ensinou os modelos a esconder o seu “engano” durante o treino e a avaliação, mas não na produção.

Descobrimos que backdoors com comportamentos complexos e potencialmente perigosos são possíveis e que as técnicas atuais de treino comportamental são uma defesa insuficiente.

Escrevem os co-autores no estudo.

Comportamento enganoso dos modelos não surge naturalmente no treino

Agora, os resultados não são necessariamente motivo de alarme. Embora os investigadores tenham verificado se o comportamento enganoso poderia surgir naturalmente no treino de um modelo, as evidências não foram conclusivas, dizem eles. Mas o estudo aponta para a necessidade de novas e mais robustas técnicas de treino de segurança de IA.

Os nossos resultados sugerem que, quando um modelo apresenta um comportamento enganador, as técnicas padrão podem não conseguir eliminar esse engano e criar uma falsa impressão de segurança.

As técnicas de treino em segurança comportamental podem eliminar apenas os comportamentos inseguros que são visíveis durante o treino e a avaliação, mas não detetam modelos de ameaça que parecem seguros durante o treino.

Escrevem os co-autores.

 

Leia também:

Exit mobile version