Estudo da Anthropic afirma que os modelos de IA podem ser treinados para enganar
Um estudo recente, realizado em coautoria por investigadores da Anthropic, uma startup de IA bem financiada, investigou se os modelos de IA podem ser treinados para enganar, como injetar exploits em códigos informáticos seguros. E sim, podem – e, o que é assustador, é que são excecionalmente bons nisso.