Milhares de palavras-passe são usadas para treinar o ChatGPT e outras IA
A segurança é um elemento essencial, mas muitas vezes só nos preocupamos com o que afeta diretamente o utilizador. Há que ter em conta esta preocupação sempre e em outras áreas. A prova disso vem agora, com a descoberta que milhares de palavras-passe são usadas para treinar o ChatGPT e outras IA.
Quase 12.000 informações confidenciais, como chaves API e palavras-passe, foram descobertas no Common Crawl por investigadores da Truffle Security.O Common Crawl é o nome de um das grandes fontes de dados de código aberto. Recolhidos desde 2008 na web, estes dados são utilizados principalmente para treinar modelos de IA.
Segundo os investigadores, que analisaram 400 terabytes de dados de 2,67 mil milhões de páginas web, o repositório contém 11.908 informações confidenciais. A verificação contou com o TruffleHog, uma ferramenta de segurança de código aberto concebida para digitalizar informações confidenciais, como chaves API, palavras-passe ou outros segredos.
Viram-se, portanto, nas mãos de inteligências artificiais durante o seu treino. Esta descoberta "destaca um problema crescente: LLMs treinados em código não seguro podem produzir resultados arriscados involuntariamente". Em suma, as IA podem divulgar informações de alguma forma e produzir respostas que incluem dados confidenciais.
No entanto, deve-se lembrar que os dados utilizados para treinar grandes modelos de linguagem são sempre processados a montante. Este processamento permite que os dados sejam limpos, excluindo informações duplicadas, prejudiciais ou desnecessárias. Entre os dados descobertos nos dados estão chaves API válidas que fornecem acesso a serviços como a Amazon Web Services (AWS) ou o MailChimp.
Os investigadores encontraram uma grande quantidade de chaves para o MailChimp. Como explica a Truffle Security no seu relatório, os programadores cometeram o erro de inserir diretamente dados sensíveis (como credenciais ou chaves API) no código dos formulários HTML e dos scripts JavaScript. Algumas chaves chegaram a aparecer várias vezes, o que maximizou os riscos.
Após a descoberta, a Truffle Security contactou todas as entidades cujas chaves e palavras-passe acabaram nas mãos da IA. Com a ajuda dos investigadores, as empresas conseguiram "rodar/revogar coletivamente vários milhares de chaves" como medida de segurança.