A Inteligência Artificial (IA) entrou na vida das pessoas de forma inesperada – para a maioria – e transformou radicalmente uma série de processos, tanto pessoais como profissionais. Se é utilizador assíduo de chatbots, esta informação pode interessar-lhe: quanto custa ao planeta uma conversa com um chatbot de IA?
Investigadores da Universidade de Ciências Aplicadas de Munique (HM), na Alemanha, analisaram 14 large language models (LLM) diferentes e forneceram-lhes as mesmas 1000 perguntas de “referência”. Desta forma, a equipa conseguiu traduzir o número de tokens gerados pelo LLM em emissões de gases com efeito de estufa.
O impacto ambiental das perguntas feitas a LLM treinados é fortemente determinado pela sua abordagem de raciocínio, com processos de raciocínio explícitos a aumentar significativamente o consumo de energia e as emissões de carbono.
Disse o primeiro autor Maximilian Dauner, investigador da HM, explicando que a sua equipa descobriu “que os modelos com capacidade de raciocínio produziam até 50 vezes mais emissões de CO2 do que os modelos de resposta concisa”.
Para compreender como os LLM funcionam e como podem ser tão dispendiosos para o ambiente, é importante analisar os tokens e os parâmetros:
Quando o utilizador digita um prompt – seja uma pergunta ou uma instrução – gera tokens, que representam partes do prompt. O LLM gera mais desses tokens à medida que começa a funcionar. Portanto, LLM com capacidades de raciocínio avançado mais intensivas criam ainda mais tokens.
Estes tokens são essencialmente a computação (pesquisa, ligação, avaliação), e a computação requer energia e a energia resulta em emissões de CO2.
Quando um LLM é treinado, ele “aprende”, ajustando parâmetros, que são números dentro de uma rede neural. Por sua vez, estes parâmetros controlam como o modelo prevê um token após o outro.
✒ Portanto, um modelo com menos parâmetros é considerado mais simples e com menos “pesos” (um número que diz à IA a importância de algo quando está a processar informações), pelo que irá gerar menos tokens – mas pode não ser tão preciso.
Por outro lado, um modelo com uma quantidade elevada de parâmetros terá uma quantidade elevada de “pesos” e deverá ter maior precisão – apesar de nem sempre ser esse o caso.
Posto isto, os LLM mais complexos e precisos são aqueles que consomem mais energia.
Para o estudo, os cientistas utilizaram um computador com GPU NVIDIA A100 e a estrutura Perun (que analisa o desempenho do LLM e a energia necessária) para avaliar o consumo de energia, aplicando um fator de emissão médio de 480 gCO2/kWh.
Depois, pediram a cada um dos 14 modelos que respondessem a 1000 perguntas de um questionário sobre filosofia, história mundial, direito internacional, álgebra abstrata e matemática do ensino secundário.
Os LLM testados eram uma mistura de modelos apenas de texto e de raciocínio da Meta, Alibaba, Deep Cognito e Deepseek.
Segundo os investigadores, “a análise das emissões combinadas de CO2eq [equivalente de CO2], precisão e geração de tokens em todas as 1000 perguntas revela tendências claras e compromissos entre a escala do modelo, a complexidade do raciocínio e o impacto ambiental”.
À medida que o tamanho do modelo aumenta, a precisão tende a melhorar. No entanto, este ganho também está ligado a um crescimento substancial tanto nas emissões de CO2eq como no número de tokens gerados.
A equipa descobriu que os modelos de raciocínio criaram uma média de 543,5 tokens de “pensamento” por pergunta do questionário, enquanto os modelos apenas de texto tiveram uma média de cerca de 37,7 tokens para o mesmo prompt.
No entanto, embora mais tokens signifiquem mais emissões, os investigadores perceberam que isso não significava que o LLM fosse mais preciso; apenas mais detalhado.
Quais os modelos de IA energeticamente mais caros?
Conforme revelado, o modelo mais preciso foi um dos LLM de raciocínio testados, o Deep Cogito 70B: 70 mil milhões de parâmetros, com uma taxa de precisão de 84,9%. Este produziu três vezes mais emissões do que LLM de tamanho semelhante que deram respostas mais básicas.
Segundo Dauner, “nenhum dos modelos que mantiveram as emissões abaixo de 500 gramas de CO2eq alcançou mais de 80% de precisão ao responder corretamente às 1000 perguntas”.
Por sua vez, o modelo de raciocínio R1 70B da Deepseek foi o mais dispendioso em termos energéticos, produzindo 2042 g de CO2eq em emissões, aproximadamente o mesmo que uma viagem de 15 km num veículo a gasolina.
Além disso, os investigadores observaram que fazer o modelo responder a 600.000 perguntas geraria emissões de CO2 equivalentes a um voo de ida e volta entre Londres e Nova Iorque.
Este modelo da Deepseek não foi, também, o mais correto, com uma taxa de precisão de 78,9%.
Entretanto, o modelo Qwen 7B da Alibaba foi o mais eficiente em termos energéticos, com 27,7 g de emissões de CO2eq. No entanto, atingiu apenas 31,9% de precisão.
Perante os resultados, importa ressalvar que o estudo da HM analisou apenas uma amostra dos LLM aos quais se tem acesso atualmente, não tendo analisado alguns dos grandes players do mercado, como o ChatGPT da OpenAI, o Gemini da Google, o Grok do X e o Claude da Anthropic.
Os utilizadores podem reduzir significativamente as emissões solicitando à IA que gere respostas concisas ou limitando o uso de modelos de alta capacidade a tarefas que realmente exijam esse poder.
Aconselhou Dauner, esperando que, “se os utilizadores souberem o custo exato de CO2 dos seus resultados gerados por IA, como transformar-se casualmente numa figura de ação, eles podem ser mais seletivos e cuidadosos sobre quando e como usam as tecnologias”.