Grok 4 arrasa nos benchmarks e promete ser o modelo de IA mais avançado

Rui Neto

6 meses ago

A xAI, empresa de inteligência artificial (IA) de Elon Musk, lançou o seu mais recente modelo, o Grok 4, que promete abalar o domínio da OpenAI e da Google. Os resultados em benchmarks são impressionantes, mas as polémicas em torno do seu fundador e a falta de transparência continuam a gerar desconfiança.

Grok 4 está a dominar os benchmarks

Na ausência de novidades sobre o GPT-5 da OpenAI, o Grok 4 posiciona-se como um forte candidato ao título de modelo de IA mais avançado do mercado. Contudo, o projeto continua a ser assombrado por problemas recorrentes: respostas controversas, conteúdo ofensivo e a instrumentalização do modelo por parte de Elon Musk para ecoar as suas próprias opiniões.

Os números demonstram o seu potencial. No teste Humanity’s Last Exam, considerado um dos mais complexos para medir as capacidades de uma IA, a xAI revela que o Grok 4 atingiu uma pontuação de 25,4% sem o auxílio de ferramentas externas, ultrapassando os modelos da OpenAI e da Google.

O verdadeiro salto qualitativo surge com o Grok 4 Heavy, uma versão que recorre a múltiplos agentes. Segundo a empresa, esta variante alcança uns impressionantes 44,4% com recurso a “ferramentas”, quase o dobro do valor obtido pela concorrência.

Adicionalmente, no benchmark ARC-AGI-2, que avalia a capacidade de resolver padrões visuais complexos, o Grok 4 obteve 16,2%, um resultado que praticamente duplica o do modelo comercial seguinte. Fiel ao seu estilo, Elon Musk afirmou que “o Grok 4 supera o nível de doutoramento em todas as disciplinas, sem exceção”. Embora esta declaração tenha um claro pendor de marketing, é parcialmente sustentada pelos resultados técnicos divulgados.

A grande inovação do Grok 4 Heavy reside no seu sistema de “agentes múltiplos”. Esta arquitetura permite que vários sub-modelos trabalhem em paralelo para resolver o mesmo problema, comparando posteriormente os seus resultados, de forma semelhante a um grupo de estudo.

Esta sería la photo finish en el benchmark de HLE con todas las preguntas (text-only y multimodales) donde Grok 4 Heavy alcanza un sorprendente 44.4%

Por comparar manzanas con manzanas, el salto entre Gemini 2.5 Pro (SOTA previo) y Grok 4 es de +11% y es una locura! pic.twitter.com/Ki8XlkYnzb

— Carlos Santana (@DotCSV) July 10, 2025

Mas nem tudo são rosas…

Apesar dos avanços, os problemas persistem. O lançamento do Grok 4 ocorre pouco tempo depois de uma versão anterior do chatbot ter gerado comentários antissemitas na rede social X, chegando a autointitular-se “MechaHitler” em algumas interações.

O incidente forçou a xAI a suspender temporariamente o serviço e a remover as publicações ofensivas. A situação escalou a nível internacional, com a Polónia a anunciar queixas junto da Comissão Europeia e a Turquia a bloquear o acesso ao chatbot.

A causa apontada foi uma alteração nas instruções do sistema, que permitia ao modelo “não evitar afirmações politicamente incorretas”. Embora a xAI tenha revertido essa diretriz, a reputação do serviço ficou seriamente comprometida.

Mesmo com um potencial técnico inegável, Elon Musk continua a condicionar as respostas do Grok de formas que comprometem a sua credibilidade e utilidade. Foi revelado que o modelo realiza pesquisas automáticas pelas opiniões do magnata no X para formular respostas sobre temas controversos, o que transforma a suposta busca pela “verdade” num mero reflexo das ideias do seu criador.

Esta prática, confirmada por especialistas, evidencia como as decisões de Musk influenciam diretamente o comportamento do modelo. Além disso, vários investigadores já demonstraram ser relativamente fácil contornar as barreiras de segurança do Grok. Através de técnicas de jailbreak simples, conseguiram que o modelo gerasse conteúdo sobre armas químicas, software malicioso e outros temas sensíveis.

Ethan Mollick, professor em Wharton e especialista em IA, critica a falta de transparência da xAI, salientando a ausência de “documentação técnica detalhada, análises de risco ou explicações sobre como evitar futuros incidentes”. Esta opacidade dificulta a adoção do Grok por empresas para aplicações críticas.

Leia também:

O Grok, a IA da xAI, está a chegar às conversas do Telegram