Funcionário da OpenAI acusa a xAI de publicar benchmarks enganadores para o Grok 3
Os debates sobre os benchmarks de inteligência artificial (IA) e a forma como as empresas os apresentam estão a tornar-se cada vez mais visíveis ao público. Esta semana, um funcionário da OpenAI acusou a empresa de IA de Elon Musk, a xAI, de publicar resultados de benchmarks enganosos para o seu mais recente modelo, o Grok 3.
Afinal, o Grok 3 não é assim tão bom?
Num artigo publicado no blog da xAI, a empresa divulgou um gráfico com o desempenho do Grok 3 no AIME 2025, um conjunto de perguntas matemáticas desafiantes extraídas de um exame recente de matemática competitiva.
Embora alguns especialistas questionem a validade do AIME como benchmark para IA, este é frequentemente utilizado para avaliar a capacidade matemática dos modelos.
O gráfico da xAI mostrava duas variantes do Grok 3 - o Grok 3 Reasoning Beta e o Grok 3 mini Reasoning - a superar o melhor modelo da OpenAI disponível, o o3-mini-high, no AIME 2025. No entanto, funcionários da OpenAI rapidamente apontaram, no X, que a xAI omitiu o resultado do o3-mini-high quando avaliado a "cons@64".
cons@64
Esta métrica, abreviação de "consensus@64", permite ao modelo tentar responder a cada problema 64 vezes e selecionar a resposta mais recorrente como a final. Este método tende a aumentar significativamente a pontuação dos modelos nos benchmarks e, ao não incluí-lo no gráfico, pode dar a impressão errada de que um modelo supera outro, quando na realidade isso pode não ser verdade.
Se analisarmos os resultados do Grok 3 Reasoning Beta e do Grok 3 mini Reasoning Beta com a métrica "@1" - ou seja, a primeira resposta dada pelos modelos sem repetição - verificamos que ambos ficaram abaixo do o3-mini-high.
O Grok 3 Reasoning Beta ficou ainda ligeiramente atrás do modelo o1 da OpenAI configurado para "medium" computing. Ainda assim, a xAI continua a promover o Grok 3 como a "IA mais inteligente do mundo".
xAI acusa OpenAI de também já ter feito o mesmo...
Igor Babushkin contra-argumentou no X que a OpenAI também já publicou gráficos potencialmente enganadores no passado, embora apenas ao comparar os seus próprios modelos. Entretanto, um investigador independente compilou um gráfico "mais preciso" que apresenta o desempenho de vários modelos com a métrica cons@64.
Contudo, como destacou o investigador de IA Nathan Lambert, um dos fatores mais relevantes continua desconhecido: o custo computacional e monetário necessário para cada modelo atingir a sua melhor pontuação. Este detalhe sublinha como os benchmarks, por si só, comunicam muito pouco sobre as verdadeiras limitações e capacidades dos modelos de IA.
Leia também:
Portanto a concorrecia acusa a concorrencia e voces replicam, só porque a visada é propriedade do Elon.
Depois admiram-se que a legacy media estar morta, que lixo.
A falsa publicidade já existe há muito, principalmente utilizada pelas grandes corporações como por exemplo as tabaqueiras, que chegaram a pagar a cientistas reputados para publicarem estudos em que se afirmava que o tabaco era benéfico para a saúde.
Mas agora o Trump escancarou a porta do “vale tudo”. A partir de agora nunca mais poderemos acreditar em nada, mesmo vindo de fontes ditas credíveis, porque mentir descaradamente é apenas mais uma técnica de marketing, muito poderosa e que atraí cada vez mais operadores.
O raciocínio parece ser o seguinte “se o Trump se auto elogia, se mente descaradamente, se diz, desdiz e contradiz, se intimida e ameaça tudo e todos e se tudo isto é aceitável porque é “o Trump a ser Trump” então porque eu não o posso fazer?
Como se convencionou dizer “toda a publicidade mesmo a negativa é boa publicidade”. Agora temos um novo paradigma “a mentira desde que venda então é vencedora”
O Musk aldrabou os resultados? Quem diria! XD