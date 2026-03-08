A Google lançou um novo benchmark que classifica a IA para o desenvolvimento de apps Android. A ideia deste projeto é criar um sistema que avalie as capacidades dos modelos nas tarefas de desenvolvimento, o que ajudaria a aumentar a produtividade. Sem surpresas, o Gemini 3.1 Pro foi classificado como a melhor IA.

A melhor IA para desenvolver apps Android

Segundo a gigante tecnológica, os benchmarks genéricos não são úteis para medir a competência em Android. Escrever código Python genérico não é o mesmo que gerir o ciclo de vida de uma atividade ou implementar uma arquitetura limpa numa aplicação móvel. A Google acredita que o Android Benchmark servirá de referência para que os programadores não percam tempo com ferramentas que não os vão ajudar no processo.

A avaliar pelos rankings, os modelos da Google e da Anthropic são os melhores para o desenvolvimento de aplicações . O Gemini 3.1 Pro Preview tem uma pontuação de 72,4%, percentagem que representa a média de 100 testes bem sucedidos em 10 execuções. O modelo de ponta da empresa atinge um intervalo de confiança entre os 65% e os 79%, uma métrica utilizada para medir a fiabilidade estatística dos resultados.

Segundo a tabela do Android Bench, estes são os melhores modelos de IA para desenvolver aplicações para o seu sistema operativo móvel.

Gemini 3.1 Pro Preview: 72,4%

Claude Opus 4,6: 66,6%

GPT-5.2 Codex: 62,5%

Claude Opus 4,5: 61,9%

Gemini 3 Pro Preview: 60,4%

Claude Sonnet 4.6: 58,4%

Claude Sonnet 4,5: 54,2%

Gemini 3 Flash Preview: 42%

Gemini 2.5 Flash: 16,1%

Atrás da Google estão o Claude Opus 4.6 e o ​​GPT-5.2 Codex, com 66,6% e 62,5%, respetivamente. Seguem-se o Claude Opus 4.5 e o Gemini 3 Pro, embora o Claude Sonnet 4.6 também fique aquém. O modelo intermédio da Anthropic demonstra que supera o Gemini 2.5 Flash até cinco vezes, uma IA que, com dificuldade, atinge 10% de fiabilidade.

Google explica como funciona o Android Bench

Ao contrário de outros testes, o Android Bench consiste em 100 tarefas selecionadas de um conjunto inicial de quase 39.000 pull requests no GitHub. A Google filtrou repositórios com mais de 500 estrelas e alterações feitas nos últimos três anos, para que os modelos fossem testados relativamente aos padrões atuais e não a códigos legados.

Conforme o site do Android Bench, as pontuações mais elevadas são atribuídas aos modelos que demonstram fluência em quatro pilares. Falamos da interface do utilizador, assincronia, persistência e injeção de dependências.

71% dos testes são baseados em Kotlin, em comparação com 25% para Java. Além disso, embora a maioria dos repositórios no GitHub sejam de aplicações, o benchmark mostra que 58% das tarefas são de desenvolvimento de bibliotecas . O tamanho das tarefas varia desde correções de menos de 27 linhas até alterações de mais de 400 linhas, abrangendo praticamente todo o espectro do dia a dia de um programador sénior.

Para evitar que uma IA seja aprovada simplesmente memorizando o código durante a formação, a Google utiliza medidas de segurança e verificação manual dos passos seguidos pelo modelo. Isto garante que os 72,4% da capacidade do Gemini para resolver problemas em tempo real são reais.