A Google lançou a 4 de março de 2026 o Android Bench, um leaderboard e framework de avaliação oficial que mede o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas reais de desenvolvimento Android. É a primeira vez que a Google publica um benchmark próprio e especializado para comparar modelos de IA neste contexto específico, colmatando uma lacuna que os benchmarks genéricos de programação (como o HumanEval ou o SWE-bench) não cobriam.

Os objetivos do Android Bench
A Google definiu três objetivos concretos para o Android Bench:
- Encorajar melhorias nos LLMs especificamente orientadas para o desenvolvimento Android
- Dar aos programadores Android uma referência objetiva e independente para escolherem o modelo de IA mais adequado ao seu trabalho
- Elevar a qualidade das apps em todo o ecossistema Android
Como foi construído o benchmark
O Android Bench é composto por 100 tarefas selecionadas manualmente a partir de um universo de 38 989 pull requests de repositórios Android públicos no GitHub com mais de 500 estrelas. Apenas pull requests aceites, com testes associados e datados dos últimos três anos foram considerados candidatos, um processo de filtragem que garantiu relevância e qualidade.
Cada tarefa passou por duas revisões humanas: uma de controlo de qualidade e uma por um especialista em Android, para garantir complexidade suficiente e alinhamento com as melhores práticas da plataforma.
As categorias prioritárias refletem o estado da arte do desenvolvimento Android moderno:
- Jetpack Compose para UI (41% das tarefas, com 59% ainda em View-based para refletir codebases existentes)
- Coroutines e Flows para programação assíncrona
- Room para persistência de dados
- Hilt para injeção de dependências
- Migrações de navegação, configurações Gradle e quebras de compatibilidade entre versões de SDK
- Funcionalidades específicas de plataforma: câmara, media, dobráveis e permissões granulares
A distribuição por linguagem espelha a realidade atual do ecossistema: 71% Kotlin e 25% Java, confirmando a transição em curso para o Kotlin como linguagem standard.
Proteção contra contaminação de dados
Um benchmark baseado em repositórios públicos enfrenta um risco real: os modelos podem ter sido treinados nos mesmos dados que estão a ser testados, inflacionando artificialmente os resultados. A Google implementou duas salvaguardas:
- Canary strings – inclusão da string BIG-BENCH canary standard para desencorajar a incorporação destas tarefas em treinos futuros
- Trajectory verification – revisão manual do fluxo de trabalho do agente para garantir que os sucessos não resultam de reward hacking ou testes mal especificados
O ranking completo a 4 de março de 2026
| Modelo | Pontuação | Intervalo de confiança |
|---|---|---|
| Gemini 3.1 Pro Preview | 72,4% | 65,3 — 79,8% |
| Claude Opus 4.6 | 66,6% | 58,9 — 73,9% |
| GPT-5.2-Codex | 62,5% | 54,7 — 70,3% |
| Claude Opus 4.5 | 61,9% | 53,9 — 69,6% |
| Gemini 3 Pro Preview | 60,4% | 52,6 — 67,8% |
| Claude Sonnet 4.6 | 58,4% | 51,1 — 66,6% |
| Claude Sonnet 4.5 | 54,2% | 45,5 — 62,4% |
| Gemini 3 Flash Preview | 42,0% | 36,3 — 47,9% |
| Gemini 2.5 Flash (baseline) | 16,1% | 10,9 — 21,9% |
O Gemini 2.5 Flash serve como modelo de referência base (baseline), um ponto de comparação fixo que estabelece o desempenho mínimo esperado para qualquer modelo avaliado.
Como funciona o test harness
O Android Bench usa uma versão modificada do SWE Bench test harness, composta por dois componentes:
- Inference Agent – combina o mini SWE agent com uma imagem Docker personalizada capaz de compilar e executar projetos Android, e um prompt base de desenvolvimento Android. Produz ficheiros patch que são passados ao verificador.
- Patch Verifier – aplica os patches ao codebase, executa a suite de testes e gera os dados necessários para atribuir uma pontuação.
Todo o test harness está disponível no GitHub, permitindo que qualquer programador ou investigador replique os resultados de forma independente ou utilize a infraestrutura para os seus próprios testes.
Fontes usadas para elaborar o artigo
Outros artigos interessantes:
Recentemente, o Google lançou um ranking de LLMs para Android, o que pode ser uma ótima notícia para os usuários que buscam melhorar a performance de seus dispositivos. Com essa novidade, os usuários poderão identificar quais aplicativos estão consumindo mais recursos do sistema, ajudando a otimizar o desempenho do smartphone. Além disso, essa ferramenta pode ser útil para os desenvolvedores, que poderão verificar como seus aplicativos se comparam aos concorrentes em termos de eficiência. Com essa novidade, é possível obter melhores resultados no uso do smartphone e maximizar a experiência do usuário. Vale a pena explorar essa novidade e tirar o melhor proveito dela!

