Google Anuncia Gemini 3.1 Flash-Lite: Benchmarks Impressionam e Preço Cai Muito

2026-03-04T15:21:27.482Z

Google lança novo modelo AI com foco em velocidade e custo

Google apresentou o Gemini 3.1 Flash-Lite em 3 de março de 2026 como o mais rápido e custo-eficiente membro da série Gemini 3, disponível em preview via Gemini API e Vertex AI para desenvolvedores. A empresa publicou no blog oficial que o modelo foi criado para lidar com tarefas de alto volume e baixa latência, enquanto mantém capacidade de raciocínio ajustável conforme a necessidade.

Preço baixo e desempenho alto

O novo modelo chega com valores significativamente menores que os modelos principais da série:

US$ 0,25 por 1 milhão de tokens de entrada
US$ 1,50 por 1 milhão de tokens de saída

Segundo benchmarks citados pelo Google, o 3.1 Flash-Lite entrega 2,5× mais velocidade até o primeiro token e 45% mais velocidade de saída em comparação com o Gemini 2.5 Flash, sendo orientado para respostas rápidas e cargas de trabalho intensas.

Benchmarks e qualidade técnica

O modelo também se destacou em avaliações de desempenho:

Elo Score: 1432 no Arena.ai
86,9% no benchmark GPQA Diamond
76,8% no MMMU Pro

Esses dados mostram que mesmo com foco em eficiência, o Flash-Lite pode competir com versões maiores em tarefas de raciocínio e entendimento multimodal.

Diferente de variantes anteriores, ele introduz “Thinking Levels”, um sistema que permite aos desenvolvedores ajustar o nível de raciocínio do modelo dinamicamente, do processamento mais leve ao mais complexo sem trocar de modelo.

Onde pode ser usado na prática

O Gemini 3.1 Flash-Lite foi desenhado para cenários que exigem alto volume e resposta rápida, como:

Tradução em larga escala
Moderação automática de conteúdo
Extração e classificação de dados em tempo real
Geração de interfaces ou dashboards
Criação de simulações ou fluxos automatizados

A flexibilidade de raciocínio permite que equipes ajustem custo e profundidade de processamento conforme a tarefa, reduzindo latência em aplicações sensíveis.

Repercussão inicial e próximos passos

Algumas empresas já testam o novo modelo em produção, reportando que ele consegue seguir entradas complexas com precisão comparável a modelos de nível superior, segundo o blog oficial do Google.

Para os próximos meses, o foco é ampliar a disponibilidade e indicadores de uso em casos reais, além de acompanhar como a comunidade de desenvolvedores vai ajustar fluxos de trabalho para aproveitar o balanço entre custo e velocidade oferecido pelo Flash-Lite.