Google vaza o Gemini 3.5 Flash com foco em velocidade e preço 3x maior

Nesta terça-feira, 19 de maio de 2026, a gigante de tecnologia Google teve detalhes confidenciais de seu novo modelo de inteligência artificial vazados poucas horas antes da abertura do evento anual Google I/O 2026, em Mountain View. O desenvolvedor independente pankajkumar_dev revelou que a empresa lançará o Gemini 3.5 Flash (identificado internamente como gemini-3.5-flash), um modelo otimizado para produção em tempo real que prioriza a velocidade de execução sobre a redução pura de custos.
Trade-off de Preço e Desempenho Ultrarrápido
Ao contrário da tendência recente do setor de baratear custos por token, a nova aposta do Google eleva os valores de computação para entregar respostas em tempo de execução recorde. De acordo com as tabelas de preços publicadas pelo desenvolvedor ayushrajgorar, o custo de entrada (input) por milhão de tokens subiu para US$ 1,50, representando um salto de três vezes o valor cobrado pelo Gemini 3 Flash tradicional, que custa US$ 0,50. A taxa de saída (output) foi fixada em US$ 9,00 por milhão de tokens, em comparação com os US$ 3,00 do modelo de geração anterior.
Na prática, o mercado ganha alternativas para diferentes necessidades de negócio. Para sistemas que rodam em segundo plano e toleram atrasos, o tier Flex reduz os custos de entrada para US$ 0,75. Por outro lado, para aplicações industriais que dependem de respostas instantâneas, o tier Priority cobra US$ 2,70 no input por milhão de tokens para garantir o menor tempo de fila de processamento possível.
Infraestrutura Otimizada e Latência Sub-200ms
Os testes de consoles internos mostram que o novo modelo atinge latência de resposta abaixo de 200 milissegundos em consultas padronizadas de produção. Esse avanço técnico foi alcançado através da combinação de destilação robusta de modelos maiores e arquiteturas esparsas de hardware (sparsity). O modelo também apresenta capacidades de raciocínio lógico próximas às do Gemini 3.1 Pro, além de contar com sistemas aprimorados de verificação e busca (grounding) para atenuar de forma considerável a ocorrência de respostas imprecisas ou alucinações.
Muitos programadores na comunidade debatem na rede social X se o custo mais elevado será compensado pela estabilidade operacional. A expectativa é que o anúncio oficial e a abertura das chaves públicas de API ocorram durante a apresentação principal do Google I/O, agendada para hoje às 17h UTC no site oficial io.google.
Este conteúdo foi criado e revisado por nossa equipe (iatoskill.com), se encontrar algum problema, entre em contato conosco


