Google divulgue le Gemini 3.5 Flash axé sur la vitesse avec un prix 3x plus élevé

2026-05-19T14:56:39.423Z

Une photo réaliste et amateur en gros plan d'un bureau en bois de développeur, avec un ordinateur portable affichant des lignes de code et une tasse de café à côté.

Ce mardi 19 mai 2026 (UTC), le géant technologique Google a vu des détails confidentiels de son nouveau modèle d'intelligence artificielle divulgués quelques heures avant l'ouverture de l'événement annuel Google I/O 2026 à Mountain View. Le développeur indépendant pankajkumar_dev a révélé que l'entreprise lancera le Gemini 3.5 Flash (identifié en interne comme gemini-3.5-flash), un modèle optimisé pour la production en temps réel qui privilégie la vitesse d'exécution à la réduction pure des coûts.

Compromis entre Prix et Performance Ultra-Rapide

Contrairement à la tendance récente du secteur visant à réduire les coûts par token, le nouveau pari de Google augmente les valeurs de calcul pour fournir des réponses en temps d'exécution record. Selon les grilles tarifaires publiées par le développeur ayushrajgorar, le coût d'entrée par million de tokens est passé à 1,50 $, soit un bond de trois fois le montant facturé pour le Gemini 3 Flash traditionnel, qui coûte 0,50 $. Le tarif de sortie a été fixé à 9,00 $ par million de tokens, comparé aux 3,00 $ du modèle de génération précédente.

En pratique, le marché gagne des alternatives pour différents besoins commerciaux. Pour les systèmes fonctionnant en arrière-plan et tolérant les délais, le niveau Flex réduit les coûts d'entrée à 0,75 $. En revanche, pour les applications industrielles nécessitant des réponses instantanées, le niveau Priority facture 2,70 $ l'entrée par million de tokens pour garantir le temps de traitement le plus court possible.

Infrastructure Optimisée et Latence Inférieure à 200ms

Les tests des consoles internes montrent que le nouveau modèle atteint une latence de réponse inférieure à 200 millisecondes dans des requêtes de production standardisées. Cet avancement technique a été réalisé grâce à la combinaison de distillation robuste de modèles plus grands et d'architectures matérielles éparses (sparsity). Le modèle présente également des capacités de raisonnement logique proches de celles du Gemini 3.1 Pro, en plus de disposer de systèmes améliorés de vérification et de recherche (grounding) pour réduire considérablement la survenue de réponses imprécises ou d'hallucinations.

De nombreux programmeurs dans la communauté débattent sur le réseau social X pour savoir si le coût plus élevé sera compensé par la stabilité opérationnelle. L'annonce officielle et l'ouverture des clés publiques d'API sont attendues lors de la présentation principale du Google I/O, prévue aujourd'hui à 17h (UTC) sur le site officiel io.google.

Ce contenu a été créé et révisé par notre équipe (iatoskill.com), si vous rencontrez un problème, contactez-nous

Ce contenu a-t-il été utile ?

Google divulgue le Gemini 3.5 Flash axé sur la vitesse avec un prix 3x plus élevé

Compromis entre Prix et Performance Ultra-Rapide

Infrastructure Optimisée et Latence Inférieure à 200ms

Partager

Plus d'Actualités

La startup Meng Xiaoyi lance un collier IA qui 'traduit' les aboiements des animaux

La Maison Blanche conclut un accord avec Anthropic pour l'utilisation de l'IA à la NSA

DeepSeek fixe les prix du V4-Pro avec une remise permanente de 75%