Google annonce officiellement le Gemini 3.5 Flash au Google I/O 2026

Ce mardi 19 mai 2026 (UTC), le géant de la technologie Google a annoncé officiellement le lancement mondial de son nouveau modèle d'intelligence artificielle à haute vitesse, le Gemini 3.5 Flash, lors de la conférence d'ouverture du Google I/O 2026 qui s'est tenue à Mountain View. La nouveauté a été présentée comme le principal atout de l'entreprise pour les développeurs qui exigent des performances élevées et un temps de réponse extrêmement bas en production. Le nouveau modèle est disponible dès aujourd'hui pour les tests et l'intégration commerciale sur les plateformes Google AI Studio et Vertex AI.
Lors de l'événement, le directeur exécutif de Google, Sundar Pichai, a souligné le positionnement stratégique du modèle :
« Avec le Gemini 3.5 Flash, nous offrons une vitesse de traitement exceptionnelle sans sacrifier l'intelligence profonde que les développeurs attendent de notre famille de modèles. C'est notre réponse définitive à la nécessité d'applications en temps réel à grande échelle et à des coûts extrêmement compétitifs dans le cloud. »
Performances et latence inférieure à 200 ms
Contrairement aux approches précédentes qui se concentraient uniquement sur la réduction extrême du coût par token au détriment de la qualité cognitive, la division Google DeepMind a affiné l'architecture du Gemini 3.5 Flash en se basant sur de nouveaux algorithmes de distillation des connaissances. Sous la supervision de Demis Hassabis, cofondateur de Google DeepMind, le modèle a atteint une latence de traitement en production constamment inférieure à 200 millisecondes dans la majorité des requêtes complexes de texte et de vision par ordinateur. Cela positionne le modèle comme une solution hautement compétitive face aux alternatives rapides du marché, comme le Claude 3.5 Haiku.
En plus de la vitesse brute de réponse, la nouveauté offre l'une des plus grandes capacités opérationnelles de sa catégorie, en maintenant une fenêtre de contexte de 1 million de tokens. Cette capacité permet au système de traiter de grands volumes de documents, des codes de programmation entiers et même des heures de vidéo en une seule fois, fournissant des réponses structurées presque instantanément.
Structure tarifaire et disponibilité sur le marché
L'annonce officielle a confirmé les tarifs pour le niveau de service standard. Le coût d'exploitation a été fixé à 1,50 USD par million de tokens d'entrée (input) et 0,60 USD par million de tokens de sortie (output), ce qui le positionne comme une option premium et robuste pour le déploiement dans des systèmes d'entreprise critiques pour les services clients, l'analyse financière automatisée et le traitement dynamique des données en temps réel. L'infrastructure cloud de Google Cloud fonctionne déjà avec un support complet pour le nouveau modèle dans toutes les régions mondiales à partir de ce discours d'ouverture.
Ce contenu a été créé et révisé par notre équipe (iatoskill.com), si vous rencontrez un problème, contactez-nous


