Google leakt Gemini 3.5 Flash mit Schwerpunkt auf Geschwindigkeit und dreifachem Preis

Am Dienstag, den 19. Mai 2026 (UTC), wurden der Technologieriese Google und vertrauliche Details seines neuen KI-Modells nur wenige Stunden vor der Eröffnung des jährlichen Google I/O 2026 Events in Mountain View geleakt. Der unabhängige Entwickler pankajkumar_dev enthüllte, dass das Unternehmen das Gemini 3.5 Flash (intern als gemini-3.5-flash bezeichnet) auf den Markt bringen wird, ein Modell, das für die Echtzeitproduktion optimiert ist und die Ausführungsgeschwindigkeit über die reine Kostenreduzierung stellt.
Preis-Leistungs-Abwägung und ultraschnelle Performance
Im Gegensatz zum jüngsten Branchentrend, die Kosten pro Token zu senken, erhöht die neue Strategie von Google die Rechenwerte, um Antworten in Rekordzeit zu liefern. Laut den von Entwickler ayushrajgorar veröffentlichten Preistabellen stiegen die Eingangskosten (Input) pro Million Tokens auf 1,50 US-Dollar, was das Dreifache des traditionell berechneten Preises von Gemini 3 Flash ist, der bei 0,50 US-Dollar liegt. Die Ausgangsrate (Output) wurde auf 9,00 US-Dollar pro Million Tokens festgelegt, verglichen mit den 3,00 US-Dollar des Vorgängermodells.
Praktisch gesehen erhält der Markt Alternativen für unterschiedliche Geschäftsanforderungen. Für Systeme, die im Hintergrund laufen und Verzögerungen tolerieren, senkt der Flex-Tarif die Eingangskosten auf 0,75 US-Dollar. Andererseits berechnet der Priority-Tarif für industrielle Anwendungen, die sofortige Antworten benötigen, 2,70 US-Dollar pro Million Tokens für den Eingang, um die kürzeste Warteschlangenzeit zu gewährleisten.
Optimierte Infrastruktur und Latenz unter 200 ms
Interne Konsolentests zeigen, dass das neue Modell bei standardisierten Produktionsanfragen eine Antwortlatenz von unter 200 Millisekunden erreicht. Dieser technische Fortschritt wurde durch die Kombination einer robusten Destillation größerer Modelle und sparsamer Hardwarearchitekturen (Sparsity) erzielt. Das Modell bietet auch logische Denkfähigkeiten, die denen des Gemini 3.1 Pro nahekommen, und verfügt über verbesserte Systeme zur Verifizierung und Suche (Grounding), um ungenaue Antworten oder Halluzinationen deutlich zu reduzieren.
Viele Programmierer in der Community diskutieren auf dem sozialen Netzwerk X, ob die höheren Kosten durch die betriebliche Stabilität ausgeglichen werden. Es wird erwartet, dass die offizielle Ankündigung und die Öffnung der öffentlichen API-Schlüssel während der Hauptpräsentation der Google I/O erfolgt, die heute um 17 Uhr (UTC) auf der offiziellen Website io.google geplant ist.
Dieser Inhalt wurde von unserem Team erstellt und überprüft (iatoskill.com). Wenn Sie Probleme finden, bitte kontaktieren Sie uns


