Google kündigt Gemini 3.1 Flash-Lite an: Beeindruckende Benchmarks und Preissenkung

2026-03-04T15:21:27.482Z

Bild des Gemini-Logos (von Google) auf weißem Hintergrund

Google stellt neues KI-Modell mit Fokus auf Geschwindigkeit und Kosten vor

Google hat am 3. März 2026 das Gemini 3.1 Flash-Lite vorgestellt, das schnellste und kosteneffizienteste Mitglied der Gemini 3-Serie, verfügbar als Vorschau über die Gemini API und Vertex AI für Entwickler. Das Unternehmen erklärte auf dem offiziellen Blog, dass das Modell für Aufgaben mit hohem Volumen und niedriger Latenz entwickelt wurde, während es die Fähigkeit zum anpassbaren Denken je nach Bedarf beibehält.

Niedriger Preis und hohe Leistung

Das neue Modell wird mit deutlich niedrigeren Preisen als die Hauptmodelle der Serie eingeführt:

0,25 US-Dollar pro 1 Million Eingabe-Tokens
1,50 US-Dollar pro 1 Million Ausgabe-Tokens

Laut Benchmarks, die von Google zitiert werden, liefert das 3.1 Flash-Lite 2,5× mehr Geschwindigkeit bis zum ersten Token und 45% mehr Ausgabegeschwindigkeit im Vergleich zum Gemini 2.5 Flash und ist auf schnelle Antworten und intensive Arbeitslasten ausgerichtet.

Benchmarks und technische Qualität

Das Modell überzeugte auch in Leistungsbewertungen:

Elo Score: 1432 bei Arena.ai
86,9% im GPQA Diamond Benchmark
76,8% im MMMU Pro

Diese Daten zeigen, dass der Flash-Lite, obwohl er auf Effizienz ausgelegt ist, mit größeren Versionen in Denk- und multimodalen Verständnisaufgaben konkurrieren kann.

Im Gegensatz zu früheren Varianten führt er „Denken-Level“ ein, ein System, das es Entwicklern ermöglicht, das Denkvermögen des Modells dynamisch anzupassen, vom leichteren bis zum komplexeren Prozess, ohne das Modell zu wechseln.

Praktische Einsatzmöglichkeiten

Der Gemini 3.1 Flash-Lite wurde für Szenarien entwickelt, die hohes Volumen und schnelle Reaktionen erfordern, wie:

Großangelegte Übersetzungen
Automatische Inhaltsmoderation
Echtzeit-Datenextraktion und -klassifikation
Erstellung von Schnittstellen oder Dashboards
Erstellung von Simulationen oder automatisierten Abläufen

Die Flexibilität im Denken ermöglicht es Teams, die Kosten und die Verarbeitungstiefe je nach Aufgabe anzupassen und die Latenz in sensiblen Anwendungen zu reduzieren.

Erste Reaktionen und nächste Schritte

Einige Unternehmen testen das neue Modell bereits in der Produktion und berichten, dass es in der Lage ist, komplexen Eingaben mit einer Genauigkeit zu folgen, die mit Modellen auf höherem Niveau vergleichbar ist, so der offizielle Blog von Google.

In den kommenden Monaten liegt der Fokus darauf, die Verfügbarkeit und Nutzungsindikatoren in realen Anwendungsfällen zu erweitern und zu beobachten, wie die Entwickler-Community Arbeitsabläufe anpasst, um das Gleichgewicht zwischen Kosten und Geschwindigkeit des Flash-Lite zu nutzen.

Dieser Inhalt wurde von unserem Team erstellt und überprüft (iatoskill.com). Wenn Sie Probleme finden, bitte kontaktieren Sie uns

War dies hilfreich?

Google kündigt Gemini 3.1 Flash-Lite an: Beeindruckende Benchmarks und Preissenkung

Google stellt neues KI-Modell mit Fokus auf Geschwindigkeit und Kosten vor

Niedriger Preis und hohe Leistung

Benchmarks und technische Qualität

Praktische Einsatzmöglichkeiten

Erste Reaktionen und nächste Schritte

Teilen

Weitere Nachrichten

Startup Meng Xiaoyi bringt KI-Halsband auf den Markt, das Haustiergebell 'übersetzt'

Weißes Haus schließt Abkommen mit Anthropic zur Nutzung von KI in der NSA

DeepSeek senkt dauerhaft Preise des V4-Pro um 75%