Google kündigt Gemini 3.1 Flash-Lite an: Beeindruckende Benchmarks und Preissenkung

Bild des Gemini-Logos (von Google) auf weißem Hintergrund

Google stellt neues KI-Modell mit Fokus auf Geschwindigkeit und Kosten vor

Google hat am 3. März 2026 das Gemini 3.1 Flash-Lite vorgestellt, das schnellste und kosteneffizienteste Mitglied der Gemini 3-Serie, verfügbar als Vorschau über die Gemini API und Vertex AI für Entwickler. Das Unternehmen erklärte auf dem offiziellen Blog, dass das Modell für Aufgaben mit hohem Volumen und niedriger Latenz entwickelt wurde, während es die Fähigkeit zum anpassbaren Denken je nach Bedarf beibehält.

Niedriger Preis und hohe Leistung

Das neue Modell wird mit deutlich niedrigeren Preisen als die Hauptmodelle der Serie eingeführt:

  • 0,25 US-Dollar pro 1 Million Eingabe-Tokens
  • 1,50 US-Dollar pro 1 Million Ausgabe-Tokens

Laut Benchmarks, die von Google zitiert werden, liefert das 3.1 Flash-Lite 2,5× mehr Geschwindigkeit bis zum ersten Token und 45% mehr Ausgabegeschwindigkeit im Vergleich zum Gemini 2.5 Flash und ist auf schnelle Antworten und intensive Arbeitslasten ausgerichtet.

Benchmarks und technische Qualität

Das Modell überzeugte auch in Leistungsbewertungen:

  • Elo Score: 1432 bei Arena.ai
  • 86,9% im GPQA Diamond Benchmark
  • 76,8% im MMMU Pro

Diese Daten zeigen, dass der Flash-Lite, obwohl er auf Effizienz ausgelegt ist, mit größeren Versionen in Denk- und multimodalen Verständnisaufgaben konkurrieren kann.

Im Gegensatz zu früheren Varianten führt er „Denken-Level“ ein, ein System, das es Entwicklern ermöglicht, das Denkvermögen des Modells dynamisch anzupassen, vom leichteren bis zum komplexeren Prozess, ohne das Modell zu wechseln.

Praktische Einsatzmöglichkeiten

Der Gemini 3.1 Flash-Lite wurde für Szenarien entwickelt, die hohes Volumen und schnelle Reaktionen erfordern, wie:

  • Großangelegte Übersetzungen
  • Automatische Inhaltsmoderation
  • Echtzeit-Datenextraktion und -klassifikation
  • Erstellung von Schnittstellen oder Dashboards
  • Erstellung von Simulationen oder automatisierten Abläufen

Die Flexibilität im Denken ermöglicht es Teams, die Kosten und die Verarbeitungstiefe je nach Aufgabe anzupassen und die Latenz in sensiblen Anwendungen zu reduzieren.

Erste Reaktionen und nächste Schritte

Einige Unternehmen testen das neue Modell bereits in der Produktion und berichten, dass es in der Lage ist, komplexen Eingaben mit einer Genauigkeit zu folgen, die mit Modellen auf höherem Niveau vergleichbar ist, so der offizielle Blog von Google.

In den kommenden Monaten liegt der Fokus darauf, die Verfügbarkeit und Nutzungsindikatoren in realen Anwendungsfällen zu erweitern und zu beobachten, wie die Entwickler-Community Arbeitsabläufe anpasst, um das Gleichgewicht zwischen Kosten und Geschwindigkeit des Flash-Lite zu nutzen.

Teilen

Dieser Inhalt wurde von unserem Team erstellt und überprüft (iatoskill.com). Wenn Sie Probleme finden, bitte kontaktieren Sie uns

War dies hilfreich?
Lerne

Weitere Nachrichten

Alle ansehen
DeepSeek senkt dauerhaft Preise des V4-Pro um 75%

DeepSeek senkt dauerhaft Preise des V4-Pro um 75%

DeepSeek hat bestätigt, dass das V4-Pro-Modell dauerhaft zu nur einem Viertel des ursprünglichen Preises betrieben wird. Der Ausgangspreis liegt bei 0,87 USD pro Million Tokens.