Google bringt Gemini Omni für Videoerstellung und -bearbeitung heraus

2026-05-19T18:05:27.141Z

Ein Amateurfoto eines Holztisches mit einem Bildschirm, der einen digitalen Videoeditor zeigt, und einem geöffneten iPad, das den leuchtend blauen Funken von Gemini anzeigt.

Am Dienstag, den 19. Mai 2026 (UTC), kündigte Google offiziell die Einführung von Gemini Omni an, seinem neuen multimodalen Modell für konversationelle Videoerstellung und -bearbeitung, während der Hauptpräsentation auf der Google I/O 2026 in Mountain View. Die Einführung markiert den ersten praktischen Schritt des Unternehmens in Richtung einer integrierten Architektur für die einheitliche Medienverarbeitung, die fortschrittliche realweltliche Physik mit kognitiver Intelligenz kombiniert. Das Tool wird ab heute schrittweise an Abonnenten der kostenpflichtigen Pläne der Marke verteilt.

Laut der offiziellen Ankündigung des Unternehmens auf der Bühne der Veranstaltung wurde die Erstversion Gemini Omni Flash genannt und bietet einen agilen Betrieb, der direkt in den Chat der künstlichen Intelligenz integriert ist. Die Technologie wurde in direkter Zusammenarbeit mit der Abteilung Google DeepMind entwickelt, wobei die kontextuelle Intelligenz mit den filmischen Generierungssystemen der Engine Veo vereint wird, sodass die Bearbeitung durch einfache Anweisungen in natürlicher Sprache in einem einzigen Gespräch erfolgen kann.

Multimodale Vision und Konversationelle Funktionen

Die große Innovation von Gemini Omni liegt in seiner einheitlichen Datenverarbeitungsnatur. Im Gegensatz zu konkurrierenden Marktlösungen, die in getrennten Silos der Videogenerierung arbeiten, ermöglicht die Neuheit die Erstellung audiovisueller Inhalte aus jeder Kombination von Text, Bildern und Audio. Die konversationellen Bearbeitungsfunktionen ermöglichen es dem Benutzer, direkt im Chat iterativ Anpassungen vorzunehmen, wie z. B. die Farbpalette einer Szene aufzuheizen, Zeitlupeneffekte hinzuzufügen, Hintergrundobjekte zu entfernen oder die ästhetische Komposition des Endmaterials schnell zu remixen.

Die Modelltechnik hat das Verständnis der physikalischen Gesetze der realen Welt spürbar verbessert. Die generierten Videos zeigen natürlichere Bewegungen von Flüssigkeiten und Gravitation, zusätzlich zu einer verbesserten zeitlichen Konsistenz von dreidimensionalen Objekten, was visuelle Verzerrungen vermeidet, die in Videosystemen der vorherigen Generation häufig vorkommen.

Verfügbarkeit, Abonnements und Tageskontingente

Der Dienst wurde an diesem Dienstag schrittweise für Abonnenten weltweit über die Gemini-App und das Flow by Google Ökosystem freigegeben und ist auch für Tools von YouTube geplant, einschließlich der YouTube Create-App, ohne zusätzliche Kosten für berechtigte Ersteller.

Das Gemini Omni Flash-Modell ist im Google AI Pro-Paket enthalten, das einen wiederkehrenden Wert von 19,99 USD pro Monat hat. Allerdings weisen Unternehmensbenutzer und Entwickler darauf hin, dass die anfänglichen Verbrauchskontingente ziemlich begrenzt sind, wobei häufig berichtet wird, dass die Generierung von nur 2 bis 4 komplexen Videos die gesamte verfügbare tägliche Kapazität des Pro-Plans erschöpfen kann, was zu Einschränkungszeiten von bis zu 5 Stunden beim Zugang zur Verarbeitung neuer Medien führt. Für hoch skalierte Filmproduktionen hat Google den Ultra-Plan für 249,99 USD pro Monat mit einem erweiterten Kontingent von 200 bis 25.000 Nutzungsguthaben in der Flow-Umgebung bereitgestellt.

Dieser Inhalt wurde von unserem Team erstellt und überprüft (iatoskill.com). Wenn Sie Probleme finden, bitte kontaktieren Sie uns

War dies hilfreich?

Google bringt Gemini Omni für Videoerstellung und -bearbeitung heraus

Multimodale Vision und Konversationelle Funktionen

Verfügbarkeit, Abonnements und Tageskontingente

Teilen

Weitere Nachrichten

Startup Meng Xiaoyi bringt KI-Halsband auf den Markt, das Haustiergebell 'übersetzt'

Weißes Haus schließt Abkommen mit Anthropic zur Nutzung von KI in der NSA

DeepSeek senkt dauerhaft Preise des V4-Pro um 75%