Connect with us

Nachrichten

Das Imagen 2-Modell von Google kann vier Sekunden lange Videoclips generieren

Das Imagen 2-Modell von Google kann vier Sekunden lange Videoclips generieren

Auf der Google Cloud Next 2024 stellte der Suchriese neue Hardware für die Cloud vor und veröffentlichte viele Produkte, hauptsächlich für Unternehmenskunden. Darunter sticht das Modell Imagen 2 hervor, das aus Textansagen kurze Videoclips von bis zu vier Sekunden Länge erstellen kann.

Es handelt sich immer noch um ein Text-to-Image-Modell, und Google nennt es ein Text-to-Live-Image-Modell. Im Gegensatz zu generierten KI-Videos mit statischen Fotos und einem gewissen Grad an Bewegung kann Imagen 2 angezeigt werden verschiedene Kamerawinkel und es herrscht auch in der gesamten Szene Konsistenz.

Allerdings kann das Modell Videoclips bzw. Livebilder nur mit einer niedrigen Auflösung von ausgeben 640 x 360. Google stellt Imagen 2 Unternehmenskunden vor, darunter Vermarktern und Kreativen, die schnell kurze Clips für Anzeigen, Kampagnen und mehr erstellen können.

Darüber hinaus verwendet Google seine SynthID-Technik, um eine anzuwenden unsichtbares Wasserzeichen auf KI-generierte Clips und Bilder. Das Unternehmen gibt an, dass SynthID Bearbeitungen und sogar Komprimierung standhält. Darüber hinaus hat Google das Bildgenerierungsmodell auch auf Sicherheit und Voreingenommenheit gefiltert.

Es muss darauf hingewiesen werden, dass Google kürzlich in die Kritik geriet, weil es sich weigerte, Bilder von weißhäutigen Menschen zu erstellen. Nach dem Vorfall Google Angehaltene Bilderzeugung für Menschenund selbst nach zwei Monaten hat das Unternehmen die Beschränkung für Gemini nicht aufgehoben.

Allerdings wurde Imagen 2 auf Vertex AI für Unternehmenskunden allgemein verfügbar gemacht. Es unterstützt jetzt auch Inpainting und Outpainting, die Möglichkeit, Bilder mithilfe von KI zu bearbeiten, den Rand zu erweitern oder bestimmte Teile des Bildes hinzuzufügen/zu entfernen. OpenAI hat kürzlich auch die Bildbearbeitung für von Dall-E generierte Bilder eingeführt.

Während das Imagen 2-Modell Videoclips mit einer Länge von bis zu vier Sekunden erzeugen kann, bin ich mir nicht sicher, wie es mit anderen Text-zu-Video-Generatoren konkurrieren kann. Runway bietet Videogenerierung bis zu 18 Sekunden mit einer viel besseren Auflösung und OpenAI hat kürzlich sein bahnbrechendes Sora-Modell vorgestellt. Um mit diesen Modellen konkurrieren zu können, muss Google ein weitaus leistungsfähigeres Diffusionsmodell entwickeln.