Connect with us

Nachrichten

Googles Text-to-Image-KI kann „fotorealistische Bilder“ liefern

Googles Text-to-Image-KI kann „fotorealistische Bilder“ liefern

In einer Zeit, in der KI wieder im Mittelpunkt der Tech-Welt steht, hat Google seinen Text-Ti-Image-KI-Generator entwickelt, der Ihnen Bilder basierend auf der Texteingabe liefern kann. Es ist das Imagen-KI-System, das vom Google Brain-Team entwickelt wurde, und wenn man Google und den vielen Beispielbildern glauben darf, kann es „fotorealistische Bilder und tiefes Sprachverständnis.” Hier ein Blick auf die Details.

Hier ist, was Imagen AI kann!

Wie der Name schon sagt, ist der Job nicht schwer. Sie müssen lediglich eingeben, was Sie sehen möchten, und basierend auf seinem Verständnis nach dem Lesen vieler Daten erstellt Imagen ein Bild für Sie.

Die Imagen-Website zeigt einige Anwendungsfälle und was wir sehen, ist ziemlich beeindruckend. Bild kombiniert große Transformer-Sprachmodelle zum Verstehen von Text und Diffusionsmodellen zum Erstellen hochwertiger Bilder.

google imagen AI-Beispielbild
Bild: Imagen

Die Ausgaben erscheinen ziemlich genau und machen anderen Text-to-Image-KI-Modellen wie OpenAIs beliebtem DALL-E (das sogar einen Nachfolger hat), VQ-GAN+CLIP und Latent Diffusion Models eine harte Konkurrenz. Google hat sogar Beweise. Es hat dafür ein Benchmark-Tool namens DrawBench eingeführt, dessen Daten Imagen als das bessere einschätzen.

google imagen Ergebnisse der AI-Ziehbank
Bild: Imagen

Google enthüllt auch, dass Imagen auf COCO einen COCO-FID von 7,27 erreichen konnte und menschliche Bewerter die Ergebnisse gefunden haben.auf Augenhöhe mit den Referenzbildern.“

Aber Sie sollten wissen, dass die von solchen KI-Systemen bereitgestellten Beispielbilder oft diejenigen sind, die als die besten angesehen werden, und diejenigen, die schief gehen, bleiben weit unter den Vorhängen. Es kann also zu früh sein, das KI-Modell von Google als das beste anzusehen.

Das KI-Modell hat auch eine Reihe von Vorbehalten, die Google nicht unterlässt, hervorzuheben. Die KI kann als Werkzeug für böswillige Aktivitäten wie die Erstellung abfälliger Inhalte oder gefälschter Bilder und damit als Werkzeug verwendet werden ist immer noch nicht zum Ausprobieren verfügbar. Außerdem kann KI anfällig für verschiedene soziale Vorurteile sein.

Das Imagen-Website liestImagen weist ernsthafte Einschränkungen bei der Erstellung von Bildern auf, die Personen darstellen. Unsere menschlichen Bewertungen haben ergeben, dass Imagen deutlich höhere Präferenzraten erzielt, wenn es mit Bildern bewertet wird, die keine Menschen darstellen, was auf eine Verschlechterung der Bildtreue hindeutet. Die vorläufige Bewertung deutet auch darauf hin, dass Imagen mehrere soziale Vorurteile und Stereotypen kodiert, darunter eine allgemeine Tendenz zur Erzeugung von Bildern von Menschen mit hellerer Hautfarbe und eine Tendenz, dass Bilder, die verschiedene Berufe darstellen, sich an westlichen Geschlechterstereotypen orientieren.

Daher kann man mit Sicherheit sagen, dass Imagen noch etwas Arbeit benötigt, um ordnungsgemäß funktionieren zu können. Nichtsdestotrotz fühlt sich Imagen für den Spaßteil wie eine ziemlich gute Wahl an, und wenn Sie vorhaben, etwas Doofes und Unwirkliches zu sehen, kann Imagen vielleicht helfen. Was halten Sie von der Text-to-Image-KI von Google? Lassen Sie es uns in den Kommentaren unten wissen.