Connect with us

Nachrichten

Die neuen KI-Modelle von Google verwandeln Bilder mit niedriger Auflösung in hochwertige Bilder

blank

Published

blank

Während Forscher bei der Entwicklung fortschrittlicher Technologien der künstlichen Intelligenz (KI) an ihre Grenzen gehen, haben wir mehrere KI-Tools und -Systeme gesehen, um die Bildgebungstechnologie zu verbessern. Wir haben KI-Tools gesehen, die Hintergründe von Bildern sofort entfernen und Fotos entschärfen. Jetzt hat Google zwei KI-basierte Tools entwickelt, die auf Diffusionsmodellen basieren, die Bilder mit niedriger Auflösung in hochwertige Fotos umwandeln können.

Die beiden neuen Technologien, die als Super-Resolution via Repeated Refinements (SR3) und Cascaded Diffusion Models (CDM) bezeichnet werden, wurden kürzlich vom Brain Team von Google Research entwickelt. Der Mountain View-Riese hat kürzlich veröffentlicht ein ausführlicher Blogbeitrag in seinem KI-Forum, in dem beide Technologien detailliert beschrieben werden. Es ähnelt dem vorherigen KI-Algorithmus, den wir Anfang des Jahres von Forschern der Duke University of North Carolina entwickelt haben.

Beginnend mit dem SR3-Modell ist es im Wesentlichen ein hochauflösendes Diffusionsmodell, das Konvertieren Sie Bilder mit niedriger Auflösung in hochauflösende Bilder aus reinem Rauschen. Es verwendet ein Bild mit niedriger Auflösung als Eingabe und verwendet einen Bildverfälschungsprozess, mit dem es trainiert wurde, um dem Bild nach und nach Rauschen hinzuzufügen, bis nur noch reines Rauschen übrig bleibt. Anschließend kehrt es den Prozess um und beginnt mit der Entfernung des Rauschens, um das Zielbild mit dem niedrigaufgelösten Eingabebild als Referenz zu erreichen.

Das Unternehmen sagt, dass es mit einem groß angelegten Training des SR3-Modells starke Benchmark-Ergebnisse bei der Superauflösungsaufgabe für Gesichter und natürliche Bilder erzielen konnte. Das Modell könnte Wandeln Sie ein 64 x 64-Eingangsbild in ein 1024 x 1024-Bild um. Um den Prozess zu demonstrieren, hat Google ein kurzes Video geteilt, das das SR3-Modell in Aktion zeigt, das Sie sich gleich unten ansehen können.

Kommen wir nun zum zweiten KI-Modell, dem Cascaded Diffusion Model (CDM), einem klassenbedingten Diffusionsmodell, das auf ImageNet-Daten trainiert wurde. Dadurch kann das Modell hochauflösende natürliche Bilder erzeugen, indem mehrere generative Modelle über mehrere räumliche Auflösungen verkettet werden.

In diesem Prozess wird die Das CDM-Modell verwendet ein Diffusionsmodell, um Daten mit niedriger Auflösung zu generieren, gefolgt von einer Folge von SR3-Super-Resolution-Diffusionsmodellen. Dadurch wird die Auflösung eines Bildes mit niedriger Auflösung schrittweise auf die höchste Auflösung erhöht. Sie können sich das unten angehängte GIF ansehen, um eine bessere Vorstellung vom Bilderzeugungsprozess zu erhalten.

Die neuen KI-Modelle von Google verwandeln Bilder mit niedriger Auflösung in hochwertige Bilder

Abgesehen von den beiden oben beschriebenen Modellen haben die Forscher von Google AI auch eine neue Datenerweiterungstechnik entwickelt Konditionierungs-Augmentation genannt. Es verbessert die Abtastqualitätsergebnisse von CDM weiter, indem Gaußsches Rauschen und Gaußsche Unschärfe verwendet werden. Darüber hinaus wird verhindert, dass jedes Superauflösungsmodell zu seinem Konditionierungseingang mit niedrigerer Auflösung überanpassung wird. Dies führt zu einer besseren hochauflösenden Sample-Qualität für CDM.

Mit den oben genannten KI-basierten Bildverbesserungsmodellen sagt Google, dass es die Grenze der Diffusionsmodelle auf den neuesten Stand der Technik bezüglich Superauflösung und klassenbedingtem ImageNet-Generierungs-Benchmark gebracht hat. Die Forscher werden die Grenzen dieser Modelle im Hinblick auf künftige generativere Modellierungsprobleme weiter testen.

Click to comment

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.