Generative Adversarial Networks (GAN) sind vielversprechende Werkzeuge zur Erzeugung von Medien. Sie können beispielsweise realistische Bilder und Stimmen, Videos und 3D-Formen sowie Arzneimittelmoleküle generieren. Sie können aber auch dazu verwendet werden, Bilder auf eine höhere Auflösung zu skalieren, einem vorhandenen Bild einen neuen Stil zu verleihen und das Layout in der Architektur zu optimeren. Sie waren zudem eine der beliebtesten generativen KI-Techniken, bis vor einigen Jahren Transformer eingeführt wurden.

Transformer sind eine grundlegende Technologie, die vielen Fortschritten bei Large Language Models (LLM) zugrunde liegt, wie zum Beispiel Generative Pre-Trained Transformer (GPT). Sie werden nun auch in multimodalen KI-Anwendungen eingesetzt, wie zum Beispiel in großen Bildverarbeitungsmodellen, die in der Lage sind, so unterschiedliche Inhalte wie Text, Bilder, Audio und Roboteranweisungen über zahlreiche Medientypen hinweg effizienter zu korrelieren als Techniken wie GANs.

GANs und Transformer können auch auf verschiedene Weise kombiniert werden, um Inhalte aus einer Eingabe zu generieren, Zielanpassungen an vorhandene Inhalte vorzunehmen oder Inhalte zu interpretieren.

Lassen Sie uns die Anfänge der einzelnen Techniken, ihre Anwendungsfälle und die Art und Weise, wie Forscher die beiden Techniken in verschiedenen Transformer-GAN-Kombinationen kombinieren, untersuchen.

Wie sieht eine Transformer-Architektur aus?

Transformer wurden 2017 von einem Team von Google-Forschern vorgestellt, die einen effizienteren Übersetzer entwickeln wollten. In einem Artikel mit dem Titel Attention Is All You Need stellten die Forscher eine neue Technik vor, mit der die Bedeutung von Wörtern anhand der Art und Weise, wie sie andere Wörter in Phrasen, Sätzen und Aufsätzen charakterisieren, erkannt werden kann.

Frühere Tools zur Textinterpretation verwendeten häufig ein neuronales Netz, um Wörter mithilfe eines zuvor erstellten Wörterbuchs in Vektoren zu übersetzen, und ein anderes neuronales Netz, um eine Textsequenz zu verarbeiten, wie zum Beispiel ein rekurrentes neuronales Netz (RNN). Im Gegensatz dazu lernen Transformer im Wesentlichen, die Bedeutung von Wörtern direkt aus der Verarbeitung großer Mengen ungelabelter Texte zu interpretieren.

Der gleiche Ansatz kann verwendet werden, um Muster in anderen Arten von Daten zu identifizieren, wie zum Beispiel Proteinsequenzen, chemische Strukturen, Computercode und IoT-Datenströme. Auf diese Weise können Forscher die LLMs skalieren, die die jüngsten Fortschritte – und die Bekanntheit – in diesem Bereich vorantreiben. Transformer können auch Beziehungen zwischen Wörtern finden, die weit voneinander entfernt sind, was mit RNNs nicht möglich war.

Abbildung 2: Dieses Diagramm zeigt die Architektur eines Transformer-Modells.

„Kleine Bildausschnitte können auch durch den Kontext des gesamten Bildes definiert werden, in dem sie erscheinen“, sagt Zidaritz. Die Idee der Selbstaufmerksamkeit in der Verarbeitung natürlicher Sprache wird zur Selbstähnlichkeit in der Computer Vision.

Transformer spielen auch eine wesentliche Rolle bei der Entwicklung multimodaler KI, die mehrere Datenmodalitäten, darunter Text-, Audio-, Video- und Sensordaten, kombiniert. In diesen Fällen kann der Aufmerksamkeitsmechanismus Beziehungen und Verbindungen über mehrere Datenmodalitäten hinweg finden.