GPT-3 & Co. texten überzeugend, aber nicht faktentreu

Quelle: c‘t, Heft 3.2022, von Dirk Hecker und Gerhard Paaß

Wikipedia: https://de.wikipedia.org/wiki/OpenAI

Tiefe neuronale Sprachmodelle wie GPT-3 schreiben ansprechende Texte, garnieren sie aber oft mit erfundenen Fakten. Jüngste Modelle überprüfen ihre Inhalte selbst und könnten so schon bald Hausaufgaben oder News generieren. Ein Einblick in die Entwicklung.

Open AI hat im Mai 2020 das Sprachmodell GPT-3 vorgestellt. Mit 175 Milliarden Parametern war es das größte neuronale Netz zu dem Zeitpunkt, trainiert mit immensen Mengen an Wikipedia-Einträgen, Webveröffentlichungen und Buchtexten. Die Anwendungsmöglichkeiten des Generative Pretrained Transformer (GPT) sind wahrscheinlich noch gar nicht vollständig erfasst: Er generiert überzeugende Texte in unterschiedlichen Schreibstilen und Themengebieten, beantwortet Fragen, erzeugt Programmcode, übersetzt zwischen Sprachen und vieles mehr. Die Technik dahinter (siehe Kasten: Die innere Mechanik von GPT-3) markiert einen Wendepunkt in der automatischen Verarbeitung von natürlicher Sprache.

Seitdem sind KI-Forscher und Investoren wie elektrisiert von automatischen Textgeneratoren, die von ihrer breiten Trainingsdatengrundlage abstrahieren und aufgabenorientiert sinnvolle Inhalte verfassen. Nach OpenAI, das als Non-Profit-Forschungsunternehmen mit Milliardeninvestitionen unter anderem von Microsoft und Elon Musk startete, haben inzwischen auch andere Entwickler große Sprachmodelle vorgestellt. DeepMind setzt mit Gopher auf eine ähnliche Architektur wie GPT-3, das zugrunde liegende neuronale Netz umfasst sogar 280 Milliarden Parameter. Megatron-Turing NLG von Microsoft hat stolze 530 Milliarden Parameter (konnte aber im Vergleich zu Gopher bisher keine bessere Leistung erzielen). Wu Dao 2.0 aus Peking ist mit 1750 Milliarden Parametern zehnmal so groß wie GPT-3 und ist in der Lage, gleichzeitig Texte und Bilder zu verarbeiten. Über seine Details und Leistungsdaten ist jedoch nur wenig bekannt.

Um aber nicht nur sinnvoll klingende, sondern auch sachlich korrekte Texte zu generieren, braucht man mehr als das reine Sprachmodell. Das Sprachmodell Retro von DeepMind checkt seine eigenen Textvorschläge mit einer Datenbankrecherche gegen falsche Fakten. WebGPT, eine erweiterte GPT-3-Version von OpenAI, kombiniert den Schreibvorgang mit einer Websuche.

Per Anfangszeilen gesteuert

Eine wichtige Eigenschaft von GPT-3 ist, dass der Anwender das System weitgehend mit dem vorgegebenen Starttext steuert. Anstatt es für eine neue Aufgabe zu trainieren, weist man es durch Beispiele an, einen Auftrag zu erfüllen. Gibt man „Ich liebe dich -> I love you. Ich hasse dich ->“ vor, so antwortet der Textgenerator mit „I hate you“. So hat man das System implizit gebeten, einen Satz vom Deutschen ins Englische zu übersetzen. Nachdem es also ein einziges Beispiel gezeigt bekommen hat (One-Shot), löst GPT-3 eine Aufgabe, für die es nicht explizit trainiert worden ist. Nach der Eingabe geeigneter Starttexte löst GPT-3 eine Vielzahl von Aufgaben, zum Beispiel Texte zusammenfassen, Dialoge führen, Gedichte schreiben, zwischen Programmiersprachen übersetzen und vieles mehr.

Angenommen GPT-3 erhält als Eingabe eine Textpassage als Anfang eines Zeitungsartikels: „Titel: Zu wenige stimmen einer Organspende zu. Untertitel: Lange Wartelisten für lebensrettende Transplantationen in Deutschland. Artikel:“. Dann vermag es im Stil eines Nachrichtenartikels einen Text mit vielen hundert Wörtern zu generieren. Dieser Artikel ist dann von menschlichen Beiträgen fast nicht zu unterscheiden. Allerdings enthalten die produzierten Inhalte neben Tatsachen auch frei assoziierte Aussagen, welche zwar zum Text passen, aber sachlich falsch sind. GPT-3 agiert also nicht faktentreu wie ein Journalist, sondern eher wie ein Romanautor, der eine stimmige Geschichte erzählen will.

Ein großer Nachteil ist, dass Modelle wie GPT-3 keine Begründungen oder Erklärungen für die von ihnen produzierten Texte liefern. Sie entstehen durch die Interaktion der 175 Milliarden Parameter, welche sich nicht inhaltlich interpretieren lassen. Dieses Problem stellt sich nicht nur bei großen Sprachmodellen, sondern auch bei anderen tiefen neuronalen Netzen.

Texte mit KI erstellt, GPT-3

GPT-3 & Co. texten überzeugend, aber nicht faktentreu

Per Anfangszeilen gesteuert

Schreibe einen Kommentar Antworten abbrechen