Warum RAG das Halluzinationsproblem von generativer KI nicht lösen wird
Halluzinationen - im Grunde genommen die Lügen generativer KI-Modelle - sind ein großes Problem für Unternehmen, die die Technologie in ihren Betrieb integrieren möchten.
Weil Modelle keine echte Intelligenz haben und einfach Wörter, Bilder, Sprache, Musik und andere Daten gemäß einem privaten Schema vorhersagen, liegen sie manchmal sehr falsch. In einem kürzlich erschienenen Artikel im Wall Street Journal berichtet eine Quelle von einer Situation, in der die generative KI von Microsoft TeilnehmerInnen an Besprechungen erfand und darauf hindeutete, dass Telefonkonferenzen Themen behandelten, die tatsächlich nicht besprochen wurden.
Wie ich bereits vor einiger Zeit geschrieben habe, könnten Halluzinationen ein unlösbares Problem mit den heutigen auf Transformatoren basierenden Modellarchitekturen sein. Einige generative KI-Anbieter legen jedoch nahe, dass sie mehr oder weniger durch einen technischen Ansatz namens Retrieval Augmented Generation (RAG) beseitigt werden können.
So bewirbt es zum Beispiel ein Anbieter, Squirro:
Im Kern des Angebots steht das Konzept der Retrieval Augmented LLMs oder Retrieval Augmented Generation (RAG), das in die Lösung eingebettet ist ... [unsere generative KI] ist einzigartig in ihrem Versprechen von null Halluzinationen. Jede Information, die sie generiert, ist auf eine Quelle zurückführbar, was die Glaubwürdigkeit sicherstellt.
Hier ist eine ähnliche Werbung von SiftHub:
Unter Verwendung der RAG-Technologie und fein abgestimmter großer Sprachmodelle mit branchenspezifischem Wissenstraining ermöglicht es SiftHub Unternehmen, personalisierte Antworten ohne Halluzinationen zu generieren. Dies garantiert eine erhöhte Transparenz und ein reduziertes Risiko und inspiriert absolutes Vertrauen, KI für alle ihre Bedürfnisse zu nutzen.
RAG wurde vom Datenwissenschaftler Patrick Lewis, Forscher bei Meta und University College London, und Hauptautor des 2020er Papiers, das den Begriff prägte, entwickelt. Auf ein Modell angewandt, ruft RAG möglicherweise relevante Dokumente zu einer Frage ab - zum Beispiel eine Wikipedia-Seite über den Super Bowl - indem es im Grunde genommen eine Stichwortsuche durchführt und das Modell dann auffordert, Antworten unter Berücksichtigung dieses zusätzlichen Kontexts zu generieren.
"Wenn Sie mit einem generativen KI-Modell wie ChatGPT oder Llama interagieren und eine Frage stellen, ist die Standardeinstellung für das Modell, aus seinem 'parametrischen Gedächtnis' zu antworten - d. h. aus dem Wissen, das in seinen Parametern gespeichert ist, das sich aus dem Training mit riesigen Daten aus dem Web ergibt", erklärte David Wadden, Forschungswissenschaftler bei AI2, der KI-fokussierten Forschungsabteilung des gemeinnützigen Allen Institute. "Aber genauso wie Sie wahrscheinlich genauere Antworten geben, wenn Sie eine Referenz [wie ein Buch oder eine Datei] vor sich haben, trifft das in einigen Fällen auch auf Modelle zu."
RAG ist zweifellos nützlich - es ermöglicht es, Dinge, die ein Modell generiert, auf abgerufene Dokumente zurückzuführen, um deren Faktizität zu überprüfen (und, als zusätzlichen Vorteil, potenziell urheberrechtsverletzende Wiederholungen zu vermeiden). RAG ermöglicht es auch Unternehmen, die nicht möchten, dass ihre Dokumente zur Schulung eines Modells verwendet werden - sagen wir, Unternehmen in stark regulierten Branchen wie Gesundheitswesen und Recht -, den Modellen zu erlauben, auf diese Dokumente in sichererer und vorübergehender Weise zurückzugreifen.
Aber RAG kann sicherlich nicht verhindern, dass ein Modell halluziniert. Und es hat Einschränkungen, über die viele Anbieter hinwegsehen.
Wadden sagt, dass RAG in "wissensintensiven" Szenarien am effektivsten ist, in denen ein Benutzer ein Modell verwenden möchte, um ein "Informationsbedürfnis" zu adressieren - zum Beispiel, um herauszufinden, wer den Super Bowl im letzten Jahr gewonnen hat. In diesen Szenarien enthält das Dokument, das die Frage beantwortet, wahrscheinlich viele der gleichen Stichwörter wie die Frage (z. B. "Super Bowl", "letztes Jahr"), was es relativ einfach macht, über eine Stichwortsuche zu finden.
Mit "Denkaufgaben" wie Codierung und Mathematik wird es schwieriger, in einer auf Stichwörtern basierenden Suchanfrage die notwendigen Konzepte zur Beantwortung einer Anfrage anzugeben - geschweige denn zu identifizieren, welche Dokumente relevant sein könnten.
Selbst bei einfachen Fragen können Modelle durch irrelevante Inhalte in Dokumenten "abgelenkt" werden, insbesondere in langen Dokumenten, in denen die Antwort nicht offensichtlich ist. Oder sie können - aus noch unbekannten Gründen - einfach den Inhalt der abgerufenen Dokumente ignorieren und sich stattdessen auf ihr parametrisches Gedächtnis verlassen.
RAG ist auch in Bezug auf die zur Anwendung in großem Maßstab erforderliche Hardware teuer.
Denn abgerufene Dokumente, sei es aus dem Web, einer internen Datenbank oder einem anderen Ort, müssen im Gedächtnis gespeichert - zumindest vorübergehend - werden, damit das Modell darauf verweisen kann. Eine weitere Ausgabe ist die Rechenleistung für den erhöhten Kontext, den ein Modell verarbeiten muss, bevor es seine Antwort generiert. Für eine Technologie, die bereits für den enormen Rechenaufwand und die Strommenge bekannt ist, die selbst für grundlegende Operationen erforderlich sind, handelt es sich dabei um eine ernsthafte Überlegung.
Dies soll nicht darauf hindeuten, dass RAG nicht verbessert werden kann. Wadden wies auf viele laufende Bemühungen hin, Modelle zu trainieren, damit sie die abgerufenen Dokumente besser nutzen können.
Einige dieser Bemühungen beinhalten Modelle, die "entscheiden" können, wann sie die Dokumente verwenden sollen, oder Modelle, die sich entscheiden können, die Abfrage erst gar nicht durchzuführen, wenn sie dies für unnötig halten. Andere konzentrieren sich auf Möglichkeiten, massive Datensätze von Dokumenten effizienter zu indizieren und die Suche durch bessere Darstellungen von Dokumenten - Darstellungen, die über Stichwörter hinausgehen - zu verbessern.
"Wir sind ziemlich gut darin, Dokumente basierend auf Stichwörtern abzurufen, aber nicht so gut darin, Dokumente basierend auf abstrakteren Konzepten, wie einer Beweistechnik, die zur Lösung eines mathematischen Problems benötigt wird, abzurufen", sagte Wadden. "Es sind weitere Forschungen erforderlich, um Dokumentenrepräsentationen und Suchtechniken zu entwickeln, die relevante Dokumente für anspruchsvollere Generationsaufgaben identifizieren können. Ich glaube, dass dies im Moment größtenteils eine offene Frage ist."
Also kann RAG dazu beitragen, die Halluzinationen eines Modells zu reduzieren - aber es ist nicht die Antwort auf alle halluzinatorischen Probleme der KI. Seien Sie vorsichtig bei Anbietern, die etwas anderes behaupten.