- 8. März 2024
- Veröffentlicht durch: Kevin Jilg
- Kategorie: Technologie

Müssen Sprachmodelle (Large Language Models – kurz LLM) noch trainiert werden und was ist dieses RAG?
Fine-Tuning beschreibt einen Lern- oder Trainingsprozess, bei dem ein bereits vortrainiertes Modell mit anderen Daten weitertrainiert wird, um eine spezifische Aufgabe zu lösen. Beispiel: Sie haben Texte, die Sie bisher manuell klassifiziert haben und möchten diese Aufgabe nun automatisieren. Dann können Sie ein Sprachmodell wie bspw. BERT, das bereits auf großen Textmengen für verschiedene Aufgaben trainiert wurde, auf Ihren Anwendungsfall adaptieren, indem Sie es mit Ihren Daten weitertrainieren, aka fine-tunen. Der Vorteil dabei ist, dass Sie weniger Daten und Rechenleistung benötigen als bei einem eigenen Modell, das Sie von Grund auf trainieren.
Aber warum überhaupt trainieren? Kann nicht das Basismodell bereits die Aufgabe lösen? Hier kommen wir nun zu dem spannenden Teil, denn da hat sich in den letzten Jahren einiges getan. Die Basismodelle bzw. Foundation Models wurden immer leistungsfähiger und können mittlerweile out-of-the-box eine Vielzahl an Aufgaben zumindest gut genug erledigen. Mittels Fine-Tuning werden in spezifischen Aufgabenstellungen in der Regel bessere Ergebnisse erzielt, in vielen Fällen lohnt sich der Aufwand jedoch nicht mehr.
Wie bringe ich aber dann dem Modell spezifisches Wissen bei? Das Foundation Model kennt ja nicht meine unternehmensinternen Daten (also hoffentlich). Hier kommt die Retrieval Augmented Generation oder kurz RAG-Architektur ins Spiel. Der Begriff ist durchaus wörtlich zu nehmen. Wir erweitern die Textgenerierung durch die Abfrage weiterer Informationen. D.h. statt direkt die Antwort auf eine Frage von einem LLM generieren zu lassen, suchen wir zuerst nach relevanten Dokumenten in unserer Wissensdatenbank und geben die gefundenen Ergebnisse als Kontext mit an das LLM, das die Frage basierend auf den bereitgestellten Dokumenten beantwortet. Diese können zudem als Quelle mit angegeben werden, wodurch User Informationen leichter verifizieren können.
Wir nutzen also die bereits sehr guten sprachlichen Fähigkeiten eines LLMs und versorgen es lediglich mit relevanten externen Informationen, statt es aufwendig zu trainieren. Das Wissen wird also nicht internalisiert wie beim klassischen auswendig lernen, sondern es wird bei Bedarf einfach ganz faul nachgeschlagen. Dieser Ansatz ist insbesondere bei wissensintensiven Chat-Anwendungen bevorzugt, da so leicht aktuelle und verifizierbare Quellen verwendet werden können, wohingegen der Fine-Tuning Ansatz eher bei sehr spezifischen und abgegrenzten Aufgabenstellungen zum Einsatz kommt.
PS: Falls Ihre Kinder das jetzt als Ausrede vom Lernen gegen Sie verwenden – auch die Foundation Models mussten zunächst sehr aufwendig lernen/trainiert werden. Erst mit dieser Basis kann externes Wissen sinnvoll eingesetzt werden.