„ChatGPT ist nebensächlich“: Wie Unternehmen KIs auf ihre eigenen Daten trainieren

Ulrich Walter ist Physiker, Ingenieur, Professor an der TU München – und er flog 1993 an Bord der Columbia für zehn Tage ins All. Was er in all diesen Funktionen macht: Er beschäftigt sich mit Robotik und Künstlicher Intelligenz. Auch in seiner jetzigen Rolle als Aufsichtsratsmitglied bei der Bayerischen Lebensversicherung treibt ihn das Thema KI um. Es geht nicht nur um die Frage, wie das Unternehmen KI sinnvoll, sicher und gewinnbringend einsetzt – sondern auch, was für eine Art von KI das sein muss.

Walter spricht sich für den Bau eigener RAG-Systeme aus. Das steht für Retrieval Augmented Generation und beschreibt einen Ansatz, bei dem interne und externe Daten aus verschiedensten Quellen zusammengeführt werden, ohne sie tatsächlich zu vermischen. Die Informationen einer Datenquelle werden getrennt von denen anderer Datenquellen in einer KI-üblichen Vektordatenbank gespeichert. Ein Abfrage-Prompt sucht dann nach allen passenden Textstellen, den Vektoren. Ein allgemeines Sprachmodell, also beispielsweise ChatGPT oder Claude, verknüpft diese passenden Inhalte schließlich zu einer Antwort.

So ein RAG-System sei zum Beispiel ein ideales System für die Kundenberatung bei Versicherungen und dort teilweise bereits im Einsatz, berichtet Walter. Auf der einen Seite werden dafür alle internen Versicherungsangebote in der Datenbank gesammelt, ergänzt durch interne Regelungen des Governance-Systems, das dokumentierte Fachwissen und die Erfahrung der Mitarbeitenden, plus externe Bafin- und HGB-Anforderungen oder Solvancy-II-Richtlinien. Hinzu komme dann auf der anderen Seite das allgemeine Weltwissen, wie es öffentlich zugänglich ist und womit ein übliches KI-Foundation-Model trainiert ist, so Walter. Für eine Kundenanfrage wird innerhalb von Sekunden aus all diesen Daten ein gutes, verlässliches und tatsächlich verfügbares Angebot erstellt – in verständlicher Sprache.

Der entscheidende Vorteil der RAG-Systeme liege darin, dass die Informationen aus allen Quellen in der zentralen Vektordatenbank streng getrennt bleiben. Dennoch können sie gemeinsam genutzt werden. Die KI greife so „sowohl auf die geschützte Seite als auch auf die offene Seite“ zu. In diesem Kontext relativiert er die Rolle bekannter Tools: ChatGPT sei „eigentlich nebensächlich für Unternehmen“, vielmehr nur „die Schnittstelle, um mit dem System reden zu können“. Entscheidend sei, „eine regelbasierte und neuronale KI auf eigene Daten zu trainieren“.

Eine der größten Hürden beim Aufbau solcher RAG-Systeme aber ist die sogenannte „semantic gap“. Das ist die Lücke zwischen unstrukturiertem vorhandenem Wissen und dessen Nutzbarkeit, also seiner technischen Repräsentanz in einem IT-System. „Irgendwo weiß jemand etwas aus Erfahrung. Oder es gibt handschriftliche Vermerke. Oder eine wichtige Notiz irgendwo in Aktenordnern.“ Wer eine wirklich gute Vektordatenbank möchte, muss möglichst viel dieses analogen und teils nur in den Köpfen von Menschen steckenden Wissens digitalisieren.

Bei den Mitarbeitenden der Versicherung existierte viel implizites Erfahrungswissen zu Versicherungsbetrug, berichtet Walter. Zum Beispiel erkennen Sachbearbeiter gefälschte Handwerkerrechnungen. „Wenn in einer Rechnung steht ‚Abräumarbeiten: zwei Stunden‘, dann wissen sie aus ihrer Erfahrung: Das ist wahrscheinlich nicht richtig abgerechnet worden.“ Um künftig für die Rechnungsprüfung KI einsetzen zu können, müsse dieser „Erfahrungsschatz“, der in den Köpfen der Sachbearbeiter liegt, geborgen – sprich: für eine KI nutzbar gemacht – werden.

Dafür gibt es zwei Wege: die nachträgliche Digitalisierung, etwa durch Scannen von Notizen, oder die systematische Erhebung von Wissen durch Interviews. Letzteres ist jedoch sensibel. Mitarbeitende befürchten: „Jetzt soll ich mein Fachwissen der KI übergeben? Damit werde ich doch obsolet.“ Entsprechend „sträuben sich Experten, ihr Wissen auf diese Weise preiszugeben“, weiß Walter. Und in gewisser Weise könne er das auch verstehen.

Das Problem ist allerdings: Eine Wissensdatenbank ist nur gut, solange sie ausreichende und gute Informationen beinhaltet. Bleiben interne Daten unzureichend erschlossen, kann das Folgen haben. Dann, so Walter, werde „die andere Seite manchmal übermächtig“: Neuronale KIs wie etwa ChatGPT neigen dann dazu zu halluzinieren, also fehlende Informationen zu erfinden. Dem könne man nur durch sogenannte „explainable AI“ (xAI) oder möglichst regelbasierter KI (Expertensystemen) entgegenwirken. Ein gutes RAG-System brauche daher eine „Mischung aller relevanten, zuverlässigen Quellen zu einem Gesamtsystem“. So etwas gebe es nicht von der Stange, und der aufwendige Aufbau bedürfe eines spezialisierten IT-Unternehmens.

Briefings wie CEO.Table per E-Mail erhalten