Heutzutage stehen strukturierte und unstrukturierte Daten im Fokus aller Betrachtungen. Dies gilt insbesondere seit dem Erscheinen großer Sprachmodelle (Large Language Models, LLMs) wie GPT-4. Wenn wir von strukturierten Daten sprechen, meinen wir Daten, die eine bestimmte Organisation haben, wie Datenbanken und Tabellenkalkulationen. Dabei handelt es sich um hoch organisierte Informationssysteme mit einem klaren Format, das mit einem übersichtlichen Schrank verglichen werden kann. In diesem Kontext sind Tabellen und CSV-Dateien als Beispiele zu nennen, die aufgrund ihrer festen Datentypen die Suche nach bestimmten Daten erleichtern. Unstrukturierte Daten hingegen folgen keinen bestimmten Richtlinien oder Regeln, da sie kein vordefiniertes Schema haben. Sie können jede Form annehmen, beispielsweise Text, Bilder oder Videos. Interessanterweise machen diese scheinbar chaotischen Formen den größten Teil dessen aus, was über verschiedene Themen bekannt ist.
Sprachmodelle wie LLMs sind von Natur aus eher mit unstrukturierten Textdaten vertraut und haben Schwierigkeiten, mit strukturierten Daten zu arbeiten. Bei strukturierten Daten müssen die Informationen in organisierter Form vorliegen: Für LLMs bedeutet dies jedoch, dass sie einen Konvertierungsprozess durchlaufen müssen, der in der Regel sowohl die Effizienz als auch die Genauigkeit ihrer Aufgaben beeinträchtigt. Diese Art von Daten enthält oft Zahlen ohne kontextuelle Bedeutung neben spezifischen Feldern, deren Details explizit verstanden werden müssen: ein Bereich, in dem LLMs Schwierigkeiten haben, da sie sich mehr auf das Erkennen von Mustern als auf das Befolgen klarer Regeln verlassen. Darüber hinaus erfordert der Umgang mit strukturierten Daten die Beantwortung komplexer Datenabfragen und die Herstellung vielfältiger Connections zwischen verschiedenen Elementen, wie sie in SQL-Systemen üblich sind – auch wenn dies für LLMs nicht selbstverständlich ist.
APIs spielen dabei eine zentrale Rolle, da sie den Austausch von Informationen zwischen verschiedenen Softwaresystemen erleichtern. Mit Hilfe von APIs können strukturierte Daten on-the-fly in Formate umgewandelt werden, die von LLM verarbeitet werden können: Berichte in Textform, Zusammenfassungen mit wichtigen Punkten oder sogar ansprechende Chat-Interaktionen.
Data Lakehouses könnten ebenfalls zur Bewältigung dieser Herausforderung beitragen, indem sie die Storagefähigkeiten von Data Lakes mit den Analysefähigkeiten eines Data Warehouse kombinieren. Sie sorgen dafür, dass verschiedene Arten von Informationen nicht mehr getrennt verwaltet werden müssen, um den LLM umfassende Datensätze zur Verfügung zu stellen. Darüber hinaus verfügen die meisten bestehenden Data Lakehouses über KI-Suchfunktionen, um die Suche nach entsprechenden Daten und Analyse zu verbessern. Dies gewährleistet eine effiziente Handhabung großer Datenmengen durch skalierbare Verarbeitungs- und Analysewerkzeuge, die zur Maximierung der LLM-Leistung und Datennutzung eingesetzt werden können.
Es gibt eine weitere kreative Methode, die generative KI verwendet, um strukturierte Daten in unstrukturierte Daten umzuwandeln. Die Idee ist, dass Text aus strukturierten Daten generiert werden kann. Beispielsweise könnte ein LLM-Modell darauf trainiert werden, aus Tabellendaten detaillierte Berichte zu generieren, die dann verwendet werden könnten, um den Kontext klarer darzustellen.
Große Sprachmodelle sind am besten in der Lage, unstrukturierte Daten zu verarbeiten. Dies liegt daran, dass sie über die Fähigkeit der natürlichen Sprachverarbeitung verfügen, solche Daten ohne vordefinierte Struktur direkt zu verstehen. Sie extrahieren und verstehen den Kontext, in dem die Informationen präsentiert werden, so dass sie auch auf kleinste Details eingehen und somit präzisere und relevantere Antworten geben können.
Mögliche Lösungen und Beispiel
Eine zusätzliche Infrastrukturkomponente ist erforderlich, um strukturierte Daten in einem Chatbot-System, das RAG und LLMs verwendet, nutzbar zu machen. Diese zusätzliche Komponente sollte Datenkonvertierungs- und Integrationsmodule enthalten, welche APIs verwenden, um strukturierte Daten aus Datenbanken abzurufen und sie dann in natürlichsprachliche Geschichten oder Zusammenfassungen umzuwandeln.
Ein Anwendungsfall ist beispielsweise ein Finanz-Chatbot, der über eine API, die mit einem gut strukturierten Datenbanksystem verbunden ist, auf die Transaktionshistorie eines Kunden zugreifen kann. Das Datenkonvertierungsmodul wandelt diese Details in ein Format um, das vom LLM leicht für Konversationen verwendet werden kann, um Feedback durch diese Interaktionsdesigntechnik zu erzeugen. Diese Kombination gewährleistet die Fähigkeit des Chatbots, korrekte und kontextbezogene Antworten zu geben, indem er von zwei Arten von Informationsquellen profitiert (strukturierte Daten plus die generativen Fähigkeiten des LLM).
Fazit
Kurz gesagt: Auch wenn strukturierte Daten für LLM eine Herausforderung darstellen, kann eine angemessene Vorbereitung der Daten und ein entsprechendes Situationsbewusstsein dennoch zu guten Ergebnissen führen. Umgekehrt kommen unstrukturierte Daten den Stärken der LLM sehr entgegen, da sie eine flexible und kontextbezogene Analyse ermöglichen. Ein effektives Management beider Datentypen ist wichtig, um das volle Potenzial der generativen KI zu nutzen.
Der Autor: Maximilian Kuhn – AI Consultant Engineer HICO-Group