Zurück zur Übersicht

Mit strukturierten Daten die generativen KI verbessern und Wissensdatenbanken aufbauen

Veröffentlichungsdatum: 5 August 2024

Strukturierte Daten gelten heute als das Fundament des Datenmanagements. Diese Daten bilden dank ihrer Zugänglichkeit und vor allen Dingen Zuverlässigkeit das Rückgrat verschiedener Anwendungen. Mit dem Beginn der generativen KI (GenAI) haben Large Language Models (LLMs) die Art und Weise, wie wir mit Daten interagieren, revolutioniert. Denn sie kann menschengemachte Texte höchst artverwandt generieren und verarbeiten. Die Datenbasis dieser Technologie fußt auf unstrukturierten Daten, wie Texten und Dokumentationen, da diese leicht zugänglich und damit für das System leicht auffind- und erlernbar sind. Allerdings führte die ausschließliche Konzentration auf diese unstrukturierten Daten auch dazu, dass die LLMs beim Umgang mit strukturierten Daten Schwierigkeiten hatten. Warum? In diesem Artikel werden wir die wichtigsten Herausforderungen auflisten und aufzeigen, wie diese mit Hilfe modernster Methoden im Bereich der GenAI bewältigt werden können. 

Einschränkungen von Large Language Models (LLMs) bei strukturierten Daten 

LLMs haben Schwierigkeiten, strukturierte Datenformate wie Tabellen, Datenbanken oder Tabellenkalkulationen zu interpretieren. Denn es fehlt ihnen das Schema-Verständnis. Mit anderen Worten: LLMs haben das Problem, die Beziehungen und Beschränkungen der Daten zu erfassen, was für die genaue Interpretation ihrer Bedeutung entscheidend ist. 

Möchten Sie sich eingehender mit den Unterschieden zwischen strukturierten und unstrukturierten Daten befassen? Lesen Sie unseren früheren vorherigen Artikel „Strukturierte vs. unstrukturierte Daten: Herausforderungen und Chancen für Sprachmodelle“, um weitere Einblicke zu erhalten und den breiteren Gesamtkontext dieser Herausforderungen zu verstehen. 

Zusätzlich zum fehlenden Schema-Verständnis erfordern LLMs eine sorgfältige Interpretation, um die erforderliche Genauigkeit zu gewährleisten. Ohne diese präzise Interpretation werden LLMs aufgrund der Fehlinterpretation von numerischen Werten, Datumsangaben und kategorischen Daten mit Sicherheit falsche oder unsinnige Antworten erzeugen. Darüber hinaus kann der Umgang mit strukturierten Daten LLMs zu Halluzinationen verleiten. Das bedeutet, das die LMMs fiktive Fakten erfinden, wie nicht existente Studien oder falsche historische Ereignisse. Mit anderen Worten: LLMs können auf Basis strukturierter Daten plausibel klingende, aber völlig falsche Informationen generieren, weil sie auf der Grundlage von Mustern, die sie aus großen Textkörpern gelernt haben, verallgemeinern. 

Eine wirksame Lösung für Halluzinationen ist die Retrieval Augmented Generation (RAG)-Technologie, die den Abfragen Kontextbewusstsein verleiht. 

Sie können mehr über RAG-Systeme erfahren, indem Sie unseren One-Pager „AI-Powered Chatbot“ herunterladen. 

Den Einschränkungen mit neuen Ansätzen begegnen 

Der einfachste Lösungsansatz besteht darin, die strukturierten Daten in natürlichsprachliche Prompts umzuwandeln. Dies kann manuell geschehen, aber es kann auch GenAI selbst genutzt werden, um die Texte zu generieren und zu interpretieren. 

Um bessere Ergebnisse zu erzielen, ist es auch möglich, die Stärken von GenAI mit Prompt-Engineering-Techniken zu kombinieren, um Prompts zu erstellen, die die Nutzung und Interpretation von strukturierten Daten durch LLMs sorgfältig anleiten. Sind Sie daran interessiert, Prompt-Engineering-Techniken zu beherrschen? 

Nehmen Sie an unserem speziellen Workshop teil, um zu lernen, wie man Prompts effektiv gestaltet und das Potenzial von LLMs maximiert. 

Eine weitere Technik ist Serialisierung von strukturierten Daten. Hierbei werden Daten in ein Serien-Text-Format konvertieren, das LLMs interpretieren und verwenden können. Stellen Sie sich vor, Sie haben eine Tabelle mit Datensätzen von Mitarbeitern mit Spalten wie „Name“, „Position“, „Gehalt“ und „Eintrittsdatum“. In den Zeilen darunter finden sich die Datensätze. Zur Serialisierung wird die Tabelle die Daten in einen Text-String umwandeln, indem sie die Zeilenwerte fortlaufend integriert: „Employee records: Name: John Doe, Position: Manager, Gehalt: $90.000, Eintrittsdatum: Jan 10, 2020; Name: Jane Smith, Position: Ingenieurin, Gehalt: $80.000, Eintrittsdatum: 15. Februar 2019“. Dadurch ist das Modell leicht zu analysieren und zu verstehen. 

Eine komplexere Lösung ist die Integration von Wissensgraphen (Knowledge Graph, KG), die die Beziehungen zwischen den Entitäten der strukturierten Daten darstellen. Wissensgraphen repräsentieren Wissen in Form von Knoten (Entitäten) und Kanten (Beziehungen zwischen Entitäten). Sie bieten eine strukturierte, maschinenlesbare Darstellung von Informationen, die es ermöglicht, komplexe Verbindungen und Zusammenhänge zwischen verschiedenen Entitäten zu verstehen und abzuleiten. Wissensgraphen bieten überprüfbare und strukturiert gespeicherte Fakten, die dazu beitragen können, die Genauigkeit der von LLMs generierten Informationen zu erhöhen und das Risiko von Halluzinationen zu verringern. LLMs können durch Zugang zu Wissensgraphen besseren Zugriff auf kontextrelevante Informationen erhalten, was die Kohärenz und Relevanz der generierten Texte verbessert. Aktuelle Studien haben gezeigt, dass die Integration von KGs mit LLMs das Verständnis des Kontexts deutlich verbessert und zu besseren Output-Reaktionen führt. 

Fazit 

Obwohl LLMs in erster Linie für die Arbeit mit unstrukturierten Daten gedacht waren, gibt es heutzutage gut durchdachte Ansätze und Methoden, um die Nutzung strukturierter Daten mit LLMs zu verbessern. Darüber hinaus erhöht die Integration strukturierter Daten und ihre Kombination mit unstrukturierten Daten die Genauigkeit und Konsistenz der Antworten und verbessert die Zuverlässigkeit und das Vertrauen in KI-Systeme, insbesondere im professionellen Bereich.

HABEN SIE FRAGEN?

Wir beantworten sie gerne.

+49 (0) 7731-9398050
Download trigger
Cookie-Einstellungen