Sind Ihre Daten bereit für GenAI?



Listen to this blog
Disclaimer

Ohne Zweifel befindet sich GenAI im Hype-Zyklus. Ob es seinen Höhepunkt bereits erreicht hat, lässt sich schwer sagen, aber die Technologie hat das Potenzial, unsere Arbeits- und Lebensweise grundlegend zu verändern. Die Anzahl der Anwendungsfälle von GenAI und der Bereiche, in denen es Mehrwert schaffen kann, ist unendlich und transformativ. Mark Cuban glaubt, dass der erste Billionär der Innovator sein wird, der die Monetarisierung von KI vor allen anderen optimiert. McKinsey and Company schätzt, dass GenAI einen Einfluss auf die Produktivität haben wird, der 2,6 bis 4,4 Billionen US-Dollar entspricht.

Doch die Frage bleibt: Werden Menschen und KI nahtlos zusammenarbeiten und wie werden Menschen ihre Kreativität in einem Ökosystem monetarisieren, das von sich rasch entwickelnden GenAI-Modellen dominiert wird? Der Weg zur Beantwortung dieser Fragen wird mit Herausforderungen, Misserfolgen und Innovationen gepflastert sein. Unternehmen müssen auf zukünftige Disruptionen vorbereitet sein. Der beste Weg, dies zu tun, besteht darin, sicherzustellen, dass Ihre Daten – das wertvollste Kapital eines Unternehmens in diesem neuen Ökosystem – für die Zukunft gerüstet sind.

Letztes Jahr kamen die ersten Large Language Model (LLM)-Modelle wie ChatGPT-3, Microsoft Copilot und Google Gemini auf den Markt, was zu einer Explosion von GenAI-Experimenten führte. In diesem Jahr werden diese experimentellen Modelle perfektioniert und in die Produktion überführt. Unternehmen benötigen Zugriff auf vielfältige Sätze hochwertiger Daten, um diese Modelle erfolgreich zu skalieren und in der Produktion effektiv einzusetzen. Unternehmen stellen möglicherweise fest, dass die Beschaffung dieser Daten nicht einfach ist und noch viel mehr Arbeit zu leisten ist. Laut der Daten- und Analyseumfrage von Wavestone haben nur 5 % der Unternehmen Generative KI in großem Maßstab in der Produktion implementiert.

Während Unternehmen mit traditioneller KI mehr Erfolg haben, ist generative KI ein ganz anderes Kaliber mit anderen Datenanforderungen. Traditionelle KI basiert auf überwachtem Lernen, bei dem kuratierte Datensätze verwendet werden, um Modelle zu trainieren, Muster und Ergebnisse zu erkennen. GenAI hingegen nutzt sowohl strukturierte als auch unstrukturierte Daten und erstellt selbst Daten, anstatt einfach Ergebnisse vorherzusagen. Dieses Lernen ist unbeaufsichtigt, das Modell lernt also aus allen Daten, auf die es zugreifen kann. GenAI ist eher wie eine komplexe Blackbox, bei der Datenwissenschaftler nicht verstehen, warum Modelle die Entscheidungen treffen, die sie treffen. Aufgrund dieser mangelnden Beobachtbarkeit ist es von größter Bedeutung, dass GenAI-Modelle Zugriff auf Daten höchster Qualität haben.

Anwendung von GenAI zur Verbesserung der Unternehmensleistung

Die GenAI-Anwendung im Unternehmen konzentriert sich auf die Feinabstimmung handelsüblicher Modelle von Drittanbietern wie ChatGPT. Die Erstellung einzigartiger großer LLM-Modelle ist für die meisten Organisationen wirtschaftlich nicht machbar. Daher trainieren viele vorhandene Modelle mit Unternehmensdaten, um Generative AI zu implementieren. Dies wird als Feinabstimmung des Modells bezeichnet.

Während GenAI beim Tuning Modelle an Domänen anpasst, ist Retrieval Augmented Generation (RAG) der Mechanismus, den GenAI verwendet, um Fakten innerhalb des Unternehmens zu beschaffen, die seine Antworten untermauern. Wenn Sie beispielsweise einen GenAI-Chatbot fragen, wann Ihre Bestellung geliefert wird, greift er über RAG auf das Auftragsabwicklungssystem zu, um die Antwort zu erhalten.

Damit GenAI im Unternehmen effektiv funktioniert und die Modelloptimierung unterstützt, müssen RAG-Daten:

  • Zugänglich
  • Sauber
  • Beschriftet
  • Sicher

Integration und Datenzugriff

Ein breiter Datenzugriff ist die erste Voraussetzung Ihrer GenAI-Strategie. Um Ihre Modelle zu optimieren, benötigen sie Zugriff auf die relevanten Trainingsdaten, und damit RAG funktioniert, müssen die Modelle Zugriff auf Betriebsdaten haben.

Tuning-Modelle

Für eine effektive Modelloptimierung ist ein breiterer und vielfältigerer Datensatz erforderlich. Wenn GenAI-Modelle nur engen Datensätzen ausgesetzt sind, neigen sie dazu, das Modell zu überanzupassen und sich den Trainingsdatensatz einzuprägen, ohne etwas zu lernen. Damit Modelle lernen und zwischen unterschiedlichen Merkmalen unterscheiden können, müssen sie mit unterschiedlichen Daten trainiert werden. Diese Datensätze müssen Daten aus der gesamten Organisation darstellen, um eine größere Dimensionalität zu erreichen. Mit einer größeren Repräsentation werden KI-Modelle weniger voreingenommen und effektiver sein.

Die Verwendung der richtigen Datensätze, die überall in Ihrer Organisation vorhanden sein können, ist für die Feinabstimmung von GenAI-Modellen unerlässlich. Kleinere, qualitativ hochwertige Datensätze sind besser als große, qualitativ minderwertige Daten. Datensätze von geringer Qualität erzeugen Rauschen, das Modelle verwirrt und das Lernen stört. Wenn Sie Zugriff auf alle Organisationsdaten haben und deren Qualität kennen, können Sie die richtigen Trainingsdaten für die Feinabstimmung von GenAI finden.

LAPPEN

Damit GenAI in der Organisation nützlich ist, muss es Zugriff auf die entsprechenden Informationen im richtigen Kontext haben, um Benutzeranfragen zu beantworten. Datenprodukte sind eine großartige Möglichkeit, diese Prozesse zu unterstützen, indem sie mehr Kontext und Personalisierung rund um Benutzeranfragen bieten. Durch die Integration von Datenprodukten mit GenAI können kundenorientierte Datenprodukte Eingabeaufforderungen oder Eingaben bereitstellen, die in GenAI eingespeist werden können, um mehr Personalisierung und kontextbezogene Antworten zu liefern. Datenprodukte bieten den Zugriff und die entsprechende Steuerung, um sicherzustellen, dass GenAI die besten Daten nutzt. Beispielsweise können Chatbots Datenprodukte nutzen, um persönliche Begrüßungen in Mitteilungen einzufügen oder nach früheren Einkäufen zu fragen und so das Erlebnis zu verbessern.

Qualität und Integrität

Die einzigartige Fähigkeit von GenAI, unabhängig und ohne Aufsicht zu lernen, macht es revolutionär und zugleich gefährlich. Aufgrund der „Black Box“-Natur der Technologie sind qualitativ hochwertige Daten für eine erfolgreiche GenAI-Implementierung von größter Bedeutung. Laut Wakefield Research nennen 42 Prozent der Datenverantwortlichen die Datenqualität als größtes datenbezogenes Hindernis für die Einführung von GenAI und großen Sprachmodellen.

Auch die Fähigkeit von GenAI, aus unstrukturierten Daten zu lernen, unterscheidet es von herkömmlicher KI. Diese Daten sind normalerweise die chaotischsten und werden selten bereinigt oder organisiert. Um diese unstrukturierten Daten in Ihrem RAG oder Training zu verwenden, sind Vorverarbeitung und Normalisierung erforderlich, damit GenAI die Daten verstehen kann.

Das Bereinigen unstrukturierter Daten unterscheidet sich vom Bereinigen strukturierter Daten, da diese Daten normalerweise in Textform vorliegen und der Bereinigungsprozess Folgendes umfasst:

  • Vereinheitlichung der Sprache, etwa durch die Korrektur von Rechtschreibfehlern oder die Erweiterung von Abkürzungen.
  • Das Identifizieren von Anomalien zur weiteren Untersuchung ist eine weitere Möglichkeit, Ihre unstrukturierten Daten zu bereinigen, um GenAI zu unterstützen.

Entdeckung, Metadaten und Kontext

Die Fähigkeit der generativen KI, unstrukturierte Daten zu verarbeiten, ist ein echter Wendepunkt. Die mangelnde Konsistenz der Trainingsdaten kann jedoch zu Fehlern und Trugbildern führen. Um die Fehler zu verringern, sind Datenbeschriftung und effektive Strategien zur Metadatenverwaltung erforderlich, um für mehr Struktur zu sorgen.

Wenn Sie unstrukturierte Daten stärker strukturieren, werden sie weniger verrauscht und widersprüchlich. Menschen können diese Konflikte viel besser lösen als Maschinen. Eine robuste Metadatenstrategie, die Metadaten über alle Ihre Datenbanken hinweg verwaltet, hilft dabei, eine einzige Quelle der Wahrheit zu schaffen, auf die sich KI verlassen kann. Durch die Einbindung von Mechanismen, die es Menschen ermöglichen, mit KI zusammenzuarbeiten, um Daten zu kennzeichnen und zu kategorisieren, können Unternehmen sicherstellen, dass ihre Unternehmensdaten für GenAI bereit sind.

Datenschutz und Sicherheit

Wenn Sie GenAI Ihre sicheren und persönlichen Daten überlassen, ist zusätzliche Kontrolle erforderlich. Der Datenhunger von GenAI zwingt die Technologie dazu, alle Daten zu verwenden, auf die sie zugreifen kann. RAG- oder Schulungsprozesse verstoßen gegen Protokolle, wenn keine Beschränkungen für den Zugriff auf persönliche Daten bestehen. Wenn Sie alle Ihre Daten abschotten, wird die Wirksamkeit von GenAI eingeschränkt. Um Ihre Daten und Systeme auf GenAI vorzubereiten, benötigen Unternehmen eine Strategie für granulare Zugriffskontrollen und Datenmaskierung, um Modellen beizubringen, was tabu ist, und um sicherzustellen, dass Modelle keine privaten Daten unangemessen weitergeben.

Erfordert einen Teamansatz

Die Vorbereitung von Daten für innovative GenAI-Technologie ist keine einfache Aufgabe. Die Leistungsfähigkeit der Technologie erfordert qualifizierte Menschen, die sie überwachen und sicherstellen, dass sie ordnungsgemäß funktioniert. Wenn GenAI-Bots zum Gateway zwischen Daten und Benutzern werden, werden Analysten, die traditionell den Zugriff auf Erkenntnisse kontrollierten, aus dem Prozess ausgeschlossen. Sie verlieren die Kontrolle darüber, auf welche Daten zugegriffen wird und ob diese von guter Qualität sind. Dieser Wandel erfordert neue und robustere Governance-Strategien, die Input und Kontrolle aus der gesamten Organisation einbeziehen.

Teams, die diese Prozesse verwalten, benötigen vielfältige Fähigkeiten. Sie müssen verstehen, wie Modelle funktionieren und welche Technologie ihnen zugrunde liegt, und die geschäftlichen Auswirkungen und Anforderungen dieser Modelle verstehen.

GenAI kann seine eigenen Probleme lösen

Das Tolle an der Datenaufbereitung für GenAI ist, dass GenAI dabei helfen kann. KI-Tools können Menschen dabei helfen, Daten zu taggen und automatisch Rechtschreibung zu korrigieren oder Abkürzungen zu erweitern. GenAI kann auch synthetische Daten erstellen, um Lücken in Datensätzen zu schließen. Mit dieser Funktion kann GenAI Daten erstellen, die die Bedingungen der realen Welt genau nachahmen.

Generative KI kann von sich selbst lernen, aber sie muss irgendwo anfangen. Wo Sie anfangen, hat tiefgreifende Auswirkungen darauf, wo Sie enden. Wenn Sie mit den qualitativ hochwertigsten Daten beginnen, sind Sie in der besten Position, um großartige Ergebnisse zu erzielen.

Discover the Latest in Data and AI Innovation

  • Datenintegrations- und Synchronisierungsstrategien in Datenprodukten

    Read More

  • So bauen Sie mit Datenprodukten Vertrauen auf

    Read More

  • Datenintegritäts-Lebenszyklus: Strategien zur Datenbereinigung und -transformation

    Read More

Request a Demo TODAY!

Take the leap from data to AI