Ein gesundes System mit sauberen Daten ist für Organisationen, die ein gesundes Endergebnis erzielen möchten, von entscheidender Bedeutung. Ungesunde Daten führen zu schlechteren Entscheidungen, verpassten Chancen und höheren Kosten. Um qualitativ hochwertige Daten zu erhalten, müssen diese sorgfältig bereinigt werden, damit sie gesund bleiben.
Die Forschung von G. Loabovitz und Y. Chang führte zur 1-10-100-Regel der Datenqualität. Diese Regel verdeutlicht die steigenden Kosten von Datenfehlern aufgrund schlechter Datenqualität: Wenn die Überprüfung eines Datensatzes 1 US-Dollar kostet, kostet die Behebung einmal aufgetretener Fehler 10 US-Dollar pro Datensatz und 100 US-Dollar pro Datensatz, wenn Fehler nicht behoben werden. Diese Forschung besagt, dass Sie umso mehr Datenqualitätskosten vermeiden, je proaktiver Sie die Gesundheit Ihrer Daten sicherstellen.
Eine umfassende Datengesundheitsstrategie, die die Datengesundheit von der Datenbankstruktur bis zu den Anwendungen berücksichtigt, führt zu qualitativ hochwertigeren Daten. Daten und Systeme müssen auf drei Ebenen bereinigt und bewertet werden.
Datenbanken und Datentabellen müssen effektiv organisiert sein und korrekt funktionieren, um Fehler zu vermeiden. Effektive Datenbankreparaturprozesse beheben Datenqualitätsprobleme an der Quelle.
Die Daten in Ihrer Datenbank müssen einem regelmäßigen Datenbereinigungsprozess unterzogen werden, bei dem nach Fehlern, Inkonsistenzen, Duplikaten und fehlenden Einträgen gesucht wird.
Beim Konvertieren und Verschieben von Daten entstehen neue Datenfehler. Unternehmen benötigen Strategien, um die Datenintegrität durch verschiedene Transformationen sicherzustellen, darunter ETL (Extrahieren, Transformieren, Laden) und Datenbereinigungsprozesse.
Wenn Sie sicherstellen, dass Ihre Datenbanken und ihre Struktur in einem guten Zustand sind, kann dies erhebliche Auswirkungen auf Ihre Datengesundheitsstrategie haben. Indem Sie sich auf die Datenquelle konzentrieren, werden sich wiederholende nachgelagerte Datenqualitätsprobleme reduziert. Die ersten Schritte zur Erhaltung der Gesundheit Ihrer Daten sind die Aktualisierung der Datenbanktechnologie und die Reparatur schlecht strukturierter Datenbanken.
Durch die Bewertung der Organisation und Struktur von Datenbanken lässt sich das Auftreten fehlerhafter Daten verringern. Durch die Konsolidierung von Datenformaten in einer gemeinsamen Struktur können widersprüchliche und doppelte Daten verringert werden. Ein Beispiel hierfür ist die Erstellung eines Standardformats für Telefonnummern. Anstatt mehrere Formate mit Bindestrichen, Punkten, Ortsvorwahlen und Ländervorwahlen zu verwalten, können Unternehmen ein reines Zahlenformat für Textzeichenfolgen definieren, das in allen Systemen verwendet wird. Diese Taktik reduziert die Anzahl der Datentypen und verringert die Wahrscheinlichkeit von Verwechslungen.
Das Ändern des Schemas zur Verbesserung der Leistung ist eine weitere Möglichkeit, Datenbanken so zu organisieren, dass die Datenintegrität verbessert wird. Beispiele hierfür sind die Konsolidierung von Primärschlüsseln zur Erhöhung der Konsistenz. Durch das Korrigieren und Standardisieren von Quelltabellen kann der Aufwand für die Standardisierung der Daten bei jeder Analyse verringert werden. Während eine einheitlichere Anpassung des Schemas zukünftige Fehler begrenzen kann, kann dies kurzfristig zu Problemen führen, da nachgelagerte Apps angepasst werden müssen, um die Schemaänderungen zu integrieren. Eine Föderationsschicht, die als Gateway zu Ihrer Datenbank fungiert, kann beim Erkennen von Schemaänderungen helfen, um sicherzustellen, dass nachgelagerte Apps entsprechend aktualisiert werden.
Im Gegensatz zur Datenbankreparatur konzentriert sich die Datenbereinigung auf die Daten selbst. Die Datenbankbereinigung ist ein Prozess, der konsequente und regelmäßige Aufmerksamkeit erfordert. In einem Krankenhaus gelangen ständig Schadstoffe in die Einrichtung, daher ist eine regelmäßige Sterilisation erforderlich, um zu verhindern, dass Keime Menschen krank machen. Bei Ihren Datenbanken ist das nicht anders.
Regelmäßige Reinigungsprozesse sollten sich auf Folgendes konzentrieren:
Doppelte Daten verschwenden Platz in einer Datenbank und sorgen für Verwirrung, was die Bereitstellung genauer Informationen erschwert. Angesichts der Datenmenge, die in Datensilos gesammelt und gespeichert wird, gibt es häufig mehrere Versionen desselben Datensatzes. Die Datendeduplizierung ist eine wichtige Maßnahme zur Datenbereinigung, da die doppelte Zählung derselben Datenpunkte Ihre Analyse verfälscht.
Fehler wie Rechtschreibfehler, Groß- und Kleinschreibung sowie inkonsistente Benennungen können Anwendungen und Analysen, die auf standardisierten Formaten basieren, verwirren. Das Auffinden und Beheben dieser Fehler trägt dazu bei, die Daten sauber zu halten.
Fehlende Daten können die Analyse verzerren. Um Probleme mit fehlenden Daten zu beheben, müssen möglicherweise Daten mit vernünftigen Annahmen hinzugefügt oder eine ganze Spalte oder ein ganzer Datensatz entfernt werden, wenn zu viele Daten fehlen.
Alte oder irrelevante Daten belegen Speicherplatz und sorgen für Verwirrung. Alte Daten können außerdem mit neueren Daten in Konflikt geraten oder mit neuen Daten verwechselt werden, was die Analyse verfälscht.
Ausreißer in Ihrem Datensatz können auf einen Fehler hinweisen, müssen es aber nicht. Wenn Sie Ausreißer identifizieren, ihre Ursache ermitteln und entsprechende Maßnahmen ergreifen, können Sie die Anzahl fehlerhafter Datenpunkte in Ihren Datensätzen verringern.
Mithilfe einer Datenvalidierung können Sie einige dieser Fehler bei der Dateneingabe vermeiden. Durch das Erstellen von Validierungsregeln und deren Integration in Ihren Datenstapel können Sie Echtzeittests durchführen, um Fehler frühzeitig zu erkennen.
Prozesse werden kompliziert, wenn Daten von einer Datenbank in eine andere übertragen, transformiert oder mit einem neuen Datensatz zusammengeführt werden. Um gesunde Daten zu erhalten, müssen Sie sicherstellen, dass Ihre Transformationsprozesse keine fehlerhaften Daten einführen oder verewigen. Wenn Daten aus unterschiedlichen Datenbanken stammen, ist die Wahrscheinlichkeit hoch, dass Daten dupliziert werden. Auch unterschiedliche Beschriftungen zwischen Datenbanken können zu Fehlern führen.
Daten werden auf viele Arten transformiert, aber normalerweise werden sie entweder transformiert und für die Analyse vorbereitet oder standardisiert, um für Anwendungen oder zukünftige Analysen in eine Datenbank geladen zu werden.
Extrahieren, Transformieren und Laden (ETL)-Prozesse sind der gängigste Transformationsansatz zum Verschieben von Daten von einer Datenbank in eine andere. ETL-Prozesse extrahieren Daten aus einer Datenbank, transformieren sie und laden sie dann in die Zieldatenbank. Die Struktur der Zieldatenbank bestimmt normalerweise diese Transformationen, die gut definiert und systematisch sind. Sie sind gut skalierbar und für große Datensätze geeignet.
Data-Wrangling-Prozesse sind anders und viel agiler. Diese Prozesse sind der Schlüssel zur Vorbereitung von Datensätzen für die Analyse. Data-Wrangling-Technologien berücksichtigen sowohl strukturierte als auch unstrukturierte Daten.
Das Verständnis dieser Unterschiede ist wichtig, um gesündere Daten zu unterstützen.
ETL-Prozesse beginnen normalerweise mit gut organisierten und strukturierten Daten. Diese Struktur ermöglicht automatisiertere und systematischere Transformationsprozesse. Diese Transformationsprogramme werden von technisch orientierten Entwicklern mithilfe leistungsstarker Technologien wie Python und Scala erstellt. Eine stärkere Automatisierung ist zwar gut für die Effizienz, kann aber auch zu fehlerhaften Daten und Fehlern führen. Diese Automatisierungen sind außerdem schwierig zu erstellen und daher schwer zu ändern, was den ETL-Prozess viel weniger agil macht. Um die Daten gesund zu halten, ist es wichtig, es gleich beim ersten Mal richtig zu machen.
Der erste Schritt im ETL-Prozess besteht darin, Daten aus der Quelldatenbank zu extrahieren. Wenn die Quelldaten nicht sauber sind, können Fehler auftreten. Daher ist es wichtig, ein Datenprofil zu erstellen, um die Qualität der Daten zu verstehen. Wenn die Datenqualität von Anfang an nicht gut ist und durch fehlende Werte, Duplikate und Werte außerhalb des Bereichs beeinträchtigt wird, müssen Sie eine Datenbereinigung durchführen.
Der Transformationsprozess formatiert Daten neu, damit sie in Zieldatenbanken aufgenommen werden können. Dazu gehört die Normalisierung von Daten, damit die Formate zwischen der Quell- und der Zieldatenbank konsistent sind. Fehler können auftreten, wenn Daten falsch beschriftet sind oder Datenstrukturen nicht ausgerichtet sind, weshalb die Datenbereinigung ein wichtiger Teil des Transformationsprozesses ist. Routinen zum Identifizieren fehlerhafter Daten und zum Beheben von Fehlern können in das ETL-Programm integriert werden. Durch das Filtern von Daten werden unerwünschte Daten entfernt, wodurch die Komplexität verringert wird. Abschließend werden Validierungsprüfungen ausgeführt, um auf Inkonsistenzen zu prüfen oder Ausreißer zu identifizieren.
Der letzte Schritt des Prozesses ist das Laden der Daten in die Zieldatenbank. Wenn in dieser Phase Fehler auftreten, ist es wichtig, einen Versionierungsprozess zu haben, damit Sie zur Fehlerbehebung auf eine frühere Version Ihres Codes zurückgreifen können.
Wie ETL ist Data Wrangling ein Transformationsprozess, bei dem Datenfehler auftreten können. Data Wrangling ist der Prozess der Erstellung von Datenbeständen, die in einem definierten analytischen Anwendungsfall verwendet werden sollen. Die Anforderungen des analytischen Anwendungsfalls treiben die Transformationen voran. Diese Anforderung erfordert mehr Agilität und die Fähigkeit, unstrukturierte Daten zu integrieren.
Beim Data Wrangling ist ein eher manueller und dynamischer Prozess erforderlich. Um sicherzustellen, dass die Analyse auf Daten höchster Qualität basiert, müssen die Teams die Daten entdecken, organisieren, bereinigen, anreichern und validieren.
Beim Data Wrangling besteht der erste Schritt zur Qualitätsanalyse darin, den Zustand und die Anwendbarkeit der zugrunde liegenden Datensätze zu verstehen. Dies bedeutet, zu verstehen, was verfügbar ist, was den Anforderungen entspricht, und die Qualität der Datensätze zu bewerten. Datenqualitätsmetriken wie Verteilungstests und Validitätsbereichstests liefern Einblicke in den Datenzustand. Das Verständnis bestehender Probleme, der Größe des Datensatzes und der Datenformate sind Faktoren, die berücksichtigt werden müssen, bevor Daten zur Unterstützung der Analyse verwendet werden. Im Gegensatz zu ETL-Prozessen ist Data Wrangling nicht durch vorgefertigte Automatisierungen eingeschränkt. Dieser Unterschied bedeutet, dass Analysten die Flexibilität haben, nach den besten Datensätzen zu suchen und weniger bereinigte Daten zu vermeiden. Robuste Datenkataloge, die zugänglich sind und diese Daten pflegen und verfolgen, sind bei der Messung des Datenzustands von Vorteil.
Ein weiterer wichtiger Prozess ist die Organisation von Datensätzen, die in Analysen verwendet werden sollen. Bei der Arbeit mit unstrukturierten Daten wird dieser Prozess wesentlich schwieriger. Unstrukturierte Daten müssen in Zeilen und Spalten organisiert werden, damit sie analysiert werden können. Tagging-Techniken können verwendet werden, um diese Daten strukturierter zu gestalten und mehr Informationen über unstrukturierte Dokumente bereitzustellen, damit diese effizienter organisiert werden können. Dieser Prozess entwickelt sich zu einem praktikablen Anwendungsfall für GenAI. Diese Technologien können Dokumente analysieren, um ihre Bedeutung zu verstehen und sie entsprechend zu markieren. Eine gesunde Datenbeschriftung verringert die Wahrscheinlichkeit, dass GenAI Fehler macht.
Genau wie beim ELT sind Datenbereinigungsprozesse beim Data Wrangling unverzichtbar. Bereinigungsstrategien können Ausreißer identifizieren und Daten für die Analyse vorbereiten, indem sie Rauschen in den Daten beseitigen und sicherstellen, dass die Datensätze relevant sind. Die Korrektur der Rechtschreibung und die Standardisierung von Abkürzungen ist bei der Arbeit mit unstrukturiertem Text viel komplexer. KI kann genutzt werden, um diese Probleme zu beheben.
Der Datennormalisierungsprozess beim Data Wrangling unterscheidet sich geringfügig von ETL, da die Standards vom Geschäftsanwendungsfall und nicht von starren Datenbankstrukturen und -schemata bestimmt werden. Robuste Metadatenverwaltungs-Engines können diesen Prozess verbessern. Mit integriertem GenAI und Geschäftsglossaren können Geschäftsbenutzer Daten basierend auf Geschäftsdefinitionen und -berechnungen normalisieren und kombinieren.
Datenanreicherung ist eine weitere Technik, bei der Datensätze oder vorgefertigte Datenprodukte kombiniert werden, um einen größeren Kontext für eine tiefere und sauberere Analyse bereitzustellen. Das Auffüllen fehlender Daten mit synthetischen Daten ist eine weitere Strategie zur Verbesserung der Qualität von Datensätzen.
Wie ETL-Prozesse sind Datenvalidierungstests von entscheidender Bedeutung, um die Datensauberkeit nach der Ausführung von Datenbereinigungsprozessen sicherzustellen.
Mit den richtigen Tools und Prozessen zum Erstellen von Datentransformationen können Sie Best Practices einhalten und das Fehlerpotenzial bei Ihren Datentransformationen verringern. Wie DevOps-Tools im Softwarebereich unterstützen Data Build Tools Datentransformationsprozesse mit Entwicklungsworkbenches und Qualitätskontrollen. Zu den Funktionen gehören Versionskontrollen, Tests und Protokollierung.
Datentransformationen entwickeln sich ständig weiter. Um die Qualität sicherzustellen, müssen sie bei jeder Codeaktualisierung getestet werden. Das Erstellen oder Anpassen von Abfragen kann zu einer Vielzahl von Problemen führen, darunter fehlerhafte Datenverknüpfungen, die weiter unten in der Pipeline zu Fehlern führen. Ein Prozess zum Erstellen von Transformationen ist der Schlüssel zur Fehlervermeidung.
Tools wie dbt (Data Build Tool) ermöglichen gesunde Transformations-Workflows. Das Tool ermöglicht Analysten:
Nach all der Arbeit, die Sie in die Datenbereinigung gesteckt haben, ist es nur sinnvoll, die Wahrscheinlichkeit der Einführung fehlerhafter Daten mithilfe effektiver Tools und Arbeitsabläufe zu verringern.
Durch die Integration dieser Tools in Ihren Datenstapel werden ihre Verwendung und Ihr Datentransformationsprozess vereinfacht. Vorlagen und vorab getestete Transformationen können einfach abgerufen und implementiert werden. Diese Funktion reduziert nicht nur potenzielle Fehler, sondern verringert auch den Aufwand zur Erstellung von Datenprodukten und -prozessen.
Durch die Kombination von Tools, Workflows und Daten entsteht ein Rahmen zur Unterstützung gesunder Daten. Über einen DPT-Adapter können Benutzer der Data-to-AI-Plattform Avrio komplexe SQL-Transformationen schreiben und testen, die die föderierte Abfrage-Engine von Avrio nutzen und so Ihre Datenqualitätsanforderungen unterstützen.
Um Vertrauen in Daten aufzubauen, ist es äußerst wichtig zu wissen, wie man Daten bereinigt und während ihres gesamten Weges von der Erfassung bis zur Analyse sauber hält. Die zunehmenden Fähigkeiten von GenAI, unstrukturierte Daten für die Analyse vorzubereiten, schaffen neue Möglichkeiten für tiefere Erkenntnisse, aber neue Komplexitäten könnten zu unsauberen Daten führen. Eine komplexe Datengesundheitsstrategie für strukturierte und unstrukturierte Daten vom Quellsystem bis zur Analyse trägt dazu bei, dass den Entscheidungsträgern saubere und relevante Daten zur Verfügung gestellt werden.