Zum Inhalt springen

Datenqualität

Datenqualität beschreibt die Eignung von Daten für den vorgesehenen Zweck. Sie ist entscheidend für fundierte Entscheidungen, effiziente Prozesse und die Zufriedenheit der Kunden.

Die Datenqualität lässt sich anhand verschiedener Merkmale bewerten. Diese umfassen unter anderem Aktualität, Eindeutigkeit, Einheitlichkeit, Genauigkeit, Konformität, Konsistenz, Korrektheit, Redundanzfreiheit, Relevanz, Verständlichkeit, Vollständigkeit, Zuverlässigkeit, Historisierung und Widerspruchsfreiheit. Nachfolgende Tabelle fasst die Merkmale zusammen, für die detaillierte Beschreibungen und Messmethoden vorliegen.

MerkmalBeschreibungMessung
AktualitätDie Daten sind aktuell und relevant. Veraltete Daten können die Entscheidungsfindung negativ beeinflussen.Anteil der Daten, die innerhalb eines bestimmten Zeitrahmens aktualisiert wurden.
KorrektheitDie Daten sind genau und fehlerfrei. Ungenaue Daten können zu falschen Schlussfolgerungen führen.Vergleich der Daten mit einer vertrauenswürdigen Quelle oder durch manuelle Überprüfung.
VollständigkeitAlle erforderlichen Daten sind vorhanden. Fehlende Daten können die Analyse und Entscheidungsfindung beeinträchtigen.Anteil der vollständigen Datensätze im Vergleich zur Gesamtzahl der Datensätze.
HistorisierungÄnderungen an den Daten sind nachvollziehbar. Dies ist wichtig für die Rückverfolgbarkeit und Analyse von Trends.Überprüfung, ob historische Daten gespeichert und zugänglich sind.
WiderspruchsfreiheitDie Daten sind konsistent und frei von Konflikten. Inkonsistenzen können zu Verwirrung und Fehlentscheidungen führen.Analyse von Datensätzen auf Inkonsistenzen.

Eine gängige Methode zur Quantifizierung der Datenqualität ist die Kennzahl Defect per Million Opportunities (DPMO). Sie misst die Anzahl der Fehler pro Million Möglichkeiten.

Die Berechnung erfolgt wie folgt:

DPMO=(Anzahl der FehlerAnzahl der Datensa¨tze×Anzahl der Merkmale pro Datensatz)×1.000.000DPMO = \left( \frac{\text{Anzahl der Fehler}}{\text{Anzahl der Datensätze} \times \text{Anzahl der Merkmale pro Datensatz}} \right) \times 1.000.000

Der Prozess zur Sicherstellung der Datenqualität umfasst mehrere Schritte:

  1. Sicherung der originalen Datenquelle: Durch eine Sicherungskopie der Papierliste wird gewährleistet, dass die originalen Daten unverändert und unmittelbar digital abgespeichert werden. Dies entspricht einem Backup.
  2. Definition und Anwendung der Anforderungen: Die bereits beschriebenen Anforderungen an die Daten werden angewandt. Wären die Anforderungen zuvor noch nicht festgelegt, müsste dies noch zusätzlich erfolgen.
  3. Analyse der Daten: Die Daten werden mithilfe der Anforderungen analysiert und bewertet. Dies beinhaltet eine Datenanalyse.
  4. Standardisierung der Daten: Alle erhobenen Daten werden durch Standardisierungsmaßnahmen vereinheitlicht, beispielsweise wird das Datum einheitlich in das Format TT.MM.JJ gebracht.
  5. Bereinigung der Daten: Unnötige Daten werden entfernt und ein (künstlicher) Primärschlüssel wird hinzugefügt.

AI Chat. (2024, September 20). Retrieved from https://duckduckgo.com/?q=DuckDuckGo+AI+Chat&ia=chat&duckai=1