Software Blog
Über die goldene Regel des Data Mining niemals Rohdaten zu ändern
von Andreas Kuhn
Eine der goldenen Regeln des Data Miners lautet: "Ändere niemals Rohdaten!" Diese gilt auch dann, wenn es darum geht, dass man Fehler in den Daten kompensieren will. Die Gründe hierfür sind einfach:
- Wenn man bei der Daten-Manipulation bzw. der Kompensation von Fehlern selbst einen Fehler begeht, so kann dieser Fehler in der Regel nie wieder gefunden und korrigiert werden.
- Jede Form der Datenverarbeitung kann einen Verlust von Information beinhalten.
- Unterschiedliche Anwendungen benötigen mitunter unterschiedliche Ansätze zur Daten-Korrektur und Kompensation von Fehlern. Deshalb sollte man es dem jeweiligen Anwender überlassen die Daten entsprechend aufzubereiten.
- Die Datenfehler können eventuell selbst Gegenstand der Datenanalyse sein (z.B. bei der Entwicklung von Systemen zur Anomalie- und Störungserkennung). Derartige Analysen werden damit unmöglich gemacht bzw. deutlich erschwert.
Der Stipulator verfolgt deshalb die Philosophie, dass man in jeden Fall auf den existierenden Rohdaten aufsetzt und immer die gesamte Datenverarbeitungskette vollständigt abbildet. So kann man im Stipulator für jeden Einzelfall (vulgo Stipulator case) und Datensatz neben der generellen Datenverarbeitungskette auch individuelle Datenverarbeitungschritte definieren, welche die spezifische Manipulation und Kompensation der Datenfehler beinhaltet.
Damit bleibt die Aufbereitung der Daten jederzeit nachvollziehbar. Im Nachhinein gefundenen Fehler in den Daten können damit jederzeit korrigiert werden. Weiters lassen sich auch neuartige Methoden zur automatisierten Datenkompensation nachziehen.
Weitere Details und praktische Anleitungen finet man im User Manual des Stipulator oder erhält man auf Anfrage von support@andata.at.
Kommentare
Einen Kommentar schreiben