Knowledge Discovery in Databases (KDD)
Übersicht
zuletzt besuchte Definitionen...
Knowledge-Discovery-in-Databases (KDD)-Prozess; umfassender Datenanalyseprozess, in dessen Kern Verfahren des Data Mining zur Anwendung kommen. Der-Knowledge-Discovery-in-Databases (KDD)-Prozess umfasst folgende Phasen:
(1) Problemabgrenzung: Zunächst muss sich der Analytiker mit dem Anwendungsbereich vertraut machen und das Problem eingrenzen.
(2) Definition der Data-Mining-Aufgabe: Der Analytiker muss festlegen, welche Daten für das untersuchte Problem relevant sind, welche Arten von Aussagen (Modelltypen) das Data Mining liefern soll und wie die Interessantheit dieser Aussagen bewertet werden soll.
(3) Datenvorverarbeitung: Die zuvor für problemrelevant befundene Datenbasis wird aus unterschiedlichen Datenbeständen (z.B. Scannerdaten unterschiedlicher Filialen) extrahiert und zu einem gemeinsamen Datenbestand zusammengeführt. Fehlende, widersprüchliche und als falsch identifizierte Daten werden aus den Datenbeständen entfernt.
(4) Codierung: Viele Verfahren benötigen die Daten in einer bestimmten Form; neuronale Netze z.B. häufig in einer dichotomen (0,1 oder -1,1) oder stetigen Form (nur Werte der Intervalle (0,1) oder (–1,1)), sodass die Daten u.U. codiert werden müssen.
(5) Data Mining.
(6) Modellvalidierung: Das im Data Mining generierte Modell muss anhand von neuen Daten, die nicht für die Modellgenerierung herangezogen wurden, überprüft werden.
(7) Decodierung: Eine Decodierung der Ergebnisse aus der Data-Mining-Phase ist dann erforderlich, wenn in Phase 4 eine Codierung erfolgte.
(8) Filterung: Die extrahierten Aussagen werden nach verschiedenen Kriterien geordnet, selektiert und verdichtet.
(9) Präsentation der Ergebnisse: Die letztendlich für interessant befundenen Aussagen werden präsentiert.