Direkt zum Inhalt

Data Mining

Definition: Was ist "Data Mining"?

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.

Geprüftes Wissen

GEPRÜFTES WISSEN
Über 200 Experten aus Wissenschaft und Praxis.
Mehr als 25.000 Stichwörter kostenlos Online.
Das Original: Gabler Wirtschaftslexikon

zuletzt besuchte Definitionen...

    Ausführliche Definition im Online-Lexikon

    Inhaltsverzeichnis

    1. Begriff und Motivation
    2. Zielsetzung und Einordnung
    3. Komponenten
    4. Anwendungsbereiche
    5. Probleme und Ausblick

    Begriff und Motivation

    Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden. Beispielsweise kann so ermittelt werden, welche Produkte häufig zusammen gekauft werden (typische Warenkörbe) oder welche Faktoren ausschlaggebend sind für die Kundentreue. Motiviert werden die Anstrengungen zum Einsatz des Data Mining durch die offenkundige Lücke zwischen den in einem Unternehmen gesammelten und verfügbaren Datenmengen, wie sie durch ERP-Systeme und moderne integrierte Unternehmensdatenbanken möglich werden, und der Schwerfälligkeit dieses Potenzial für taktische und strategische Unternehmensentscheidungen und den Managementprozess zu nutzen. „We are drowning in data but starving for knowledge” ist eine, dieses Phänomen plastisch skizzierende Aussage. Man benötigt also effiziente Analyseinstrumente, die aus den Datenmengen die interessanten und wichtigen Aussagen „herausschürfen”, um so Wissen zu generieren, das über die im Controlling üblichen Kennzahlen als Aggregate großer Datenmengen hinausgeht.

    Zielsetzung und Einordnung

    Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind, d.h. seine Entscheidungen verbessern helfen. Zu lösen ist hierbei das nichttriviale Problem der Operationalisierung der Interessantheit und der Nützlichkeit von Aussagen. Die Verwendung der statistischen Signifikanz reicht hierzu sicher nicht aus.

    Beim Data Mining kommen integrierte Methoden und Verfahren der Künstlichen Intelligenz und der Statistik sowie Modelle des Anwendungsbereiches zum Einsatz. Im Gegensatz zu den klassischen Ansätzen aus diesen Bereichen erstreckt sich das Data Mining nicht nur auf die Prüfung manuell aufgestellter Hypothesen, sondern auf die Generierung neuer Hypothesen. Das Data Minig ist in einem umfassenden Prozess, dem sogenannten Knowledge Discovery in Databases, eingeordnet.

    Komponenten

    Data Mining-Verfahren umfassen die folgenden Komponenten:

    Datenzugriff: Ein Data Mining-Verfahren muss auf die Unternehmensdaten zugreifen können. Dies geschieht im Idealfall über die ODBC-Schnittstelle. Voraus geht üblicherweise eine Konzentration auf einen bestimmten Analysebereich (z.B. Kundensegmentierung), dessen ihn charakterisierenden Daten in einer eigens angelegten Datenbank (Data Warehouse) bzw. in einer Datentabelle zusammengefasst sind.

    Modelltyp: Der Modelltyp bestimmt einerseits die Art der generierbaren Hypothesen und andererseits die Größe des Lösungsraumes für Data Mining-Verfahren. Im Data Mining werden oft einfache Regelmodelle in Form von Wenn-dann-Aussagen verwendet. Entscheidungsbäume sind eine häufig eingesetzte Darstellungsform spezieller Regelmengen. Komplexere Verfahren basieren auf der Prädikatenlogik oder nutzen spezielle neuronale Netze wie Kohonennetze.

    – Interessantheitsmaß: Beim Data Mining ergibt sich das Problem der Bewertung der gefundenen Muster hinsichtlich ihrer Interessantheit für eine konkrete Anwendung. Man behilft sich bei diesem Messproblem durch die Separation der Interessantheitsmessung in mehrere, möglichst unabhängige Messgrößen. Hierzu zählt z.B. die Auffälligkeit: Je stärker eine Aussage von anderen (durchschnittlichen) Aussagen abweicht, desto interessanter ist sie. Außerdem ist eine Aussage umso interessanter, je allgemeingültiger sie ist. Des Weiteren hängt der Wert einer Aussage von der Zielsetzung des Entscheidungsträgers ab. Die Aussagen müssen mit einer gewissen Wahrscheinlichkeit gelten, also valide sein. Die Art der Präsentation beeinflusst die Interpretierbarkeit und damit die Verständlichkeit der Muster. Die potenzielle Nutzbarkeit einer Aussage wird schließlich durch die Operationalität ausgedrückt.

    – Suchverfahren: Die Aufgabe des Suchverfahrens liegt darin, den Lösungsraum nach dem interessantesten Modell (d.h. nach der interessantesten Menge von Aussagen) zu durchsuchen. Je komplexer die Modelle des gewählten Modelltyps werden können, desto größer ist der Lösungsraum für das Data Mining. Ein solcher Lösungsraum kann i.d.R. nicht durch exakte Verfahren durchsucht werden, sodass ein heuristisches Suchverfahren gewählt werden muss.

    Anwendungsbereiche

    Das Data Mining bietet eine Reihe von Anwendungspotenzialen für Beschreibungs-, Erklärungs- und Prognosemodelle. Beispielsweise sind die Identifikation von Käuferprofilen (z.B. für das Cross Selling) oder die Marktsegmentierung Anwendungsbeispiele für Beschreibungsmodelle. Assoziationsaussagen wie die Warenkorbanalyse und Charakterisierungsaussagen wie die Bestimmung von Erfolgsdeterminanten eines Web-Auftritts gehören zur Gruppe der Erklärungsmodelle. Zu den Prognosemodellen zählen unmittelbare Prognoseaufgaben wie beispielsweise die Prognose von Vertragslaufzeiten von Versicherungen oder die Prognose von Devisenkursen zur Finanzplanung als auch Klassifikationsaufgaben wie beispielsweise die Diagnose von Fehlern oder Krankheiten und die (klassifikatorische) Beurteilung von Mitarbeitern oder die Einordnung eines Versicherungsnehmers in eine bestimmte Tarifklasse.

    Probleme und Ausblick

    Aus der Zielsetzung des Data Mining ergeben sich häufig extrem große Lösungsräume, die zusammen mit den komplexen Algorithmen zu langen Laufzeiten führen. Aus der Betrachtung der zurzeit verfügbaren Data Mining-Tools ergibt sich das Problem, dass die Komponenten des Datenzugriffs und der Interessantheitsbewertung nur rudimentär in diese Tools implementiert wurden. Die Operationalisierung des Interessantheitsaspektes und seine Messung, die ja den Extraktionsprozess steuern, sind ebenfalls häufig Gegenstand kontroverser Diskussionen. Des weiteren ist die (Ideal-)Forderung nach autonomer Extraktion von Mustern aus Datenbeständen ohne Kenntnisse des Umfelds, der potenziellen Zusammenhänge und der Verwendung der gewonnenen Aussagen nur schwer erfüllbar. In der Datenbasis selbst sind in praktischen Fällen recht häufig Defekte wie fehlende oder falsche Daten zu finden, die die Ergebnisse des Data Mining negativ beeinflussen könnten, sodass vorbereitende Datenbereinigungsmaßnahmen notwendig werden.

    Kommende Data Mining-Tools werden die angesprochenen Probleme reduzieren. Es wird Weiterentwicklungen in allen vier oben genannten Komponenten geben. Interessant sind auch Versuche, das Data Mining von strukturierten auf weniger strukturierte Datenbestände, wie z.B. Texte, Bilder oder HTML-Dokumente zu übertragen.

    GEPRÜFTES WISSEN
    Über 200 Experten aus Wissenschaft und Praxis.
    Mehr als 25.000 Stichwörter kostenlos Online.
    Das Original: Gabler Wirtschaftslexikon

    zuletzt besuchte Definitionen...

      Literaturhinweise SpringerProfessional.de

      Bücher auf springer.com