Direkt zum Inhalt

Data Mining

Definition

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.

GEPRÜFTES WISSEN
Über 200 Experten aus Wissenschaft und Praxis.
Mehr als 25.000 Stichwörter kostenlos Online.
Das Original: Gabler Wirtschaftslexikon

zuletzt besuchte Definitionen...

    Ausführliche Definition

    Inhaltsverzeichnis

    1. Begriff und Motivation
    2. Zielsetzung und Einordnung
    3. Komponenten
    4. Anwendungsbereiche
    5. Probleme und Ausblick

    Begriff und Motivation

    Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden. Bspw. kann so ermittelt werden, welche Produkte häufig zusammen gekauft werden (typische Warenkörbe) oder welche Faktoren ausschlaggebend sind für die Kundentreue. Motiviert werden die Anstrengungen zum Einsatz des Data Mining durch die offenkundige Lücke zwischen den in einem Unternehmen gesammelten und verfügbaren Datenmengen, wie sie durch ERP-Systeme und moderne integrierte Unternehmensdatenbanken möglich werden, und der Schwerfälligkeit dieses Potenzial für taktische und strategische Unternehmensentscheidungen und den Managementprozess zu nutzen. „We are drowning in data but starving for knowledge” ist eine, dieses Phänomen plastisch skizzierende Aussage. Man benötigt also effiziente Analyseinstrumente, die aus den Datenmengen die interessanten und wichtigen Aussagen „herausschürfen”, um so Wissen zu generieren, das über die im Controlling üblichen Kennzahlen als Aggregate großer Datenmengen hinausgeht.

    Zielsetzung und Einordnung

    Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind, d.h. seine Entscheidungen verbessern helfen. Zu lösen ist hierbei das nichttriviale Problem der Operationalisierung der Interessantheit und der Nützlichkeit von Aussagen. Die Verwendung der statistischen Signifikanz reicht hierzu sicher nicht aus.

    Beim Data Mining kommen integrierte Methoden und Verfahren der Künstlichen Intelligenz und der Statistik sowie Modelle des Anwendungsbereiches zum Einsatz. Im Gegensatz zu den klassischen Ansätzen aus diesen Bereichen erstreckt sich das Data Mining nicht nur auf die Prüfung manuell aufgestellter Hypothesen, sondern auf die Generierung neuer Hypothesen. Das Data Minig ist in einem umfassenden Prozess, dem sogenannten Knowledge Discovery in Databases (KDD), eingeordnet.

    Komponenten

    Data Mining-Verfahren umfassen die folgenden Komponenten:

    Datenzugriff: Ein Data Mining-Verfahren muss auf die Unternehmensdaten zugreifen können. Dies geschieht im Idealfall über die ODBC-Schnittstelle. Voraus geht üblicherweise eine Konzentration auf einen bestimmten Analysebereich (z.B. Kundensegmentierung), dessen ihn charakterisierenden Daten in einer eigens angelegten Datenbank (Data Warehouse) bzw. in einer Datentabelle zusammengefasst sind.

    Modelltyp: Der Modelltyp bestimmt einerseits die Art der generierbaren Hypothesen und andererseits die Größe des Lösungsraumes für Data Mining-Verfahren. Im Data Mining werden oft einfache Regelmodelle in Form von Wenn-dann-Aussagen verwendet. Entscheidungsbäume sind eine häufig eingesetzte Darstellungsform spezieller Regelmengen. Komplexere Verfahren basieren auf der Prädikatenlogik oder nutzen spezielle neuronale Netze wie Kohonennetze.

    – Interessantheitsmaß: Beim Data Mining ergibt sich das Problem der Bewertung der gefundenen Muster hinsichtlich ihrer Interessantheit für eine konkrete Anwendung. Man behilft sich bei diesem Messproblem durch die Separation der Interessantheitsmessung in mehrere, möglichst unabhängige Messgrößen. Hierzu zählt z.B. die Auffälligkeit: Je stärker eine Aussage von anderen (durchschnittlichen) Aussagen abweicht, desto interessanter ist sie. Außerdem ist eine Aussage umso interessanter, je allgemeingültiger sie ist. Des Weiteren hängt der Wert einer Aussage von der Zielsetzung des Entscheidungsträgers ab. Die Aussagen müssen mit einer gewissen Wahrscheinlichkeit gelten, also valide sein. Die Art der Präsentation beeinflusst die Interpretierbarkeit und damit die Verständlichkeit der Muster. Die potenzielle Nutzbarkeit einer Aussage wird schließlich durch die Operationalität ausgedrückt.

    – Suchverfahren: Die Aufgabe des Suchverfahrens liegt darin, den Lösungsraum nach dem interessantesten Modell (d.h. nach der interessantesten Menge von Aussagen) zu durchsuchen. Je komplexer die Modelle des gewählten Modelltyps werden können, desto größer ist der Lösungsraum für das Data Mining. Ein solcher Lösungsraum kann i.d.R. nicht durch exakte Verfahren durchsucht werden, sodass ein heuristisches Suchverfahren gewählt werden muss.

    Anwendungsbereiche

    Das Data Mining bietet eine Reihe von Anwendungspotenzialen für Beschreibungs-, Erklärungs- und Prognosemodelle. Bspw. sind die Identifikation von Käuferprofilen (z.B. für das Cross Selling) oder die Marktsegmentierung Anwendungsbeispiele für Beschreibungsmodelle. Assoziationsaussagen wie die Warenkorbanalyse und Charakterisierungsaussagen wie die Bestimmung von Erfolgsdeterminanten eines Web-Auftritts gehören zur Gruppe der Erklärungsmodelle. Zu den Prognosemodellen zählen unmittelbare Prognoseaufgaben wie bspw. die Prognose von Vertragslaufzeiten von Versicherungen oder die Prognose von Devisenkursen zur Finanzplanung als auch Klassifikationsaufgaben wie bspw. die Diagnose von Fehlern oder Krankheiten und die (klassifikatorische) Beurteilung von Mitarbeitern oder die Einordnung eines Versicherungsnehmers in eine bestimmte Tarifklasse.

    Probleme und Ausblick

    Aus der Zielsetzung des Data Mining ergeben sich häufig extrem große Lösungsräume, die zusammen mit den komplexen Algorithmen zu langen Laufzeiten führen. Aus der Betrachtung der zurzeit verfügbaren Data Mining-Tools ergibt sich das Problem, dass die Komponenten des Datenzugriffs und der Interessantheitsbewertung nur rudimentär in diese Tools implementiert wurden. Die Operationalisierung des Interessantheitsaspektes und seine Messung, die ja den Extraktionsprozess steuern, sind ebenfalls häufig Gegenstand kontroverser Diskussionen. Des weiteren ist die (Ideal-)Forderung nach autonomer Extraktion von Mustern aus Datenbeständen ohne Kenntnisse des Umfelds, der potenziellen Zusammenhänge und der Verwendung der gewonnenen Aussagen nur schwer erfüllbar. In der Datenbasis selbst sind in praktischen Fällen recht häufig Defekte wie fehlende oder falsche Daten zu finden, die die Ergebnisse des Data Mining negativ beeinflussen könnten, sodass vorbereitende Datenbereinigungsmaßnahmen notwendig werden.

    Kommende Data Mining-Tools werden die angesprochenen Probleme reduzieren. Es wird Weiterentwicklungen in allen vier oben genannten Komponenten geben. Interessant sind auch Versuche, das Data Mining von strukturierten auf weniger strukturierte Datenbestände, wie z.B. Texte, Bilder oder HTML-Dokumente zu übertragen.

    Mindmap Data Mining Quelle: https://wirtschaftslexikon.gabler.de/definition/data-mining-28709 node28709 Data Mining node47196 Wissen node28709->node47196 node29491 Cross Selling node28709->node29491 node40268 Marktsegmentierung node28709->node40268 node54195 Digitalisierung node54101 Big Data node54195->node54101 node52604 Personalentwicklung node52604->node47196 node52581 Up Selling node54452 Kundenlebenszyklus node54452->node29491 node46276 Rabatt node29491->node52581 node29491->node46276 node54080 Wirtschaft node54080->node47196 node54032 Industrie 4.0 node54101->node28709 node54101->node54080 node54101->node54032 node52673 Soziale Medien node54101->node52673 node39435 Marketing node40268->node39435 node40069 Kundenbindung node49361 Supply Chain Management ... node30809 Customer Relationship Management ... node30809->node28709 node30809->node40069 node30809->node52673 node30809->node49361 node48977 Zielgruppe node48977->node40268 node46882 Preisdifferenzierung node46882->node40268 node39843 Marktforschung node39843->node40268 node53876 Sharing Economy node53876->node47196
    Mindmap Data Mining Quelle: https://wirtschaftslexikon.gabler.de/definition/data-mining-28709 node28709 Data Mining node40268 Marktsegmentierung node28709->node40268 node29491 Cross Selling node28709->node29491 node47196 Wissen node28709->node47196 node30809 Customer Relationship Management ... node30809->node28709 node54101 Big Data node54101->node28709

    News SpringerProfessional.de

    Literaturhinweise SpringerProfessional.de

    Bücher auf springer.com

    Sachgebiete