Direkt zum Inhalt

Data Mining

Definition

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.

GEPRÜFTES WISSEN
Über 200 Experten aus Wissenschaft und Praxis.
Mehr als 25.000 Stichwörter kostenlos Online.
Das Original: Gabler Wirtschaftslexikon

zuletzt besuchte Definitionen...

    Ausführliche Definition

    Inhaltsverzeichnis

    1. Begriff und Motivation
    2. Zielsetzung und Einordnung
    3. Komponenten
    4. Anwendungsbereiche
    5. Probleme und Ausblick

    Begriff und Motivation

    Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden. Bspw. kann so ermittelt werden, welche Produkte häufig zusammen gekauft werden (typische Warenkörbe) oder welche Faktoren ausschlaggebend sind für die Kundentreue. Motiviert werden die Anstrengungen zum Einsatz des Data Mining durch die offenkundige Lücke zwischen den in einem Unternehmen gesammelten und verfügbaren Datenmengen, wie sie durch ERP-Systeme und moderne integrierte Unternehmensdatenbanken möglich werden, und der Schwerfälligkeit dieses Potenzial für taktische und strategische Unternehmensentscheidungen und den Managementprozess zu nutzen. „We are drowning in data but starving for knowledge” ist eine, dieses Phänomen plastisch skizzierende Aussage. Man benötigt also effiziente Analyseinstrumente, die aus den Datenmengen die interessanten und wichtigen Aussagen „herausschürfen”, um so Wissen zu generieren, das über die im Controlling üblichen Kennzahlen als Aggregate großer Datenmengen hinausgeht.

    Zielsetzung und Einordnung

    Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind, d.h. seine Entscheidungen verbessern helfen. Zu lösen ist hierbei das nichttriviale Problem der Operationalisierung der Interessantheit und der Nützlichkeit von Aussagen. Die Verwendung der statistischen Signifikanz reicht hierzu sicher nicht aus.

    Beim Data Mining kommen integrierte Methoden und Verfahren der Künstlichen Intelligenz und der Statistik sowie Modelle des Anwendungsbereiches zum Einsatz. Im Gegensatz zu den klassischen Ansätzen aus diesen Bereichen erstreckt sich das Data Mining nicht nur auf die Prüfung manuell aufgestellter Hypothesen, sondern auf die Generierung neuer Hypothesen. Das Data Minig ist in einem umfassenden Prozess, dem sogenannten Knowledge Discovery in Databases (KDD), eingeordnet.

    Komponenten

    Data Mining-Verfahren umfassen die folgenden Komponenten:

    Datenzugriff: Ein Data Mining-Verfahren muss auf die Unternehmensdaten zugreifen können. Dies geschieht im Idealfall über die ODBC-Schnittstelle. Voraus geht üblicherweise eine Konzentration auf einen bestimmten Analysebereich (z.B. Kundensegmentierung), dessen ihn charakterisierenden Daten in einer eigens angelegten Datenbank (Data Warehouse) bzw. in einer Datentabelle zusammengefasst sind.

    Modelltyp: Der Modelltyp bestimmt einerseits die Art der generierbaren Hypothesen und andererseits die Größe des Lösungsraumes für Data Mining-Verfahren. Im Data Mining werden oft einfache Regelmodelle in Form von Wenn-dann-Aussagen verwendet. Entscheidungsbäume sind eine häufig eingesetzte Darstellungsform spezieller Regelmengen. Komplexere Verfahren basieren auf der Prädikatenlogik oder nutzen spezielle neuronale Netze wie Kohonennetze.

    – Interessantheitsmaß: Beim Data Mining ergibt sich das Problem der Bewertung der gefundenen Muster hinsichtlich ihrer Interessantheit für eine konkrete Anwendung. Man behilft sich bei diesem Messproblem durch die Separation der Interessantheitsmessung in mehrere, möglichst unabhängige Messgrößen. Hierzu zählt z.B. die Auffälligkeit: Je stärker eine Aussage von anderen (durchschnittlichen) Aussagen abweicht, desto interessanter ist sie. Außerdem ist eine Aussage umso interessanter, je allgemeingültiger sie ist. Des Weiteren hängt der Wert einer Aussage von der Zielsetzung des Entscheidungsträgers ab. Die Aussagen müssen mit einer gewissen Wahrscheinlichkeit gelten, also valide sein. Die Art der Präsentation beeinflusst die Interpretierbarkeit und damit die Verständlichkeit der Muster. Die potenzielle Nutzbarkeit einer Aussage wird schließlich durch die Operationalität ausgedrückt.

    – Suchverfahren: Die Aufgabe des Suchverfahrens liegt darin, den Lösungsraum nach dem interessantesten Modell (d.h. nach der interessantesten Menge von Aussagen) zu durchsuchen. Je komplexer die Modelle des gewählten Modelltyps werden können, desto größer ist der Lösungsraum für das Data Mining. Ein solcher Lösungsraum kann i.d.R. nicht durch exakte Verfahren durchsucht werden, sodass ein heuristisches Suchverfahren gewählt werden muss.

    Anwendungsbereiche

    Das Data Mining bietet eine Reihe von Anwendungspotenzialen für Beschreibungs-, Erklärungs- und Prognosemodelle. Bspw. sind die Identifikation von Käuferprofilen (z.B. für das Cross Selling) oder die Marktsegmentierung Anwendungsbeispiele für Beschreibungsmodelle. Assoziationsaussagen wie die Warenkorbanalyse und Charakterisierungsaussagen wie die Bestimmung von Erfolgsdeterminanten eines Web-Auftritts gehören zur Gruppe der Erklärungsmodelle. Zu den Prognosemodellen zählen unmittelbare Prognoseaufgaben wie bspw. die Prognose von Vertragslaufzeiten von Versicherungen oder die Prognose von Devisenkursen zur Finanzplanung als auch Klassifikationsaufgaben wie bspw. die Diagnose von Fehlern oder Krankheiten und die (klassifikatorische) Beurteilung von Mitarbeitern oder die Einordnung eines Versicherungsnehmers in eine bestimmte Tarifklasse.

    Probleme und Ausblick

    Aus der Zielsetzung des Data Mining ergeben sich häufig extrem große Lösungsräume, die zusammen mit den komplexen Algorithmen zu langen Laufzeiten führen. Aus der Betrachtung der zurzeit verfügbaren Data Mining-Tools ergibt sich das Problem, dass die Komponenten des Datenzugriffs und der Interessantheitsbewertung nur rudimentär in diese Tools implementiert wurden. Die Operationalisierung des Interessantheitsaspektes und seine Messung, die ja den Extraktionsprozess steuern, sind ebenfalls häufig Gegenstand kontroverser Diskussionen. Des weiteren ist die (Ideal-)Forderung nach autonomer Extraktion von Mustern aus Datenbeständen ohne Kenntnisse des Umfelds, der potenziellen Zusammenhänge und der Verwendung der gewonnenen Aussagen nur schwer erfüllbar. In der Datenbasis selbst sind in praktischen Fällen recht häufig Defekte wie fehlende oder falsche Daten zu finden, die die Ergebnisse des Data Mining negativ beeinflussen könnten, sodass vorbereitende Datenbereinigungsmaßnahmen notwendig werden.

    Kommende Data Mining-Tools werden die angesprochenen Probleme reduzieren. Es wird Weiterentwicklungen in allen vier oben genannten Komponenten geben. Interessant sind auch Versuche, das Data Mining von strukturierten auf weniger strukturierte Datenbestände, wie z.B. Texte, Bilder oder HTML-Dokumente zu übertragen.

    zuletzt besuchte Definitionen...

      Mindmap Data Mining Quelle: https://wirtschaftslexikon.gabler.de/definition/data-mining-28709 node28709 Data Mining node32375 ERP node28709->node32375 node47196 Wissen node28709->node47196 node54378 Patentanalyse node28709->node54378 node33607 ERP-Sondervermögen node32375->node33607 node46850 OEEC node32375->node46850 node51587 Enterprise-Resource-Planning-System node32375->node51587 node42833 Patent node35399 Geschäftsprozess node53196 Geschäftsprozessmanagement node54500 Process Mining node54500->node28709 node54500->node35399 node54500->node53196 node30809 Customer Relationship Management ... node30809->node28709 node54242 IT-Marketing node54235 Marketing 4.0 node54237 Marketing Automation node54237->node28709 node54237->node30809 node54237->node54242 node54237->node54235 node54378->node42833 node54378->node47196 node35668 Due Diligence node54378->node35668 node53871 Geistiges Eigentum node53871->node47196 node54555 Roboterphilosophie node54555->node47196
      Mindmap Data Mining Quelle: https://wirtschaftslexikon.gabler.de/definition/data-mining-28709 node28709 Data Mining node47196 Wissen node28709->node47196 node32375 ERP node28709->node32375 node54237 Marketing Automation node54237->node28709 node54500 Process Mining node54500->node28709 node54378 Patentanalyse node54378->node28709

      News SpringerProfessional.de

      • "Das Silicon Valley ist nicht über Nacht entstanden"

        Wenn es ein Digitalisierungs-Mekka gibt, in das deutsche Manager pilgern, ist es das Silicon Valley. Was Unternehmen von den US-Vorreitern lernen und ob sie die 180-Grad-Wende schaffen können, beantworten Sven Grote und Rüdiger Goyk im Gespräch.

      • Utility 4.0 – mehr als eine Worthülse?

        Vierpunktnull auf Teufel komm raus. Kein Themengebiet scheint heute ohne das Zahlenkürzel '4.0' auszukommen. Mit Utility 4.0 ist dieses Phänomen nun auch im Energiesektor angekommen. Zu Recht?

      • Das blaue Jobwunder der Digitalisierung

        Immer mehr Studien prognostizieren, dass die digitale Transformation insgesamt keine Arbeitsplätze kostet. Denn es entstehen auch jede Menge neue Jobs. Die erfordern jedoch andere Kompetenzen.

      • Starke Teams lassen Risiken zu

        "Werde eins mit deinem Projekt", proklamierte vor Jahren eine Baumarktkette. Ein kerniger Slogan, der seine Parallele in einer Google-Studie findet: Teammitglieder die risikobereit in ihrer Aufgabe aufgehen, arbeiten effektiver.

      • "Freibeträge in Abfindungsregelungen wieder einführen"

        Seit 1. Januar gilt die Institutsvergütungsverordnung (IVV). Mit ihr wurden in erster Linie die Anforderungen der Leitlinien der Europäischen Bankenaufsichtsbehörde EBA für eine solide Vergütungspolitik in deutsches Recht umgesetzt. Wie sich das auf die Personal- und Abfindungsstrategien bei den Banken auswirkt, erklärt Jurist Christoph Abeln im Interview.

      • So teuer wird der Fachkräftemangel

        Dass der Fachkräftemangel die deutsche Wirtschaft bremst, ist nicht neu. Allerdings war bislang nicht klar, wie sehr fehlendes Personal zu Buche schlägt. Einer Studie zufolge drohen bis zum Jahr 2030 wirtschaftliche Schäden in Milliardenhöhe. 

      • KMU zögern bei tiefgreifender Digitalisierung

        Der digitale Wandel wirkt sich auf die gesamte Wertschöpfungskette aus. Viele kleine und mittelständische Unternehmen haben das nicht vollends erkannt, weshalb sie sich auf die Optimierung einzelner interner Prozesse versteifen.

      Autoren der Definition und Ihre Literaturhinweise/ Weblinks

      Prof. Dr. Richard Lackes
      Technische Universität Dortmund,
      LS für Wirtschaftsinformatik
      Universitätsprofessor

      Literaturhinweise SpringerProfessional.de

      Springer Professional - Die Flatrate für Fachzeitschriften und Bücher
      This chapter describes the importance and benefits of data mining and gives a detailed overview of the underlying process. The data mining procedure breaks down into five subsections: defining the business objectives, getting the raw data …
      Educational Data Mining is an emerging field in the data mining domain. In this competitive world scenario, the quality of education needs to improve. Unfortunately most of the students’ data are becoming data tombs for not analyzing the hidden …
      Most people have become “big data” producers in their daily life. Our desires, opinions, sentiments, social links as well as our mobile phone calls and GPS track leave traces of our behaviours. To transform these data into knowledge, value is a …

      Sachgebiete