Data Mining

Definition: Was ist "Data Mining"?

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.

Autoren dieser Definition

GEPRÜFTES WISSEN
Über 200 Experten aus Wissenschaft und Praxis.
Mehr als 25.000 Stichwörter kostenlos Online.
Das Original: Gabler Wirtschaftslexikon

zuletzt besuchte Definitionen...

Ausführliche Definition im Online-Lexikon

Inhaltsverzeichnis

Begriff und Motivation
Zielsetzung und Einordnung
Komponenten
Anwendungsbereiche
Probleme und Ausblick

Begriff und Motivation

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden. Bspw. kann so ermittelt werden, welche Produkte häufig zusammen gekauft werden (typische Warenkörbe) oder welche Faktoren ausschlaggebend sind für die Kundentreue. Motiviert werden die Anstrengungen zum Einsatz des Data Mining durch die offenkundige Lücke zwischen den in einem Unternehmen gesammelten und verfügbaren Datenmengen, wie sie durch ERP-Systeme und moderne integrierte Unternehmensdatenbanken möglich werden, und der Schwerfälligkeit dieses Potenzial für taktische und strategische Unternehmensentscheidungen und den Managementprozess zu nutzen. „We are drowning in data but starving for knowledge” ist eine, dieses Phänomen plastisch skizzierende Aussage. Man benötigt also effiziente Analyseinstrumente, die aus den Datenmengen die interessanten und wichtigen Aussagen „herausschürfen”, um so Wissen zu generieren, das über die im Controlling üblichen Kennzahlen als Aggregate großer Datenmengen hinausgeht.

Zielsetzung und Einordnung

Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind, d.h. seine Entscheidungen verbessern helfen. Zu lösen ist hierbei das nichttriviale Problem der Operationalisierung der Interessantheit und der Nützlichkeit von Aussagen. Die Verwendung der statistischen Signifikanz reicht hierzu sicher nicht aus.

Beim Data Mining kommen integrierte Methoden und Verfahren der Künstlichen Intelligenz und der Statistik sowie Modelle des Anwendungsbereiches zum Einsatz. Im Gegensatz zu den klassischen Ansätzen aus diesen Bereichen erstreckt sich das Data Mining nicht nur auf die Prüfung manuell aufgestellter Hypothesen, sondern auf die Generierung neuer Hypothesen. Das Data Minig ist in einem umfassenden Prozess, dem sogenannten Knowledge Discovery in Databases (KDD), eingeordnet.

Komponenten

Data Mining-Verfahren umfassen die folgenden Komponenten:

– Datenzugriff: Ein Data Mining-Verfahren muss auf die Unternehmensdaten zugreifen können. Dies geschieht im Idealfall über die ODBC-Schnittstelle. Voraus geht üblicherweise eine Konzentration auf einen bestimmten Analysebereich (z.B. Kundensegmentierung), dessen ihn charakterisierenden Daten in einer eigens angelegten Datenbank (Data Warehouse) bzw. in einer Datentabelle zusammengefasst sind.

– Modelltyp: Der Modelltyp bestimmt einerseits die Art der generierbaren Hypothesen und andererseits die Größe des Lösungsraumes für Data Mining-Verfahren. Im Data Mining werden oft einfache Regelmodelle in Form von Wenn-dann-Aussagen verwendet. Entscheidungsbäume sind eine häufig eingesetzte Darstellungsform spezieller Regelmengen. Komplexere Verfahren basieren auf der Prädikatenlogik oder nutzen spezielle neuronale Netze wie Kohonennetze.

– Interessantheitsmaß: Beim Data Mining ergibt sich das Problem der Bewertung der gefundenen Muster hinsichtlich ihrer Interessantheit für eine konkrete Anwendung. Man behilft sich bei diesem Messproblem durch die Separation der Interessantheitsmessung in mehrere, möglichst unabhängige Messgrößen. Hierzu zählt z.B. die Auffälligkeit: Je stärker eine Aussage von anderen (durchschnittlichen) Aussagen abweicht, desto interessanter ist sie. Außerdem ist eine Aussage umso interessanter, je allgemeingültiger sie ist. Des Weiteren hängt der Wert einer Aussage von der Zielsetzung des Entscheidungsträgers ab. Die Aussagen müssen mit einer gewissen Wahrscheinlichkeit gelten, also valide sein. Die Art der Präsentation beeinflusst die Interpretierbarkeit und damit die Verständlichkeit der Muster. Die potenzielle Nutzbarkeit einer Aussage wird schließlich durch die Operationalität ausgedrückt.

– Suchverfahren: Die Aufgabe des Suchverfahrens liegt darin, den Lösungsraum nach dem interessantesten Modell (d.h. nach der interessantesten Menge von Aussagen) zu durchsuchen. Je komplexer die Modelle des gewählten Modelltyps werden können, desto größer ist der Lösungsraum für das Data Mining. Ein solcher Lösungsraum kann i.d.R. nicht durch exakte Verfahren durchsucht werden, sodass ein heuristisches Suchverfahren gewählt werden muss.

Anwendungsbereiche

Das Data Mining bietet eine Reihe von Anwendungspotenzialen für Beschreibungs-, Erklärungs- und Prognosemodelle. Bspw. sind die Identifikation von Käuferprofilen (z.B. für das Cross Selling) oder die Marktsegmentierung Anwendungsbeispiele für Beschreibungsmodelle. Assoziationsaussagen wie die Warenkorbanalyse und Charakterisierungsaussagen wie die Bestimmung von Erfolgsdeterminanten eines Web-Auftritts gehören zur Gruppe der Erklärungsmodelle. Zu den Prognosemodellen zählen unmittelbare Prognoseaufgaben wie bspw. die Prognose von Vertragslaufzeiten von Versicherungen oder die Prognose von Devisenkursen zur Finanzplanung als auch Klassifikationsaufgaben wie bspw. die Diagnose von Fehlern oder Krankheiten und die (klassifikatorische) Beurteilung von Mitarbeitern oder die Einordnung eines Versicherungsnehmers in eine bestimmte Tarifklasse.

Probleme und Ausblick

Aus der Zielsetzung des Data Mining ergeben sich häufig extrem große Lösungsräume, die zusammen mit den komplexen Algorithmen zu langen Laufzeiten führen. Aus der Betrachtung der zurzeit verfügbaren Data Mining-Tools ergibt sich das Problem, dass die Komponenten des Datenzugriffs und der Interessantheitsbewertung nur rudimentär in diese Tools implementiert wurden. Die Operationalisierung des Interessantheitsaspektes und seine Messung, die ja den Extraktionsprozess steuern, sind ebenfalls häufig Gegenstand kontroverser Diskussionen. Des weiteren ist die (Ideal-)Forderung nach autonomer Extraktion von Mustern aus Datenbeständen ohne Kenntnisse des Umfelds, der potenziellen Zusammenhänge und der Verwendung der gewonnenen Aussagen nur schwer erfüllbar. In der Datenbasis selbst sind in praktischen Fällen recht häufig Defekte wie fehlende oder falsche Daten zu finden, die die Ergebnisse des Data Mining negativ beeinflussen könnten, sodass vorbereitende Datenbereinigungsmaßnahmen notwendig werden.

Kommende Data Mining-Tools werden die angesprochenen Probleme reduzieren. Es wird Weiterentwicklungen in allen vier oben genannten Komponenten geben. Interessant sind auch Versuche, das Data Mining von strukturierten auf weniger strukturierte Datenbestände, wie z.B. Texte, Bilder oder HTML-Dokumente zu übertragen.

Mit Ihrer Auswahl die Relevanz der Werbung verbessern und dadurch dieses kostenfreie Angebot refinanzieren: Weitere Informationen

News SpringerProfessional.de

Autoren der Definition und Ihre Literaturhinweise/ Weblinks

Prof. Dr. Richard Lackes

Technische Universität Dortmund,
LS für Wirtschaftsinformatik

Universitätsprofessor

Zur Zeit keine Literaturhinweise/ Weblinks der Autoren verfügbar.

Interesse melden

Literaturhinweise SpringerProfessional.de

Bücher auf springer.com

Sachgebiete

Data Mining

is assigned to the following subject groups in the lexicon:

BWL

Allgemeine BWL > Wirtschaftsinformatik > Grundlagen der Wirtschaftsinformatik

Informationen zu den Sachgebieten

Wirtschaftsinformatik

Die Wirtschaftsinformatik als Wissenschaft von der Konzeption, Entwicklung und Anwendung computergestützter Informations- und Kommunikationssysteme (IKS) nimmt eine interdisziplinäre Schnittstellenfunktion zwischen der Betriebswirtschaftslehre und der Informatik ein. Jedoch bietet die... mehr >

Weiterführende Schwerpunktbeiträge

Data Mining

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.... mehr >

Wirtschaftsinformatik

Wissenschaft von dem Entwurf, der Entwicklung und der Anwendung computergestützter Informations- und Kommunikationssysteme (IuK-Systeme) und -techniken in Unternehmungen und Verwaltungen zur Unterstützung ihrer Geschäftsprozesse. Die Wirtschaftsinformatik nimmt eine Schnittstellenfunktion... mehr >

Enterprise-Resource-Planning-System

Ein Enterprise-Resource-Planning-System (ERP-System) unterstützt sämtliche in einem Unternehmen ablaufenden Geschäftsprozesse. Es enthält Module für die Bereiche Beschaffung, Produktion, Vertrieb, Anlagenwirtschaft, Personalwesen, Finanz- und Rechnungswesen usw., die über eine gemeinsame Datenbasis miteinander verbunden sind. ... mehr >

Internet Business

Unter Internet Business wird die Abwicklung von Geschäftsprozessen jedweder Art über das Internet verstanden. Darunter fallen sowohl interne Prozesse, die sich nur auf Kommunikationspartner innerhalb eines Unternehmens beziehen, als auch solche Prozesse, die zwischen zwei Geschäftspartnern... mehr >

Web 2.0

Unter dem Begriff Web 2.0 wird keine grundlegend neue Art von Technologien oder Anwendungen verstanden, sondern der Begriff beschreibt eine in sozio-technischer Hinsicht veränderte Nutzung des Internets, bei der dessen Möglichkeiten konsequent genutzt und weiterentwickelt werden. Es stellt eine... mehr >

Interne Verweise

Beliebte Definitionen der Autoren
Ein-/ Ausgehende Verweise

eingehend

Data Mining

ausgehend

eingehend

Data Mining

ausgehend

Data Mining

Übersicht

zuletzt besuchte Definitionen...

Inhaltsverzeichnis

Begriff und Motivation

Zielsetzung und Einordnung

Komponenten

Anwendungsbereiche

Probleme und Ausblick

Teilen Sie Ihr Wissen über "Data Mining"

Übersicht

zuletzt besuchte Definitionen...

Mindmap "Data Mining"

News SpringerProfessional.de

Autoren der Definition und Ihre Literaturhinweise/ Weblinks

Literaturhinweise SpringerProfessional.de

Bücher auf springer.com

Sachgebiete

Data Mining

BWL

Informationen zu den Sachgebieten

Wirtschaftsinformatik

Wirtschaftsinformatik

Weiterführende Schwerpunktbeiträge

Data Mining

Data Mining

Wirtschaftsinformatik

Wirtschaftsinformatik

Enterprise-Resource-Planning-System

Enterprise-Resource-Planning-System

Internet Business

Internet Business

Web 2.0

Web 2.0

Interne Verweise

Data Mining

Data Mining