| 
 | 
 | 
 | 
Wirtschaftslexikon
  Detailsuche
Digitale Fachbibliothek
in 50.000 Fachbüchern + 300 Fachzeitschriften 

ANZEIGE

Bücher
Das Handbuch stellt speziell für Entscheidungsträger die Nutzungsmöglichkeiten von Data-Warehouse-Konzepten und Technologien vor. Neben den Data-Warehouse-Grundlagen werden vor allem die ... Vorschau
Statistik (von statista.com)
Schnellste Supercomputer
Rechenleistung der leistungsstärksten Supercomputer weltweit im November 2011 (in TeraFLOPS)
Statistik: Schnellste Supercomputer Statista: hochwertige Statistiken, Umfragen und Studien aus über 10.000 Quellen
Meine zuletzt besuchten Definitionen
Schwerpunktbeiträge des Tages
Obgleich die Marktwirtschaft bisweilen erhebliche Härten für den Einzelnen mit sich bringt, so verfügt das marktwirtschaftliche System grundsätzlich über eine moralische Qualität. Diese moralische Qualität ist unmittelbar damit verbunden, dass die Marktwirtschaft in der Lage ist, einen substantiellen Beitrag zur ... mehr
von  Prof. Dr. Nick Lin-Hi
Projektmanagement wird als Managementaufgabe gegliedert in Projektdefinition, Projektdurchführung und Projektabschluss. Ziel ist, dass Projekte richtig geplant und gesteuert werden, dass die Risiken begrenzt, Chancen genutzt und Projektziele qualitativ, termingerecht und im Kostenrahmen erreicht werden.
von  Bernhard Hobel, Silke Schütte

Data Mining

Definition

ANZEIGE

Kurzerklärung:

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden.

Ausführliche Erklärung:

I. Begriff und Motivation

Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhänge zwischen Planungsobjekten, deren Daten in einer hierfür aufgebauten Datenbasis bereitgestellt werden. Bspw. kann so ermittelt werden, welche Produkte häufig zusammen gekauft werden (typische Warenkörbe) oder welche Faktoren ausschlaggebend sind für die Kundentreue. Motiviert werden die Anstrengungen zum Einsatz des Data Mining durch die offenkundige Lücke zwischen den in einem Unternehmen gesammelten und verfügbaren Datenmengen, wie sie durch ERP-Systeme und moderne integrierte Unternehmensdatenbanken möglich werden, und der Schwerfälligkeit dieses Potenzial für taktische und strategische Unternehmensentscheidungen und den Managementprozess zu nutzen. „We are drowning in data but starving for knowledge” ist eine, dieses Phänomen plastisch skizzierende Aussage. Man benötigt also effiziente Analyseinstrumente, die aus den Datenmengen die interessanten und wichtigen Aussagen „herausschürfen”, um so Wissen zu generieren, das über die im Controlling üblichen Kennzahlen als Aggregate großer Datenmengen hinausgeht.

II. Zielsetzung und Einordnung

Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind, d.h. seine Entscheidungen verbessern helfen. Zu lösen ist hierbei das nichttriviale Problem der Operationalisierung der Interessantheit und der Nützlichkeit von Aussagen. Die Verwendung der statistischen Signifikanz reicht hierzu sicher nicht aus.

Beim Data Mining kommen integrierte Methoden und Verfahren der Künstlichen Intelligenz und der Statistik sowie Modelle des Anwendungsbereiches zum Einsatz. Im Gegensatz zu den klassischen Ansätzen aus diesen Bereichen erstreckt sich das Data Mining nicht nur auf die Prüfung manuell aufgestellter Hypothesen, sondern auf die Generierung neuer Hypothesen. Das Data Minig ist in einem umfassenden Prozess, dem sogenannten Knowledge Discovery in Databases (KDD), eingeordnet.

III. Komponenten

Data Mining-Verfahren umfassen die folgenden Komponenten:

Datenzugriff: Ein Data Mining-Verfahren muss auf die Unternehmensdaten zugreifen können. Dies geschieht im Idealfall über die ODBC-Schnittstelle. Voraus geht üblicherweise eine Konzentration auf einen bestimmten Analysebereich (z.B. Kundensegmentierung), dessen ihn charakterisierenden Daten in einer eigens angelegten Datenbank (Data Warehouse) bzw. in einer Datentabelle zusammengefasst sind.

Modelltyp: Der Modelltyp bestimmt einerseits die Art der generierbaren Hypothesen und andererseits die Größe des Lösungsraumes für Data Mining-Verfahren. Im Data Mining werden oft einfache Regelmodelle in Form von Wenn-dann-Aussagen verwendet. Entscheidungsbäume sind eine häufig eingesetzte Darstellungsform spezieller Regelmengen. Komplexere Verfahren basieren auf der Prädikatenlogik oder nutzen spezielle neuronale Netze wie Kohonennetze.

– Interessantheitsmaß: Beim Data Mining ergibt sich das Problem der Bewertung der gefundenen Muster hinsichtlich ihrer Interessantheit für eine konkrete Anwendung. Man behilft sich bei diesem Messproblem durch die Separation der Interessantheitsmessung in mehrere, möglichst unabhängige Messgrößen. Hierzu zählt z.B. die Auffälligkeit: Je stärker eine Aussage von anderen (durchschnittlichen) Aussagen abweicht, desto interessanter ist sie. Außerdem ist eine Aussage umso interessanter, je allgemeingültiger sie ist. Des Weiteren hängt der Wert einer Aussage von der Zielsetzung des Entscheidungsträgers ab. Die Aussagen müssen mit einer gewissen Wahrscheinlichkeit gelten, also valide sein. Die Art der Präsentation beeinflusst die Interpretierbarkeit und damit die Verständlichkeit der Muster. Die potenzielle Nutzbarkeit einer Aussage wird schließlich durch die Operationalität ausgedrückt.

– Suchverfahren: Die Aufgabe des Suchverfahrens liegt darin, den Lösungsraum nach dem interessantesten Modell (d.h. nach der interessantesten Menge von Aussagen) zu durchsuchen. Je komplexer die Modelle des gewählten Modelltyps werden können, desto größer ist der Lösungsraum für das Data Mining. Ein solcher Lösungsraum kann i.d.R. nicht durch exakte Verfahren durchsucht werden, sodass ein heuristisches Suchverfahren gewählt werden muss.

IV. Anwendungsbereiche

Das Data Mining bietet eine Reihe von Anwendungspotenzialen für Beschreibungs-, Erklärungs- und Prognosemodelle. Bspw. sind die Identifikation von Käuferprofilen (z.B. für das Cross Selling) oder die Marktsegmentierung Anwendungsbeispiele für Beschreibungsmodelle. Assoziationsaussagen wie die Warenkorbanalyse und Charakterisierungsaussagen wie die Bestimmung von Erfolgsdeterminanten eines Web-Auftritts gehören zur Gruppe der Erklärungsmodelle. Zu den Prognosemodellen zählen unmittelbare Prognoseaufgaben wie bspw. die Prognose von Vertragslaufzeiten von Versicherungen oder die Prognose von Devisenkursen zur Finanzplanung als auch Klassifikationsaufgaben wie bspw. die Diagnose von Fehlern oder Krankheiten und die (klassifikatorische) Beurteilung von Mitarbeitern oder die Einordnung eines Versicherungsnehmers in eine bestimmte Tarifklasse.

V. Probleme und Ausblick

Aus der Zielsetzung des Data Mining ergeben sich häufig extrem große Lösungsräume, die zusammen mit den komplexen Algorithmen zu langen Laufzeiten führen. Aus der Betrachtung der zurzeit verfügbaren Data Mining-Tools ergibt sich das Problem, dass die Komponenten des Datenzugriffs und der Interessantheitsbewertung nur rudimentär in diese Tools implementiert wurden. Die Operationalisierung des Interessantheitsaspektes und seine Messung, die ja den Extraktionsprozess steuern, sind ebenfalls häufig Gegenstand kontroverser Diskussionen. Des weiteren ist die (Ideal-)Forderung nach autonomer Extraktion von Mustern aus Datenbeständen ohne Kenntnisse des Umfelds, der potenziellen Zusammenhänge und der Verwendung der gewonnenen Aussagen nur schwer erfüllbar. In der Datenbasis selbst sind in praktischen Fällen recht häufig Defekte wie fehlende oder falsche Daten zu finden, die die Ergebnisse des Data Mining negativ beeinflussen könnten, sodass vorbereitende Datenbereinigungsmaßnahmen notwendig werden.

Kommende Data Mining-Tools werden die angesprochenen Probleme reduzieren. Es wird Weiterentwicklungen in allen vier oben genannten Komponenten geben. Interessant sind auch Versuche, das Data Mining von strukturierten auf weniger strukturierte Datenbestände, wie z.B. Texte, Bilder oder HTML-Dokumente zu übertragen.

Suche in der E-Bibliothek für Professionals

ANZEIGE

Sachgebiete
Data Mining
ist im Gabler Wirtschaftslexikon folgenden Sachgebieten zugeordnet:
Informationen zu den Sachgebieten
Die Wirtschaftsinformatik als Wissenschaft von der Konzeption, Entwicklung und Anwendung computergestützter Informations- und Kommunikationssysteme (IKS) nimmt eine interdisziplinäre Schnittstellenfunktion zwischen der Betriebswirtschaftslehre und der Informatik ein. Jedoch bietet die Wirtschaftsinformatik auch zusätzliche Funktionen/Ergebnisse wie etwa Methoden und Modelle, anhand derer ... mehr
Die Versicherungswirtschaft ist zum einen ein Wirtschaftszweig von großer volkswirtschaftlicher Bedeutung und zum anderen eine spezielle Betriebwirtschaftslehre - auch Versicherungsbetriebslehre genannt. Als Wirtschaftszweig mit Dienstleistungscharakter ist die Versicherungswirtschaft mit Aufgaben der Schadensverhütung und -regulierung und der Sammlung von Kapital betraut. ... mehr
Durch eine internationale Rechnungslegung und damit internationale Harmonisierung der Rechnungslegung soll eine Vergleichbarkeit bzw. Interpretierbarkeit der Jahresabschlüsse international agierender Unternehmen, die ansonsten nach länderspezifischen, unterschiedlichen Rechtsnormen erstellt sind, erreicht werden. Diese Harmonisierung ist seit 2001 Aufgabe des IASB, des privatrechtlichen ... mehr