Data Mining vs. OLAP
Sowohl Data Mining als auch OLAP sind zwei der gängigen Business Intelligence (BI)-Technologien. Business Intelligence bezieht sich auf computergestützte Methoden zum Identifizieren und Extrahieren nützlicher Informationen aus Geschäftsdaten. Data Mining ist das Gebiet der Informatik, das sich mit dem Extrahieren interessanter Muster aus großen Datenmengen befasst. Es vereint viele Methoden aus Künstlicher Intelligenz, Statistik und Datenbankmanagement. OLAP (Online Analytical Processing) ist, wie der Name schon sagt, eine Zusammenstellung von Möglichkeiten, mehrdimensionale Datenbanken abzufragen.
Data Mining wird auch als Knowledge Discovery in Data (KDD) bezeichnet. Wie oben erwähnt, handelt es sich um ein Gebiet der Informatik, das sich mit der Extraktion bisher unbekannter und interessanter Informationen aus Rohdaten befasst. Aufgrund des exponentiellen Datenwachstums, insbesondere in Bereichen wie der Wirtschaft, ist Data Mining zu einem sehr wichtigen Werkzeug geworden, um diese große Datenfülle in Business Intelligence umzuwandeln, da die manuelle Extraktion von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Beispielsweise wird es derzeit für verschiedene Anwendungen wie die Analyse sozialer Netzwerke, Betrugserkennung und Marketing verwendet. Data Mining befasst sich normalerweise mit den folgenden vier Aufgaben: Clustering, Klassifizierung, Regression und Assoziation. Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können und typischerweise die folgenden Schritte umfassen: Vorverarbeitung von Daten, Designmodellierung, Lernen/Merkmalsauswahl und Bewertung/Validierung. Regression findet Funktionen mit minimalem Fehler zu Modelldaten. Und Assoziation sucht nach Beziehungen zwischen Variablen. Data Mining wird normalerweise verwendet, um Fragen zu beantworten, z. B. was die Hauptprodukte sind, die dazu beitragen könnten, im nächsten Jahr bei Wal-Mart hohe Gewinne zu erzielen.
OLAP ist eine Klasse von Systemen, die Antworten auf mehrdimensionale Abfragen liefern. Typischerweise wird OLAP für Marketing, Budgetierung, Prognose und ähnliche Anwendungen verwendet. Selbstverständlich sind die für OLAP eingesetzten Datenbanken für komplexe und Ad-hoc-Abfragen mit Blick auf eine schnelle Performance konfiguriert. Typischerweise wird eine Matrix verwendet, um die Ausgabe eines OLAP anzuzeigen. Die Zeilen und Sp alten werden durch die Dimensionen der Abfrage gebildet. Sie verwenden häufig Aggregationsmethoden für mehrere Tabellen, um Zusammenfassungen zu erh alten. Zum Beispiel kann es verwendet werden, um die Verkäufe dieses Jahres bei Wal-Mart im Vergleich zum Vorjahr herauszufinden? Was ist die Prognose für den Umsatz im nächsten Quartal? Was kann über den Trend gesagt werden, wenn man sich die prozentuale Veränderung ansieht?
Obwohl es offensichtlich ist, dass Data Mining und OLAP ähnlich sind, weil sie mit Daten arbeiten, um Informationen zu gewinnen, liegt der Hauptunterschied darin, wie sie mit Daten arbeiten. OLAP-Tools bieten eine multidimensionale Datenanalyse und stellen Zusammenfassungen der Daten bereit, aber im Gegensatz dazu konzentriert sich Data Mining auf Verhältnisse, Muster und Einflüsse in der Datenmenge. Das ist ein OLAP-Deal mit Aggregation, was auf die Operation von Daten durch „Addition“hinausläuft, aber Data Mining entspricht „Division“. Ein weiterer bemerkenswerter Unterschied besteht darin, dass Data Mining-Tools zwar Daten modellieren und umsetzbare Regeln zurückgeben, OLAP jedoch Vergleichs- und Kontrasttechniken entlang der Geschäftsdimension in Echtzeit durchführt.