KDD vs. Data Mining
KDD (Knowledge Discovery in Databases) ist ein Gebiet der Informatik, das Werkzeuge und Theorien umfasst, die Menschen dabei helfen, nützliche und bisher unbekannte Informationen (d. h. Wissen) aus großen Sammlungen digitalisierter Daten zu extrahieren. KDD besteht aus mehreren Schritten, und Data Mining ist einer davon. Data Mining ist die Anwendung eines bestimmten Algorithmus, um Muster aus Daten zu extrahieren. Trotzdem werden KDD und Data Mining synonym verwendet.
Was ist KDD?
Wie oben erwähnt, ist KDD ein Gebiet der Informatik, das sich mit der Extraktion bisher unbekannter und interessanter Informationen aus Rohdaten beschäftigt. KDD ist der gesamte Prozess des Versuchs, Daten durch die Entwicklung geeigneter Methoden oder Techniken zu verstehen. Dieser Prozess befasst sich mit der Abbildung von Low-Level-Daten in andere Formen, die kompakter, abstrakter und nützlicher sind. Dies wird erreicht, indem Kurzberichte erstellt, der Prozess der Datengenerierung modelliert und Vorhersagemodelle entwickelt werden, die zukünftige Fälle vorhersagen können. Aufgrund des exponentiellen Datenwachstums, insbesondere in Bereichen wie der Wirtschaft, ist KDD zu einem sehr wichtigen Prozess geworden, um diese große Datenmenge in Business Intelligence umzuwandeln, da die manuelle Extraktion von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Beispielsweise wird es derzeit für verschiedene Anwendungen wie soziale Netzwerkanalyse, Betrugserkennung, Wissenschaft, Investitionen, Fertigung, Telekommunikation, Datenbereinigung, Sport, Informationsabruf und weitgehend für Marketing verwendet. KDD wird normalerweise verwendet, um Fragen zu beantworten, wie z. Dieser Prozess hat mehrere Schritte. Es beginnt damit, ein Verständnis für die Anwendungsdomäne und das Ziel zu entwickeln und dann einen Zieldatensatz zu erstellen. Anschließend erfolgt die Bereinigung, Vorverarbeitung, Reduktion und Projektion der Daten. Der nächste Schritt ist die Verwendung von Data Mining (unten erklärt), um Muster zu identifizieren. Abschließend wird entdecktes Wissen durch Visualisierung und/oder Interpretation gefestigt.
Was ist Data Mining?
Wie oben erwähnt, ist Data Mining nur ein Schritt innerhalb des gesamten KDD-Prozesses. Es gibt zwei Hauptziele des Data Mining, wie sie durch das Ziel der Anwendung definiert werden, und zwar Verifizierung oder Entdeckung. Die Verifizierung überprüft die Hypothese des Benutzers über Daten, während die Entdeckung automatisch interessante Muster findet. Es gibt vier große Data-Mining-Aufgaben: Clustering, Klassifikation, Regression und Assoziation (Zusammenfassung). Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können. Regression findet Funktionen mit minimalem Fehler zu Modelldaten. Und Assoziation sucht nach Beziehungen zwischen Variablen. Dann muss der spezifische Data-Mining-Algorithmus ausgewählt werden. Je nach Zielsetzung können verschiedene Algorithmen wie lineare Regression, logistische Regression, Entscheidungsbäume und Naive Bayes ausgewählt werden. Dann wird nach Mustern von Interesse in einer oder mehreren Darstellungsformen gesucht. Schließlich werden die Modelle entweder anhand der Vorhersagegenauigkeit oder der Verständlichkeit bewertet.
Was ist der Unterschied zwischen KDD und Data Mining?
Obwohl die beiden Begriffe KDD und Data Mining häufig synonym verwendet werden, beziehen sie sich auf zwei verwandte, aber leicht unterschiedliche Konzepte. KDD ist der Gesamtprozess zum Extrahieren von Wissen aus Daten, während Data Mining ein Schritt innerhalb des KDD-Prozesses ist, der sich mit der Identifizierung von Mustern in Daten befasst. Mit anderen Worten, Data Mining ist nur die Anwendung eines bestimmten Algorithmus basierend auf dem Gesamtziel des KDD-Prozesses.