Unterschied zwischen hierarchischem und partitionalem Clustering

Unterschied zwischen hierarchischem und partitionalem Clustering
Unterschied zwischen hierarchischem und partitionalem Clustering

Video: Unterschied zwischen hierarchischem und partitionalem Clustering

Video: Unterschied zwischen hierarchischem und partitionalem Clustering
Video: Datenbanken - Grundlagen 2024, November
Anonim

Hierarchisches vs. Partitionales Clustering

Clustering ist eine maschinelle Lerntechnik zum Analysieren von Daten und Aufteilen in Gruppen ähnlicher Daten. Diese Gruppen oder Sätze ähnlicher Daten werden als Cluster bezeichnet. Die Clusteranalyse befasst sich mit Clustering-Algorithmen, die Cluster automatisch identifizieren können. Hierarchisch und Partitional sind zwei solche Klassen von Clustering-Algorithmen. Hierarchische Clustering-Algorithmen unterteilen die Daten in eine Hierarchie von Clustern. Paritionelle Algorithmen unterteilen den Datensatz in voneinander getrennte Partitionen.

Was ist hierarchisches Clustering?

Hierarchische Clustering-Algorithmen wiederholen den Zyklus, entweder kleinere Cluster zu größeren zusammenzuführen oder größere Cluster in kleinere aufzuteilen. In jedem Fall erzeugt es eine Hierarchie von Clustern, die als Dendogramm bezeichnet wird. Agglomerative Clustering-Strategie verwendet den Bottom-up-Ansatz, Cluster in größere zusammenzuführen, während divisive Clustering-Strategie den Top-down-Ansatz verwendet, um in kleinere Cluster aufzuteilen. Typischerweise wird der Greedy-Ansatz verwendet, um zu entscheiden, welche größeren/kleineren Cluster zum Zusammenführen/Teilen verwendet werden. Euklidische Distanz, Manhattan-Distanz und Kosinus-Ähnlichkeit sind einige der am häufigsten verwendeten Ähnlichkeitsmetriken für numerische Daten. Für nicht numerische Daten werden Metriken wie die Hamming-Distanz verwendet. Es ist wichtig zu beachten, dass die eigentlichen Beobachtungen (Instanzen) für das hierarchische Clustering nicht benötigt werden, da nur die Abstandsmatrix ausreicht. Das Dendogramm ist eine visuelle Darstellung der Cluster, die die Hierarchie sehr deutlich zeigt. Je nachdem, auf welcher Ebene das Dendogramm geschnitten wird, kann der Benutzer unterschiedliche Clusterings erzielen.

Was ist Partitional Clustering?

Partitional-Clustering-Algorithmen erzeugen verschiedene Partitionen und werten sie dann nach bestimmten Kriterien aus. Sie werden auch als nicht hierarchisch bezeichnet, da jede Instanz in genau einem von k sich gegenseitig ausschließenden Clustern platziert wird. Da nur ein Satz von Clustern die Ausgabe eines typischen Partitional-Clustering-Algorithmus ist, muss der Benutzer die gewünschte Anzahl von Clustern (normalerweise als k bezeichnet) eingeben. Einer der am häufigsten verwendeten Partitional-Clustering-Algorithmen ist der k-Means-Clustering-Algorithmus. Der Benutzer muss vor dem Start die Anzahl der Cluster (k) angeben, und der Algorithmus initiiert zuerst die Zentren (oder Zentroide) der k Partitionen. Kurz gesagt, der k-Means-Clustering-Algorithmus weist dann Mitglieder basierend auf den aktuellen Zentren zu und schätzt die Zentren basierend auf den aktuellen Mitgliedern neu. Diese beiden Schritte werden wiederholt, bis eine bestimmte Intra-Cluster-Ähnlichkeitszielfunktion und eine Inter-Cluster-Unähnlichkeitszielfunktion optimiert sind. Daher ist eine vernünftige Initialisierung von Zentren ein sehr wichtiger Faktor, um qualitativ hochwertige Ergebnisse aus Partitional-Clustering-Algorithmen zu erh alten.

Was ist der Unterschied zwischen hierarchischem und partitionalem Clustering?

Hierarchisches und Partitionales Clustering haben wesentliche Unterschiede in Laufzeit, Annahmen, Eingabeparametern und resultierenden Clustern. Typischerweise ist partitionales Clustering schneller als hierarchisches Clustering. Das hierarchische Clustering erfordert nur ein Ähnlichkeitsmaß, während das Partitions-Clustering stärkere Annahmen wie die Anzahl der Cluster und die anfänglichen Zentren erfordert. Für hierarchisches Clustering sind keine Eingabeparameter erforderlich, während partitionale Clustering-Algorithmen die Anzahl der Cluster benötigen, um mit der Ausführung zu beginnen. Hierarchisches Clustering gibt eine viel aussagekräftigere und subjektivere Aufteilung von Clustern zurück, aber partitioniertes Clustering führt zu genau k Clustern. Hierarchische Clustering-Algorithmen eignen sich besser für kategoriale Daten, solange ein Ähnlichkeitsmaß entsprechend definiert werden kann.

Empfohlen: