Hauptunterschied – überwachtes vs. nicht überwachtes maschinelles Lernen
Supervised Learning und Unsupervised Learning sind zwei Kernkonzepte des maschinellen Lernens. Überwachtes Lernen ist eine maschinelle Lernaufgabe zum Lernen einer Funktion, die eine Eingabe einer Ausgabe zuordnet, basierend auf den beispielhaften Eingabe-Ausgabe-Paaren. Unüberwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zur Beschreibung verborgener Strukturen aus unbeschrifteten Daten abzuleiten. Der Hauptunterschied zwischen überwachtem und nicht überwachtem maschinellem Lernen besteht darin, dass beim überwachten Lernen gekennzeichnete Daten verwendet werden, während beim nicht überwachten Lernen nicht gekennzeichnete Daten verwendet werden.
Maschinelles Lernen ist ein Bereich der Informatik, der einem Computersystem die Möglichkeit gibt, aus Daten zu lernen, ohne explizit programmiert zu werden. Es erlaubt, die Daten zu analysieren und Muster darin vorherzusagen. Es gibt viele Anwendungen des maschinellen Lernens. Einige davon sind Gesichtserkennung, Gestenerkennung und Spracherkennung. Es gibt verschiedene Algorithmen im Zusammenhang mit maschinellem Lernen. Einige davon sind Regression, Klassifizierung und Clustering. Die gängigsten Programmiersprachen für die Entwicklung von auf maschinellem Lernen basierenden Anwendungen sind R und Python. Andere Sprachen wie Java, C++ und Matlab können ebenfalls verwendet werden.
Was ist überwachtes Lernen?
In auf maschinellem Lernen basierenden Systemen funktioniert das Modell nach einem Algorithmus. Beim überwachten Lernen wird das Modell überwacht. Zunächst muss das Modell trainiert werden. Mit dem gewonnenen Wissen kann es Antworten für die zukünftigen Instanzen vorhersagen. Das Modell wird mit einem gekennzeichneten Datensatz trainiert. Wenn dem System Out-of-Sample-Daten gegeben werden, kann es das Ergebnis vorhersagen. Nachfolgend ein kleiner Auszug aus dem beliebten IRIS-Datensatz.
Gemäß obiger Tabelle werden Kelchblattlänge, Kelchblattbreite, Patellänge, Patelbreite und Art als Attribute bezeichnet. Die Sp alten werden als Features bezeichnet. Eine Zeile enthält Daten für alle Attribute. Daher wird eine Zeile als Beobachtung bezeichnet. Die Daten können entweder numerisch oder kategorisch sein. Als Input erhält das Modell die Beobachtungen mit dem entsprechenden Artnamen. Wenn eine neue Beobachtung gegeben wird, sollte das Modell die Art der Art vorhersagen, zu der sie gehört.
Beim überwachten Lernen gibt es Algorithmen zur Klassifikation und Regression. Klassifizierung ist der Prozess der Klassifizierung der gekennzeichneten Daten. Das Modell erstellte Grenzen, die die Datenkategorien trennten. Wenn dem Modell neue Daten bereitgestellt werden, kann es basierend darauf kategorisieren, wo der Punkt vorhanden ist. K-Nearest Neighbors (KNN) ist ein Klassifizierungsmodell. Abhängig vom k-Wert wird die Kategorie entschieden. Wenn beispielsweise k 5 ist und ein bestimmter Datenpunkt in der Nähe von acht Datenpunkten in Kategorie A und sechs Datenpunkten in Kategorie B liegt, wird der Datenpunkt als A klassifiziert.
Die Regression ist der Prozess der Vorhersage des Trends der vorherigen Daten, um das Ergebnis der neuen Daten vorherzusagen. Bei der Regression kann die Ausgabe aus einer oder mehreren kontinuierlichen Variablen bestehen. Die Vorhersage erfolgt anhand einer Linie, die die meisten Datenpunkte abdeckt. Das einfachste Regressionsmodell ist eine lineare Regression. Es ist schnell und erfordert keine Abstimmungsparameter wie bei KNN. Wenn die Daten einen parabolischen Trend zeigen, ist das lineare Regressionsmodell nicht geeignet.
Das sind einige Beispiele für überwachte Lernalgorithmen. Im Allgemeinen sind die Ergebnisse, die von überwachten Lernmethoden generiert werden, genauer und zuverlässiger, da die Eingabedaten gut bekannt und gekennzeichnet sind. Daher muss die Maschine nur die verborgenen Muster analysieren.
Was ist unbeaufsichtigtes Lernen?
Beim unüberwachten Lernen wird das Modell nicht überwacht. Das Modell arbeitet eigenständig, um die Ergebnisse vorherzusagen. Es verwendet maschinelle Lernalgorithmen, um Schlussfolgerungen zu unbeschrifteten Daten zu ziehen. Im Allgemeinen sind die Algorithmen für unüberwachtes Lernen schwieriger als Algorithmen für überwachtes Lernen, da nur wenige Informationen vorhanden sind. Clustering ist eine Form des unüberwachten Lernens. Es kann verwendet werden, um die unbekannten Daten mithilfe von Algorithmen zu gruppieren. Das k-Mean- und das dichtebasierte Clustering sind zwei Clustering-Algorithmen.
k-Mean-Algorithmus, platziert k Schwerpunkt zufällig für jeden Cluster. Dann wird jeder Datenpunkt dem nächstgelegenen Schwerpunkt zugeordnet. Der euklidische Abstand wird verwendet, um den Abstand vom Datenpunkt zum Schwerpunkt zu berechnen. Die Datenpunkte sind in Gruppen eingeteilt. Die Positionen für k Schwerpunkte werden erneut berechnet. Die neue Schwerpunktposition wird durch den Mittelwert aller Punkte in der Gruppe bestimmt. Auch hier wird jeder Datenpunkt dem nächstgelegenen Schwerpunkt zugeordnet. Dieser Vorgang wiederholt sich, bis sich die Schwerpunkte nicht mehr ändern. k-mean ist ein schneller Clustering-Algorithmus, aber es gibt keine spezifizierte Initialisierung von Clustering-Punkten. Außerdem gibt es eine große Variation von Clustering-Modellen, die auf der Initialisierung von Clusterpunkten basieren.
Ein weiterer Clustering-Algorithmus ist das dichtebasierte Clustering. Es ist auch bekannt als dichtebasierte räumliche Clustering-Anwendungen mit Rauschen. Es funktioniert, indem ein Cluster als die maximale Menge von verbundenen Punkten mit Dichte definiert wird. Dies sind zwei Parameter, die für das dichtebasierte Clustering verwendet werden. Sie sind Ɛ (Epsilon) und Mindestpunkte. Das Ɛ ist der maximale Radius der Nachbarschaft. Die Mindestpunkte sind die Mindestanzahl von Punkten in der Ɛ-Nachbarschaft, um einen Cluster zu definieren. Dies sind einige Beispiele für Clustering, das in unbeaufsichtigtes Lernen fällt.
Im Allgemeinen sind die Ergebnisse, die von unüberwachten Lernalgorithmen generiert werden, nicht sehr genau und zuverlässig, da die Maschine die Eingabedaten definieren und kennzeichnen muss, bevor sie die verborgenen Muster und Funktionen bestimmt.
Was ist die Ähnlichkeit zwischen überwachtem und unüberwachtem maschinellem Lernen?
Überwachtes und unüberwachtes Lernen sind Arten des maschinellen Lernens
Was ist der Unterschied zwischen überwachtem und unüberwachtem maschinellem Lernen?
Überwachtes vs. nicht überwachtes maschinelles Lernen |
|
Überwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zu lernen, die eine Eingabe einer Ausgabe zuordnet, basierend auf Beispiel-Eingabe-Ausgabe-Paaren. | Unüberwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion abzuleiten, um verborgene Strukturen aus unbeschrifteten Daten zu beschreiben. |
Hauptfunktionalität | |
Beim überwachten Lernen sagt das Modell das Ergebnis basierend auf den beschrifteten Eingabedaten voraus. | Beim unüberwachten Lernen sagt das Modell das Ergebnis ohne gekennzeichnete Daten voraus, indem es die Muster selbst identifiziert. |
Genauigkeit der Ergebnisse | |
Die Ergebnisse der überwachten Lernmethoden sind genauer und zuverlässiger. | Die Ergebnisse der unbeaufsichtigten Lernmethoden sind nicht sehr genau und zuverlässig. |
Hauptalgorithmen | |
Es gibt Algorithmen zur Regression und Klassifikation beim überwachten Lernen. | Es gibt Algorithmen zum Clustern beim unbeaufsichtigten Lernen. |
Zusammenfassung – Überwachtes vs. nicht überwachtes maschinelles Lernen
Supervised Learning und Unsupervised Learning sind zwei Arten des maschinellen Lernens. Überwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zu lernen, die eine Eingabe einer Ausgabe auf der Grundlage von beispielhaften Eingabe-Ausgabe-Paaren zuordnet. Unüberwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zur Beschreibung verborgener Strukturen aus unbeschrifteten Daten abzuleiten. Der Unterschied zwischen überwachtem und nicht überwachtem maschinellem Lernen besteht darin, dass beim überwachten Lernen gekennzeichnete Daten verwendet werden, während beim nicht überwachten Lernen nicht gekennzeichnete Daten verwendet werden.