Zentrale Tendenz vs. Streuung
In der deskriptiven und inferenziellen Statistik werden mehrere Indizes verwendet, um einen Datensatz entsprechend seiner zentralen Tendenz, Streuung und Schiefe zu beschreiben: die drei wichtigsten Eigenschaften, die die relative Form der Verteilung eines Datensatzes bestimmen.
Was ist eine zentrale Tendenz?
Zentrale Tendenz bezeichnet und lokalisiert das Zentrum der Werteverteilung. Mittelwert, Modus und Median sind die am häufigsten verwendeten Indizes zur Beschreibung der zentralen Tendenz eines Datensatzes. Wenn ein Datensatz symmetrisch ist, dann stimmen sowohl der Median als auch der Mittelwert des Datensatzes überein.
Bei einem gegebenen Datensatz wird der Mittelwert berechnet, indem die Summe aller Datenwerte genommen und dann durch die Anzahl der Daten dividiert wird. Zum Beispiel werden die Gewichte von 10 Personen (in Kilogramm) mit 70, 62, 65, 72, 80, 70, 63, 72, 77 und 79 gemessen. Dann kann das mittlere Gewicht der zehn Personen (in Kilogramm) sein wie folgt berechnet. Die Summe der Gewichte ist 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Mittelwert=(Summe) / (Anzahl der Daten)=710 / 10=71 (in Kilogramm). Es versteht sich, dass Ausreißer (Datenpunkte, die vom normalen Trend abweichen) dazu neigen, den Mittelwert zu beeinflussen. Bei Vorhandensein von Ausreißern gibt der Mittelwert allein kein korrektes Bild über die Mitte des Datensatzes.
Der Median ist der Datenpunkt, der sich genau in der Mitte des Datensatzes befindet. Eine Möglichkeit, den Median zu berechnen, besteht darin, die Datenpunkte in aufsteigender Reihenfolge zu ordnen und dann den Datenpunkt in der Mitte zu lokalisieren. Wenn einmal bestellt, sieht der vorherige Datensatz beispielsweise so aus: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Daher ist (70+72)/2=71 in der Mitte. Daraus ist ersichtlich, dass der Median nicht im Datensatz enth alten sein muss. Der Median wird durch das Vorhandensein der Ausreißer nicht beeinflusst. Daher dient der Median als besseres Maß für die zentrale Tendenz bei Vorhandensein von Ausreißern.
Der Modus ist der am häufigsten vorkommende Wert im Datensatz. Im vorherigen Beispiel kommen die Werte 70 und 72 beide zweimal vor und somit sind beide Modi. Dies zeigt, dass es in einigen Distributionen mehr als einen modalen Wert gibt. Wenn es nur einen Modus gibt, wird der Datensatz als unimodal bezeichnet, in diesem Fall ist der Datensatz bimodal.
Was ist Dispersion?
Streuung ist die Streuung der Daten um das Zentrum der Verteilung. Bereich und Standardabweichung sind die am häufigsten verwendeten Streuungsmaße.
Der Bereich ist einfach der höchste Wert minus der niedrigste Wert. Im vorherigen Beispiel ist der höchste Wert 80 und der niedrigste Wert 62, also ist der Bereich 80-62=18. Aber der Bereich liefert kein ausreichendes Bild über die Streuung.
Zur Berechnung der Standardabweichung werden zunächst die Abweichungen der Datenwerte vom Mittelwert berechnet. Der quadratische Mittelwert der Abweichungen wird als Standardabweichung bezeichnet. Im vorigen Beispiel sind die jeweiligen Abweichungen vom Mittelwert (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 und (79 – 71)=8. Die Summe von Abweichungsquadrate ist (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Die Standardabweichung beträgt √(366/10)=6,05 (in Kilogramm). Sofern der Datensatz nicht stark verzerrt ist, kann daraus geschlossen werden, dass die Mehrheit der Daten im Intervall 71±6,05 liegt, und das ist in diesem speziellen Beispiel tatsächlich so.
Was ist der Unterschied zwischen zentraler Tendenz und Streuung?
• Zentrale Tendenz bezeichnet und lokalisiert das Zentrum der Werteverteilung
• Streuung ist die Streuung von Daten um das Zentrum eines Datensatzes.