Weiter zum Dokument

Parameter univariater Häufigkeitsverteilungen

Lageparameter, Streuungsparameter für metrische Daten, Relative Konzentration
Kurs

Grundlagen der Statistik

19 Dokumente
Studierenden haben 19 Dokumente in diesem Kurs geteilt
Akademisches Jahr: 2021/2022
Hochgeladen von:
94Uploads
91upvotes

Kommentare

Bitte logge dich ein oder registriere dich, um Kommentare zu posten.

Ähnliche Studylists

StatistikStatistik

Text Vorschau

P!ameter univ!iater Häufigkeitsverteilungen

Lageparameter

Modus bzw. Modalwert

Der Modus oder Modalwert x ist der einfachste Lageparameter, der die Lage eines Datensatzes in knapper Weise beschreibt. Er ist für nicht klassierte Daten definiert als die Merkmalsausprägung, die am häufigsten auftritt bzw. deren relative Häufigkeit maximal ist. Existieren mehrere Ausprägungen mit größter absoluter bzw. relativer Häufigkeit, so gibt es mehrere Modi. Eine eingipflige Häufigkeitsverteilung weist danach genau einen Modus auf. Der Modus existiert für nominal, ordinal und kardinal skalierte Daten. Er hat die Eigenschaft, nicht von Ausreißern und Extremwerten beeinflusst zu werden. Für nominal skalierte Daten ist der Modus der einzig sinnvolle Lageparameter.

Der eindeutige Modus x lautet „CDU“. Aus einer klassierten Häufigkeitsverteilung kann der Modus nicht mehr exakt bestimmt werden. Er lässt sich lediglich näherungsweise berechnen. Bei klassierten Daten mit gleicher Gruppenbreite kann als Näherungswert die Mitte der Klasse mit größter Häufigkeitsdichte verwendet werden.

Quantile für metrische Daten

Bei der empirischen Verteilungsfunktion eines diskreten Merkmals wird jedem vorgegebenen x-Wert eindeutig ein F(x)-Wert zugewiesen. Da aber F(x) nicht streng monoton ist, existiert keine inverse Funktion zu F(x). Wohl aber lassen sich zusätzliche Forderungen so formulieren, dass dadurch eine Umkehrung möglich wird. Im Folgenden sei eine Häufigkeitstabelle mit ungruppierten Daten eines diskreten Merkmals gegeben. Ist sodann ein Wert p mit 0 < p < 1 bekannt, sind zwei Fälle möglich:

  • Es existiert in der Häufigkeitstabelle des betreffenden Datensatzes kein Merkmalswert x, für den F(x) = p gilt. Hier tritt p nicht in der Spalte der kumulierten relativen Häufigkeiten auf.
  • Es gibt in der Häufigkeitstabelle eine Zeile j mit 1 ≤ j ≤ m, für die F(x ) = p gilt, was bedeutet, dass p in der Spalte der kumulierten relativen Häufigkeiten in der Zeile j auftritt.

Im ersten Fall, in dem der Wert p nicht in der F -Spalte vorkommt, wird der x-Wert der Zeile gewählt, für den erstmalig F(x)>p ist. In der Grafik wird dieser Fall dadurch erkannt, dass die Parallele zur x-Achse im Abstand p oberhalb der x-Achse den Graphen der erweiterten empirischen Verteilungsfunktion in einer vertikalen Stufe schneidet. Die Abszisse des Schnittpunkts nennt den gesuchten x-Wert. Im zweiten Fall tritt der Wert p in der F -Spalte auf. Grafisch schneidet die Parallele zur x-Achse im Abstand p oberhalb der x-Achse den Graphen der empirischen Verteilungsfunktion in einer horizontalen Treppenstufe. Die Abszissen aller Punkte dieser Treppenstufe kommen zunächst für eine zusätzliche Forderung zur Bestimmung eines eindeutigen x-Werts infrage. Hierbei sind aber zwei Sachverhalte zu unterscheiden: a) Das Merkmal X ist diskret und der zugrunde liegende Sachverhalt erlaubt als zuordenbare x-Werte nur die aufgeführten Merkmalswerte. Das bedeutet, dass Interpolationen zwischen den Merkmalswerten ausgeschlossen sind. Hierbei erfüllt lediglich die Abszisse des ersten Punkts der Treppenstufe die zuvor genannte Bedingung. b) Das Merkmal X ist stetig bzw. quasistetig. In diesem Fall kommen die Abszissen aller Punkte einer horizontalen Stufe für die Umkehrung infrage. In der Literatur wird überwiegend die Abszisse des Mittelpunkts der Treppenstufe für die Auswahl und Definition des Begriffs Quantil gewählt. In Statistikprogrammen gibt es aber eine Auswahl von bis zu 6 verschiedenen Definitionsmöglichkeiten. Definition: Es sei eine Häufigkeitstabelle eines metrischen Merkmals X mit ungruppierten Daten gegeben. Ferner sei ein Anteil p bekannt. Dann wird der nachstehend festgelegte Wert x als p-Quantil oder Prozentpunkt bezeichnet. a) Das Merkmal X ist diskret und nur die vorgegebenen Ausprägungen kommen als Quantile infrage (keine Interpolation).

  1. Fall: Kommt p in der Spalte der kumulierten relativen Häufigkeiten nicht vor, heißt die erste Ausprägung x , für die F > p gilt, p-Quantil. Das p-Quantil wird durch x symbolisiert.
  2. Fall: Kommt p in der Spalte der kumulierten relativen Häufigkeiten in der Zeile mit 1≤ j ≤m vor, heißt x p-Quantil. Nach dieser Definition besitzt das Quantil, der Prozentpunkt oder das Perzentil x näherungsweise die Eigenschaft, dass mindestens 100•p% der Merkmalswerte kleiner oder gleich x und mindestens 100•(1-p)% größer oder gleich x sind.

Um das Quantil x aus der Zeichnung ablesen zu können, wird die Parallele zur x-Achse im Abstand 0,25 oberhalb der x-Achse mit dem Graphen der erweiterten empirischen Verteilungsfunktion zum Schnitt gebracht. Da eine waagerechte Stufe getroffen wird, muss vom Mittelpunkt dieser Stufe das Lot auf die x-Achse gefällt werden. Die Abszisse des Schnittpunkts mit der x-Achse liefert x = 2,5. Die Parallele zur x-Achse im Abstand 0, schneidet den Graphen der erweiterten empirischen Verteilungsfunktion in einer vertikalen Treppenstufe. Vom Schnittpunkt wird das Lot auf die x-Achse gefällt, was x = 4 ergibt. Formel für das genäherte Quantil x :

Zur Verdeutlichung der Vorgehensweise zum Bestimmen von Quantilen bei klassierten Häufigkeitsverteilungen sei das folgende Beispiel betrachtet. In nachstehender Tabelle sind die Forderungen eines mittelständischen Unternehmens der Baubranche einer Kleinstadt zum 31. klassiert festgehalten.

Zu bestimmen sind die Quantile bzw. Prozentpunkte x , x , x , x , x , x und x

Lösung: Zuerst wird die um die Spalten der relativen und der kumulierten relativen Klassenhäufigkeiten erweiterte Tabelle bestimmt.

\

  1. >

]

> 0 0 0 0. 0 0 0.

  • : u ]

I i

i '

] ]

Arithmetisches Mittel und

getrimmtes arithmetisches Mittel

Die wichtigste Maßzahl für die Lage der beobachteten Merkmalswerte ist das arithmetische Mittel x.

Sind beispielhaft die Merkmalswerte 3, 3, 3, 5, 6, 6, 6, 6, 10, 10, 10, 10 gegeben, gilt danach x = • (3+3+3+5+6+6+6+6+10+10+10+10) = 6, Da die Ausprägung 3 dreimal, die Ausprägungen 6 und 10 je viermal auftreten, lässt sich das arithmetische Mittel einfacher durch x = •(3•3+5•1+6•4+10•4) = 6, bestimmen. Dabei werden aus den 12 Merkmalswerten die m = 4 verschiedenen Merkmalsausprägungen x = 3 mit h = 3, x = 5 mit h = 1, x = 6 mit h = 4 und x = 10 mit h = 4. Die Verallgemeinerung führt zu dem nachstehenden Satz.

Damit wird die Merkmalssumme gleichmäßig auf alle n Merkmalsträger verteilt. Von Nachteil ist, dass das arithmetische Mittel im Gegensatz zum Median von Extremwerten stark beeinflusst wird. So besitzen die Werte 1, 2, 3 das arithmetische Mittel 2. Kommt ein extremer Wert wie 100 dazu, wird das arithmetische Mittel bereits 26,5. Aus diesem Anlass bieten einige Statistikprogramme neben dem arithmetischen Mittel x ein getrimmtes arithmetisches Mittel an. Dabei werden gewisse extreme Daten auf beiden Seiten der aufsteigend sortierten Werte einfach weggelassen und aus den verbleibenden Daten das für diese zuständige arithmetische Mittel gebildet. Genau gilt diese Aussage nur, falls 100 • n • p ganzzahlig ist, wobei p den wegzulassenden Prozentsatz beschreibt.

Liegen für das metrische Merkmal X die Ausprägungen nur in klassierter Form vor, ist ein exakter Wert für das arithmetische Mittel nicht möglich. Um einen Näherungswert für das wahre arithmetische Mittel zu gewinnen, werden alle Daten einer Klasse durch die Klassenmitte repräsentiert. Dabei wird die Klassenmitte der i-ten Klasse [x ,x [ nach der nachfolgenden Formel bestimmt:

Geometrisches Mittel

Nun sollen Daten betrachtet werden, die sich auf unterschiedliche Zeitpunkte beziehen. Derartige Daten werden als Längsschnittsdaten bezeichnet. Einführend sei ein Maschinenbauunternehmen betrachtet, dessen Jahresumsatzentwicklung in Millionen Euro für die Jahre 2005 bis 2009 in nachstehender Grafik festgehalten worden ist.

Die Größe 1,04 heißt Wachstumsfaktor, die prozentuale Veränderung q = 4% Wachstumsrate.

Festzuhalten ist: x = 1 + q bzw. Wachstumsfaktor = 1 + Wachstumsrate. Die Wachstumsrate kann demnach negativ, null oder positiv sein.

Die Verallgemeinerung der vorherigen Betrachtung führt zur allgemeinen Definition des geometrischen Mittels.

Streuungsparameter für metrische

Daten

Spannweite und Quartilsabstand

Lageparameter allein beschreiben die Häufigkeitsverteilung eines metrischen Merkmals noch nicht ausreichend. Dazu seien die beiden folgenden Stichproben zweier metrischer Merkmale betrachtet.

Beide Verteilungen besitzen das gleiche arithmetische Mittel x = 5. In der unteren Stichprobe liegen aber die Merkmalsausprägungen dichter beieinander als in der oberen. In der Statistik wird dieser Sachverhalt durch die Formulierung beschrieben, dass die obere Verteilung stärker streut. Eine erste Möglichkeit, diesen Tatbestand numerisch zu erfassen, liefert die folgende Erklärung.

Da die Spannweite nur die extremen Merkmalswerte verwendet und die inneren Werte gar nicht berücksichtigt, ist der Informationsgehalt relativ gering. Eine weitere Möglichkeit zur Beschreibung des noch unklaren Begriffs Streuung ist der Quartilsabstand, der Abstand zwischen dem oberen und dem unteren Quartil.

Immerhin umfasst dieser Bereich im Idealfall 50 % der Merkmalsausprägungen. Der Quartilsabstand wird nicht von extremen Werten beeinflusst. Von Nachteil ist aber, dass für den Quartilsabstand nicht alle Ausprägungen berücksichtigt werden.

Varianz und Standardabweichung

Sollen alle Ausprägungen des metrischen Merkmals berücksichtigt werden, wäre es theoretisch denkbar, alle Abstände zwischen je zwei Ausprägungen zu bilden. Der hierfür nötige Rechenaufwand wäre jedoch unverhältnismäßig groß.

Beschreiben die beobachteten Daten Entfernungen in km zu Kunden eines Produzenten, besitzt die Varianz die Dimension km. Um diesen Nachteil zu beseitigen, wird neben der Varianz die Quadratwurzel aus der Varianz als Streuungsparameter eingeführt.

'u.

2

2

2 2 3 3 4 4

2

Das Symbol m nennt dabei die Anzahl der Trapeze. Es beschreibt gleichzeitig die Anzahl der Zeilen in der später verwendeten erweiterten Arbeitstabelle zur Bestimmung der gesuchten Maßzahl für die Disparität. Wird das Ergebnis für den Inhalt der Fläche A ins Verhältnis zum Inhalt 0, der Fläche A + B gesetzt, ergibt sich die von dem italienischen Statistiker Corrado Gini (1884–1959) eingeführte Maßzahl, der sogenannte Gini-Koeffizient G:

Je näher G an 1 liegt, desto stärker ist die relative Konzentration. Je näher G an 0 liegt, desto geringer ist die Disparität. Da aber für den Gini-Koeffizienten nach der Ausführung zur Gleichung stets

gilt, wird neben dem Gini-Koeffizienten G noch der normierte Gini-Koeffizient G betrachtet. Für ihn wird

festgelegt. Damit gilt für den normierten Gini-Koeffizienten stets

Der Gini-Koeffizient und auch der normierte Gini-Koeffizient sollten nur im Zusammenhang mit dem realen Untersuchungsgegenstand interpretiert werden.

War dieses Dokument hilfreich?

Parameter univariater Häufigkeitsverteilungen

Kurs: Grundlagen der Statistik

19 Dokumente
Studierenden haben 19 Dokumente in diesem Kurs geteilt
War dieses Dokument hilfreich?
P!ameter univ!iater Häufigkeitsverteilungen
Lageparameter
Modus bzw. Modalwert
Der Modus oder Modalwert x ist der
einfachste Lageparameter, der die Lage
eines Datensatzes in knapper Weise
beschreibt. Er ist für nicht klassierte Daten
definiert als die Merkmalsausprägung, die
am ufigsten auftritt bzw. deren relative
Häufigkeit maximal ist. Existieren mehrere
Ausprägungen mit größter absoluter bzw.
relativer Häufigkeit, so gibt es mehrere
Modi. Eine eingipflige
Häufigkeitsverteilung weist danach genau
einen Modus auf.
Der Modus existiert für nominal, ordinal
und kardinal skalierte Daten. Er hat die
Eigenschaft, nicht von Ausreißern und
Extremwerten beeinflusst zu werden. Für
nominal skalierte Daten ist der Modus der
einzig sinnvolle Lageparameter.
Der eindeutige Modus x lautet „CDU“.
Aus einer klassierten Häufigkeitsverteilung
kann der Modus nicht mehr exakt bestimmt
werden. Er lässt sich lediglich
näherungsweise berechnen. Bei klassierten
Daten mit gleicher Gruppenbreite kann als
Näherungswert die Mitte der Klasse mit
größter Häufigkeitsdichte verwendet
werden.
Quantile für metrische Daten
Bei der empirischen Verteilungsfunktion
eines diskreten Merkmals wird jedem
vorgegebenen x-Wert eindeutig ein
F(x)-Wert zugewiesen. Da aber F(x) nicht
streng monoton ist, existiert keine inverse
Funktion zu F(x). Wohl aber lassen sich
zusätzliche Forderungen so formulieren,
dass dadurch eine Umkehrung möglich
wird.
Im Folgenden sei eine Häufigkeitstabelle mit
ungruppierten Daten eines diskreten
Merkmals gegeben. Ist sodann ein Wert p
mit 0 < p < 1 bekannt, sind zwei Fälle
möglich:
• Es existiert in der Häufigkeitstabelle des
betreffenden Datensatzes kein
Merkmalswert x, für den F(x) = p gilt. Hier
tritt p nicht in der Spalte der kumulierten
relativen Häufigkeiten auf.
• Es gibt in der Häufigkeitstabelle eine
Zeile j mit 1 j m, für die F(x ) = p gilt,
was bedeutet, dass p in der Spalte der
kumulierten relativen Häufigkeiten in der
Zeile j auftritt.
Im ersten Fall, in dem der Wert p nicht in
der F -Spalte vorkommt, wird der x-Wert
der Zeile gewählt, für den erstmalig
F(x)>p ist. In der Grafik wird dieser Fall
dadurch erkannt, dass die Parallele zur
x-Achse im Abstand p oberhalb der x-Achse
den Graphen der erweiterten empirischen
Verteilungsfunktion in einer vertikalen
Stufe schneidet. Die Abszisse des
Schnittpunkts nennt den gesuchten x-Wert.
Im zweiten Fall tritt der Wert p in der
F -Spalte auf. Grafisch schneidet die
Parallele zur x-Achse im Abstand p
oberhalb der x-Achse den Graphen der
empirischen Verteilungsfunktion in einer
horizontalen Treppenstufe. Die Abszissen
aller Punkte dieser Treppenstufe kommen
zunächst für eine zusätzliche Forderung zur
Bestimmung eines eindeutigen x-Werts
infrage. Hierbei sind aber zwei
Sachverhalte zu unterscheiden:
a) Das Merkmal X ist diskret und der
zugrunde liegende Sachverhalt erlaubt als
zuordenbare x-Werte nur die aufgeführten
Merkmalswerte. Das bedeutet, dass
Interpolationen zwischen den
Merkmalswerten ausgeschlossen sind.
Hierbei erfüllt lediglich die Abszisse des
ersten Punkts der Treppenstufe die zuvor
genannte Bedingung.
b) Das Merkmal X ist stetig bzw.
quasistetig. In diesem Fall kommen die
Abszissen aller Punkte einer horizontalen
Stufe für die Umkehrung infrage. In der
Literatur wird überwiegend die Abszisse
des Mittelpunkts der Treppenstufe für die
Auswahl und Definition des Begriffs
Quantil gewählt. In Statistikprogrammen
gibt es aber eine Auswahl von bis zu 6
verschiedenen Definitionsmöglichkeiten.
Definition: Es sei eine Häufigkeitstabelle
eines metrischen Merkmals X mit
ungruppierten Daten gegeben. Ferner sei
ein Anteil p bekannt. Dann wird der
nachstehend festgelegte Wert x als
p-Quantil oder Prozentpunkt bezeichnet.
a) Das Merkmal X ist diskret und nur die
vorgegebenen Ausprägungen kommen als
Quantile infrage (keine Interpolation).
1. Fall: Kommt p in der Spalte der
kumulierten relativen Häufigkeiten nicht
vor, heißt die erste Ausprägung x , für die
F > p gilt, p-Quantil. Das p-Quantil wird
durch x symbolisiert.
2. Fall: Kommt p in der Spalte der
kumulierten relativen Häufigkeiten in der
Zeile mit 1 j m vor, heißt x p-Quantil.
Nach dieser Definition besitzt das Quantil,
der Prozentpunkt oder das Perzentil x
näherungsweise die Eigenschaft, dass
mindestens 100•p% der Merkmalswerte
kleiner oder gleich x und mindestens
100•(1-p)% größer oder gleich x sind.
Um das Quantil x aus der Zeichnung
ablesen zu können, wird die Parallele zur
x-Achse im Abstand 0,25 oberhalb der
x-Achse mit dem Graphen der erweiterten
empirischen Verteilungsfunktion zum
Schnitt gebracht. Da eine waagerechte
Stufe getroffen wird, muss vom
Mittelpunkt dieser Stufe das Lot auf die
x-Achse gefällt werden. Die Abszisse des
Schnittpunkts mit der x-Achse liefert
x = 2,5.
Die Parallele zur x-Achse im Abstand 0,75
schneidet den Graphen der erweiterten
empirischen Verteilungsfunktion in einer
vertikalen Treppenstufe. Vom Schnittpunkt
wird das Lot auf die x-Achse gefällt, was
x = 4 ergibt.
Formel für das genäherte Quantil x :
Zur Verdeutlichung der Vorgehensweise
zum Bestimmen von Quantilen bei
klassierten Häufigkeitsverteilungen sei das
folgende Beispiel betrachtet.
In nachstehender Tabelle sind die
Forderungen eines mittelständischen
Unternehmens der Baubranche einer
Kleinstadt zum 31.03. klassiert
festgehalten.
Zu bestimmen
sind die
Quantile bzw.
Prozentpunkte
x , x , x , x ,
x , x und x
Lösung: Zuerst wird die
um die Spalten der
relativen und der
kumulierten relativen
Klassenhäufigkeiten
erweiterte Tabelle
bestimmt.
0.25
\
0.25
0.75
>
]
>
0.05
0.1
0.2
0.25
0.4
0.5
0.75
:
-
u
]
I
i
i
'
]
]