Informationen
KI Chat

Parameter univariater Häufigkeitsverteilungen

Lageparameter, Streuungsparameter für metrische Daten, Relative Konzentration

Kurs

Grundlagen der Statistik

19 Dokumente

Studierenden haben 19 Dokumente in diesem Kurs geteilt

Universität

Hamburger Fern-Hochschule

Akademisches Jahr: 2021/2022

Hochgeladen von:

Franzis Rzeha

Hamburger Fern-Hochschule

94Uploads

91upvotes

Kommentare

Bitte logge dich ein oder registriere dich, um Kommentare zu posten.

Was Studierende auch interessant finden

Text Vorschau

P!ameter univ!iater Häufigkeitsverteilungen

Lageparameter

Modus bzw. Modalwert

Der Modus oder Modalwert x ist der einfachste Lageparameter, der die Lage eines Datensatzes in knapper Weise beschreibt. Er ist für nicht klassierte Daten definiert als die Merkmalsausprägung, die am häufigsten auftritt bzw. deren relative Häufigkeit maximal ist. Existieren mehrere Ausprägungen mit größter absoluter bzw. relativer Häufigkeit, so gibt es mehrere Modi. Eine eingipflige Häufigkeitsverteilung weist danach genau einen Modus auf. Der Modus existiert für nominal, ordinal und kardinal skalierte Daten. Er hat die Eigenschaft, nicht von Ausreißern und Extremwerten beeinflusst zu werden. Für nominal skalierte Daten ist der Modus der einzig sinnvolle Lageparameter.

Der eindeutige Modus x lautet „CDU“. Aus einer klassierten Häufigkeitsverteilung kann der Modus nicht mehr exakt bestimmt werden. Er lässt sich lediglich näherungsweise berechnen. Bei klassierten Daten mit gleicher Gruppenbreite kann als Näherungswert die Mitte der Klasse mit größter Häufigkeitsdichte verwendet werden.

Quantile für metrische Daten

Bei der empirischen Verteilungsfunktion eines diskreten Merkmals wird jedem vorgegebenen x-Wert eindeutig ein F(x)-Wert zugewiesen. Da aber F(x) nicht streng monoton ist, existiert keine inverse Funktion zu F(x). Wohl aber lassen sich zusätzliche Forderungen so formulieren, dass dadurch eine Umkehrung möglich wird. Im Folgenden sei eine Häufigkeitstabelle mit ungruppierten Daten eines diskreten Merkmals gegeben. Ist sodann ein Wert p mit 0 < p < 1 bekannt, sind zwei Fälle möglich:

Es existiert in der Häufigkeitstabelle des betreffenden Datensatzes kein Merkmalswert x, für den F(x) = p gilt. Hier tritt p nicht in der Spalte der kumulierten relativen Häufigkeiten auf.
Es gibt in der Häufigkeitstabelle eine Zeile j mit 1 ≤ j ≤ m, für die F(x ) = p gilt, was bedeutet, dass p in der Spalte der kumulierten relativen Häufigkeiten in der Zeile j auftritt.

Im ersten Fall, in dem der Wert p nicht in der F -Spalte vorkommt, wird der x-Wert der Zeile gewählt, für den erstmalig F(x)>p ist. In der Grafik wird dieser Fall dadurch erkannt, dass die Parallele zur x-Achse im Abstand p oberhalb der x-Achse den Graphen der erweiterten empirischen Verteilungsfunktion in einer vertikalen Stufe schneidet. Die Abszisse des Schnittpunkts nennt den gesuchten x-Wert. Im zweiten Fall tritt der Wert p in der F -Spalte auf. Grafisch schneidet die Parallele zur x-Achse im Abstand p oberhalb der x-Achse den Graphen der empirischen Verteilungsfunktion in einer horizontalen Treppenstufe. Die Abszissen aller Punkte dieser Treppenstufe kommen zunächst für eine zusätzliche Forderung zur Bestimmung eines eindeutigen x-Werts infrage. Hierbei sind aber zwei Sachverhalte zu unterscheiden: a) Das Merkmal X ist diskret und der zugrunde liegende Sachverhalt erlaubt als zuordenbare x-Werte nur die aufgeführten Merkmalswerte. Das bedeutet, dass Interpolationen zwischen den Merkmalswerten ausgeschlossen sind. Hierbei erfüllt lediglich die Abszisse des ersten Punkts der Treppenstufe die zuvor genannte Bedingung. b) Das Merkmal X ist stetig bzw. quasistetig. In diesem Fall kommen die Abszissen aller Punkte einer horizontalen Stufe für die Umkehrung infrage. In der Literatur wird überwiegend die Abszisse des Mittelpunkts der Treppenstufe für die Auswahl und Definition des Begriffs Quantil gewählt. In Statistikprogrammen gibt es aber eine Auswahl von bis zu 6 verschiedenen Definitionsmöglichkeiten. Definition: Es sei eine Häufigkeitstabelle eines metrischen Merkmals X mit ungruppierten Daten gegeben. Ferner sei ein Anteil p bekannt. Dann wird der nachstehend festgelegte Wert x als p-Quantil oder Prozentpunkt bezeichnet. a) Das Merkmal X ist diskret und nur die vorgegebenen Ausprägungen kommen als Quantile infrage (keine Interpolation).

Fall: Kommt p in der Spalte der kumulierten relativen Häufigkeiten nicht vor, heißt die erste Ausprägung x , für die F > p gilt, p-Quantil. Das p-Quantil wird durch x symbolisiert.
Fall: Kommt p in der Spalte der kumulierten relativen Häufigkeiten in der Zeile mit 1≤ j ≤m vor, heißt x p-Quantil. Nach dieser Definition besitzt das Quantil, der Prozentpunkt oder das Perzentil x näherungsweise die Eigenschaft, dass mindestens 100•p% der Merkmalswerte kleiner oder gleich x und mindestens 100•(1-p)% größer oder gleich x sind.

Um das Quantil x aus der Zeichnung ablesen zu können, wird die Parallele zur x-Achse im Abstand 0,25 oberhalb der x-Achse mit dem Graphen der erweiterten empirischen Verteilungsfunktion zum Schnitt gebracht. Da eine waagerechte Stufe getroffen wird, muss vom Mittelpunkt dieser Stufe das Lot auf die x-Achse gefällt werden. Die Abszisse des Schnittpunkts mit der x-Achse liefert x = 2,5. Die Parallele zur x-Achse im Abstand 0, schneidet den Graphen der erweiterten empirischen Verteilungsfunktion in einer vertikalen Treppenstufe. Vom Schnittpunkt wird das Lot auf die x-Achse gefällt, was x = 4 ergibt. Formel für das genäherte Quantil x :

Zur Verdeutlichung der Vorgehensweise zum Bestimmen von Quantilen bei klassierten Häufigkeitsverteilungen sei das folgende Beispiel betrachtet. In nachstehender Tabelle sind die Forderungen eines mittelständischen Unternehmens der Baubranche einer Kleinstadt zum 31. klassiert festgehalten.

Zu bestimmen sind die Quantile bzw. Prozentpunkte x , x , x , x , x , x und x

Lösung: Zuerst wird die um die Spalten der relativen und der kumulierten relativen Klassenhäufigkeiten erweiterte Tabelle bestimmt.

]

> 0 0 0 0. 0 0 0.

: u ]

I i

i '

] ]

Arithmetisches Mittel und

getrimmtes arithmetisches Mittel

Die wichtigste Maßzahl für die Lage der beobachteten Merkmalswerte ist das arithmetische Mittel x.

Sind beispielhaft die Merkmalswerte 3, 3, 3, 5, 6, 6, 6, 6, 10, 10, 10, 10 gegeben, gilt danach x = • (3+3+3+5+6+6+6+6+10+10+10+10) = 6, Da die Ausprägung 3 dreimal, die Ausprägungen 6 und 10 je viermal auftreten, lässt sich das arithmetische Mittel einfacher durch x = •(3•3+5•1+6•4+10•4) = 6, bestimmen. Dabei werden aus den 12 Merkmalswerten die m = 4 verschiedenen Merkmalsausprägungen x = 3 mit h = 3, x = 5 mit h = 1, x = 6 mit h = 4 und x = 10 mit h = 4. Die Verallgemeinerung führt zu dem nachstehenden Satz.

Damit wird die Merkmalssumme gleichmäßig auf alle n Merkmalsträger verteilt. Von Nachteil ist, dass das arithmetische Mittel im Gegensatz zum Median von Extremwerten stark beeinflusst wird. So besitzen die Werte 1, 2, 3 das arithmetische Mittel 2. Kommt ein extremer Wert wie 100 dazu, wird das arithmetische Mittel bereits 26,5. Aus diesem Anlass bieten einige Statistikprogramme neben dem arithmetischen Mittel x ein getrimmtes arithmetisches Mittel an. Dabei werden gewisse extreme Daten auf beiden Seiten der aufsteigend sortierten Werte einfach weggelassen und aus den verbleibenden Daten das für diese zuständige arithmetische Mittel gebildet. Genau gilt diese Aussage nur, falls 100 • n • p ganzzahlig ist, wobei p den wegzulassenden Prozentsatz beschreibt.

Liegen für das metrische Merkmal X die Ausprägungen nur in klassierter Form vor, ist ein exakter Wert für das arithmetische Mittel nicht möglich. Um einen Näherungswert für das wahre arithmetische Mittel zu gewinnen, werden alle Daten einer Klasse durch die Klassenmitte repräsentiert. Dabei wird die Klassenmitte der i-ten Klasse [x ,x [ nach der nachfolgenden Formel bestimmt:

Geometrisches Mittel

Nun sollen Daten betrachtet werden, die sich auf unterschiedliche Zeitpunkte beziehen. Derartige Daten werden als Längsschnittsdaten bezeichnet. Einführend sei ein Maschinenbauunternehmen betrachtet, dessen Jahresumsatzentwicklung in Millionen Euro für die Jahre 2005 bis 2009 in nachstehender Grafik festgehalten worden ist.

Die Größe 1,04 heißt Wachstumsfaktor, die prozentuale Veränderung q = 4% Wachstumsrate.

Festzuhalten ist: x = 1 + q bzw. Wachstumsfaktor = 1 + Wachstumsrate. Die Wachstumsrate kann demnach negativ, null oder positiv sein.

Die Verallgemeinerung der vorherigen Betrachtung führt zur allgemeinen Definition des geometrischen Mittels.

Streuungsparameter für metrische

Daten

Spannweite und Quartilsabstand

Lageparameter allein beschreiben die Häufigkeitsverteilung eines metrischen Merkmals noch nicht ausreichend. Dazu seien die beiden folgenden Stichproben zweier metrischer Merkmale betrachtet.

Beide Verteilungen besitzen das gleiche arithmetische Mittel x = 5. In der unteren Stichprobe liegen aber die Merkmalsausprägungen dichter beieinander als in der oberen. In der Statistik wird dieser Sachverhalt durch die Formulierung beschrieben, dass die obere Verteilung stärker streut. Eine erste Möglichkeit, diesen Tatbestand numerisch zu erfassen, liefert die folgende Erklärung.

Da die Spannweite nur die extremen Merkmalswerte verwendet und die inneren Werte gar nicht berücksichtigt, ist der Informationsgehalt relativ gering. Eine weitere Möglichkeit zur Beschreibung des noch unklaren Begriffs Streuung ist der Quartilsabstand, der Abstand zwischen dem oberen und dem unteren Quartil.

Immerhin umfasst dieser Bereich im Idealfall 50 % der Merkmalsausprägungen. Der Quartilsabstand wird nicht von extremen Werten beeinflusst. Von Nachteil ist aber, dass für den Quartilsabstand nicht alle Ausprägungen berücksichtigt werden.

Varianz und Standardabweichung

Sollen alle Ausprägungen des metrischen Merkmals berücksichtigt werden, wäre es theoretisch denkbar, alle Abstände zwischen je zwei Ausprägungen zu bilden. Der hierfür nötige Rechenaufwand wäre jedoch unverhältnismäßig groß.

Beschreiben die beobachteten Daten Entfernungen in km zu Kunden eines Produzenten, besitzt die Varianz die Dimension km. Um diesen Nachteil zu beseitigen, wird neben der Varianz die Quadratwurzel aus der Varianz als Streuungsparameter eingeführt.

'u.

2 2 3 3 4 4

Das Symbol m nennt dabei die Anzahl der Trapeze. Es beschreibt gleichzeitig die Anzahl der Zeilen in der später verwendeten erweiterten Arbeitstabelle zur Bestimmung der gesuchten Maßzahl für die Disparität. Wird das Ergebnis für den Inhalt der Fläche A ins Verhältnis zum Inhalt 0, der Fläche A + B gesetzt, ergibt sich die von dem italienischen Statistiker Corrado Gini (1884–1959) eingeführte Maßzahl, der sogenannte Gini-Koeffizient G:

Je näher G an 1 liegt, desto stärker ist die relative Konzentration. Je näher G an 0 liegt, desto geringer ist die Disparität. Da aber für den Gini-Koeffizienten nach der Ausführung zur Gleichung stets

gilt, wird neben dem Gini-Koeffizienten G noch der normierte Gini-Koeffizient G betrachtet. Für ihn wird

festgelegt. Damit gilt für den normierten Gini-Koeffizienten stets

Der Gini-Koeffizient und auch der normierte Gini-Koeffizient sollten nur im Zusammenhang mit dem realen Untersuchungsgegenstand interpretiert werden.

War dieses Dokument hilfreich?

Parameter univariater Häufigkeitsverteilungen

Kurs: Grundlagen der Statistik

19 Dokumente

Studierenden haben 19 Dokumente in diesem Kurs geteilt

Universität: Hamburger Fern-Hochschule

War dieses Dokument hilfreich?

P!ameter univ!iater Häufigkeitsverteilungen

Lageparameter

Modus bzw. Modalwert

Der Modus oder Modalwert x ist der

einfachste Lageparameter, der die Lage

eines Datensatzes in knapper Weise

beschreibt. Er ist für nicht klassierte Daten

definiert als die Merkmalsausprägung, die

am häufigsten auftritt bzw. deren relative

Häufigkeit maximal ist. Existieren mehrere

Ausprägungen mit größter absoluter bzw.

relativer Häufigkeit, so gibt es mehrere

Modi. Eine eingipflige

Häufigkeitsverteilung weist danach genau

einen Modus auf.

Der Modus existiert für nominal, ordinal

und kardinal skalierte Daten. Er hat die

Eigenschaft, nicht von Ausreißern und

Extremwerten beeinflusst zu werden. Für

nominal skalierte Daten ist der Modus der

einzig sinnvolle Lageparameter.

Der eindeutige Modus x lautet „CDU“.

Aus einer klassierten Häufigkeitsverteilung

kann der Modus nicht mehr exakt bestimmt

werden. Er lässt sich lediglich

näherungsweise berechnen. Bei klassierten

Daten mit gleicher Gruppenbreite kann als

Näherungswert die Mitte der Klasse mit

größter Häufigkeitsdichte verwendet

werden.

Quantile für metrische Daten

Bei der empirischen Verteilungsfunktion

eines diskreten Merkmals wird jedem

vorgegebenen x-Wert eindeutig ein

F(x)-Wert zugewiesen. Da aber F(x) nicht

streng monoton ist, existiert keine inverse

Funktion zu F(x). Wohl aber lassen sich

zusätzliche Forderungen so formulieren,

dass dadurch eine Umkehrung möglich

wird.

Im Folgenden sei eine Häufigkeitstabelle mit

ungruppierten Daten eines diskreten

Merkmals gegeben. Ist sodann ein Wert p

mit 0 < p < 1 bekannt, sind zwei Fälle

möglich:

• Es existiert in der Häufigkeitstabelle des

betreffenden Datensatzes kein

Merkmalswert x, für den F(x) = p gilt. Hier

tritt p nicht in der Spalte der kumulierten

relativen Häufigkeiten auf.

• Es gibt in der Häufigkeitstabelle eine

Zeile j mit 1 ≤ j ≤ m, für die F(x ) = p gilt,

was bedeutet, dass p in der Spalte der

kumulierten relativen Häufigkeiten in der

Zeile j auftritt.

Im ersten Fall, in dem der Wert p nicht in

der F -Spalte vorkommt, wird der x-Wert

der Zeile gewählt, für den erstmalig

F(x)>p ist. In der Grafik wird dieser Fall

dadurch erkannt, dass die Parallele zur

x-Achse im Abstand p oberhalb der x-Achse

den Graphen der erweiterten empirischen

Verteilungsfunktion in einer vertikalen

Stufe schneidet. Die Abszisse des

Schnittpunkts nennt den gesuchten x-Wert.

Im zweiten Fall tritt der Wert p in der

F -Spalte auf. Grafisch schneidet die

Parallele zur x-Achse im Abstand p

oberhalb der x-Achse den Graphen der

empirischen Verteilungsfunktion in einer

horizontalen Treppenstufe. Die Abszissen

aller Punkte dieser Treppenstufe kommen

zunächst für eine zusätzliche Forderung zur

Bestimmung eines eindeutigen x-Werts

infrage. Hierbei sind aber zwei

Sachverhalte zu unterscheiden:

a) Das Merkmal X ist diskret und der

zugrunde liegende Sachverhalt erlaubt als

zuordenbare x-Werte nur die aufgeführten

Merkmalswerte. Das bedeutet, dass

Interpolationen zwischen den

Merkmalswerten ausgeschlossen sind.

Hierbei erfüllt lediglich die Abszisse des

ersten Punkts der Treppenstufe die zuvor

genannte Bedingung.

b) Das Merkmal X ist stetig bzw.

quasistetig. In diesem Fall kommen die

Abszissen aller Punkte einer horizontalen

Stufe für die Umkehrung infrage. In der

Literatur wird überwiegend die Abszisse

des Mittelpunkts der Treppenstufe für die

Auswahl und Definition des Begriffs

Quantil gewählt. In Statistikprogrammen

gibt es aber eine Auswahl von bis zu 6

verschiedenen Definitionsmöglichkeiten.

Definition: Es sei eine Häufigkeitstabelle

eines metrischen Merkmals X mit

ungruppierten Daten gegeben. Ferner sei

ein Anteil p bekannt. Dann wird der

nachstehend festgelegte Wert x als

p-Quantil oder Prozentpunkt bezeichnet.

a) Das Merkmal X ist diskret und nur die

vorgegebenen Ausprägungen kommen als

Quantile infrage (keine Interpolation).

1. Fall: Kommt p in der Spalte der

kumulierten relativen Häufigkeiten nicht

vor, heißt die erste Ausprägung x , für die

F > p gilt, p-Quantil. Das p-Quantil wird

durch x symbolisiert.

2. Fall: Kommt p in der Spalte der

kumulierten relativen Häufigkeiten in der

Zeile mit 1≤ j ≤m vor, heißt x p-Quantil.

Nach dieser Definition besitzt das Quantil,

der Prozentpunkt oder das Perzentil x

näherungsweise die Eigenschaft, dass

mindestens 100•p% der Merkmalswerte

kleiner oder gleich x und mindestens

100•(1-p)% größer oder gleich x sind.

Um das Quantil x aus der Zeichnung

ablesen zu können, wird die Parallele zur

x-Achse im Abstand 0,25 oberhalb der

x-Achse mit dem Graphen der erweiterten

empirischen Verteilungsfunktion zum

Schnitt gebracht. Da eine waagerechte

Stufe getroffen wird, muss vom

Mittelpunkt dieser Stufe das Lot auf die

x-Achse gefällt werden. Die Abszisse des

Schnittpunkts mit der x-Achse liefert

x = 2,5.

Die Parallele zur x-Achse im Abstand 0,75

schneidet den Graphen der erweiterten

empirischen Verteilungsfunktion in einer

vertikalen Treppenstufe. Vom Schnittpunkt

wird das Lot auf die x-Achse gefällt, was

x = 4 ergibt.

Formel für das genäherte Quantil x :

Zur Verdeutlichung der Vorgehensweise

zum Bestimmen von Quantilen bei

klassierten Häufigkeitsverteilungen sei das

folgende Beispiel betrachtet.

In nachstehender Tabelle sind die

Forderungen eines mittelständischen

Unternehmens der Baubranche einer

Kleinstadt zum 31.03. klassiert

festgehalten.

Zu bestimmen

sind die

Quantile bzw.

Prozentpunkte

x , x , x , x ,

x , x und x

Lösung: Zuerst wird die

um die Spalten der

relativen und der

kumulierten relativen

Klassenhäufigkeiten

erweiterte Tabelle

bestimmt.

0.25

0.75

]

0.05

0.1

0.2

0.25

0.4

0.5

0.75

]

Parameter univariater Häufigkeitsverteilungen

Grundlagen der Statistik

Hamburger Fern-Hochschule

Empfohlen für dich

Kommentare

Was Studierende auch interessant finden

Ähnliche Dokumente

Ähnliche Studylists

Text Vorschau

P!ameter univ!iater Häufigkeitsverteilungen

Lageparameter

Modus bzw. Modalwert

Quantile für metrische Daten

Arithmetisches Mittel und

getrimmtes arithmetisches Mittel

Geometrisches Mittel

Streuungsparameter für metrische

Daten

Spannweite und Quartilsabstand

Varianz und Standardabweichung

Parameter univariater Häufigkeitsverteilungen

Kurs: Grundlagen der Statistik

Universität: Hamburger Fern-Hochschule

Empfohlen für dich

Was Studierende auch interessant finden

Ähnliche Dokumente