- Informationen
- KI Chat
War dieses Dokument hilfreich?
Parameter univariater Häufigkeitsverteilungen
Kurs: Grundlagen der Statistik
19 Dokumente
Studierenden haben 19 Dokumente in diesem Kurs geteilt
Universität: Hamburger Fern-Hochschule
War dieses Dokument hilfreich?
P!ameter univ!iater Häufigkeitsverteilungen
Lageparameter
Modus bzw. Modalwert
Der Modus oder Modalwert x ist der
einfachste Lageparameter, der die Lage
eines Datensatzes in knapper Weise
beschreibt. Er ist für nicht klassierte Daten
definiert als die Merkmalsausprägung, die
am häufigsten auftritt bzw. deren relative
Häufigkeit maximal ist. Existieren mehrere
Ausprägungen mit größter absoluter bzw.
relativer Häufigkeit, so gibt es mehrere
Modi. Eine eingipflige
Häufigkeitsverteilung weist danach genau
einen Modus auf.
Der Modus existiert für nominal, ordinal
und kardinal skalierte Daten. Er hat die
Eigenschaft, nicht von Ausreißern und
Extremwerten beeinflusst zu werden. Für
nominal skalierte Daten ist der Modus der
einzig sinnvolle Lageparameter.
Der eindeutige Modus x lautet „CDU“.
Aus einer klassierten Häufigkeitsverteilung
kann der Modus nicht mehr exakt bestimmt
werden. Er lässt sich lediglich
näherungsweise berechnen. Bei klassierten
Daten mit gleicher Gruppenbreite kann als
Näherungswert die Mitte der Klasse mit
größter Häufigkeitsdichte verwendet
werden.
Quantile für metrische Daten
Bei der empirischen Verteilungsfunktion
eines diskreten Merkmals wird jedem
vorgegebenen x-Wert eindeutig ein
F(x)-Wert zugewiesen. Da aber F(x) nicht
streng monoton ist, existiert keine inverse
Funktion zu F(x). Wohl aber lassen sich
zusätzliche Forderungen so formulieren,
dass dadurch eine Umkehrung möglich
wird.
Im Folgenden sei eine Häufigkeitstabelle mit
ungruppierten Daten eines diskreten
Merkmals gegeben. Ist sodann ein Wert p
mit 0 < p < 1 bekannt, sind zwei Fälle
möglich:
• Es existiert in der Häufigkeitstabelle des
betreffenden Datensatzes kein
Merkmalswert x, für den F(x) = p gilt. Hier
tritt p nicht in der Spalte der kumulierten
relativen Häufigkeiten auf.
• Es gibt in der Häufigkeitstabelle eine
Zeile j mit 1 ≤ j ≤ m, für die F(x ) = p gilt,
was bedeutet, dass p in der Spalte der
kumulierten relativen Häufigkeiten in der
Zeile j auftritt.
Im ersten Fall, in dem der Wert p nicht in
der F -Spalte vorkommt, wird der x-Wert
der Zeile gewählt, für den erstmalig
F(x)>p ist. In der Grafik wird dieser Fall
dadurch erkannt, dass die Parallele zur
x-Achse im Abstand p oberhalb der x-Achse
den Graphen der erweiterten empirischen
Verteilungsfunktion in einer vertikalen
Stufe schneidet. Die Abszisse des
Schnittpunkts nennt den gesuchten x-Wert.
Im zweiten Fall tritt der Wert p in der
F -Spalte auf. Grafisch schneidet die
Parallele zur x-Achse im Abstand p
oberhalb der x-Achse den Graphen der
empirischen Verteilungsfunktion in einer
horizontalen Treppenstufe. Die Abszissen
aller Punkte dieser Treppenstufe kommen
zunächst für eine zusätzliche Forderung zur
Bestimmung eines eindeutigen x-Werts
infrage. Hierbei sind aber zwei
Sachverhalte zu unterscheiden:
a) Das Merkmal X ist diskret und der
zugrunde liegende Sachverhalt erlaubt als
zuordenbare x-Werte nur die aufgeführten
Merkmalswerte. Das bedeutet, dass
Interpolationen zwischen den
Merkmalswerten ausgeschlossen sind.
Hierbei erfüllt lediglich die Abszisse des
ersten Punkts der Treppenstufe die zuvor
genannte Bedingung.
b) Das Merkmal X ist stetig bzw.
quasistetig. In diesem Fall kommen die
Abszissen aller Punkte einer horizontalen
Stufe für die Umkehrung infrage. In der
Literatur wird überwiegend die Abszisse
des Mittelpunkts der Treppenstufe für die
Auswahl und Definition des Begriffs
Quantil gewählt. In Statistikprogrammen
gibt es aber eine Auswahl von bis zu 6
verschiedenen Definitionsmöglichkeiten.
Definition: Es sei eine Häufigkeitstabelle
eines metrischen Merkmals X mit
ungruppierten Daten gegeben. Ferner sei
ein Anteil p bekannt. Dann wird der
nachstehend festgelegte Wert x als
p-Quantil oder Prozentpunkt bezeichnet.
a) Das Merkmal X ist diskret und nur die
vorgegebenen Ausprägungen kommen als
Quantile infrage (keine Interpolation).
1. Fall: Kommt p in der Spalte der
kumulierten relativen Häufigkeiten nicht
vor, heißt die erste Ausprägung x , für die
F > p gilt, p-Quantil. Das p-Quantil wird
durch x symbolisiert.
2. Fall: Kommt p in der Spalte der
kumulierten relativen Häufigkeiten in der
Zeile mit 1≤ j ≤m vor, heißt x p-Quantil.
Nach dieser Definition besitzt das Quantil,
der Prozentpunkt oder das Perzentil x
näherungsweise die Eigenschaft, dass
mindestens 100•p% der Merkmalswerte
kleiner oder gleich x und mindestens
100•(1-p)% größer oder gleich x sind.
Um das Quantil x aus der Zeichnung
ablesen zu können, wird die Parallele zur
x-Achse im Abstand 0,25 oberhalb der
x-Achse mit dem Graphen der erweiterten
empirischen Verteilungsfunktion zum
Schnitt gebracht. Da eine waagerechte
Stufe getroffen wird, muss vom
Mittelpunkt dieser Stufe das Lot auf die
x-Achse gefällt werden. Die Abszisse des
Schnittpunkts mit der x-Achse liefert
x = 2,5.
Die Parallele zur x-Achse im Abstand 0,75
schneidet den Graphen der erweiterten
empirischen Verteilungsfunktion in einer
vertikalen Treppenstufe. Vom Schnittpunkt
wird das Lot auf die x-Achse gefällt, was
x = 4 ergibt.
Formel für das genäherte Quantil x :
Zur Verdeutlichung der Vorgehensweise
zum Bestimmen von Quantilen bei
klassierten Häufigkeitsverteilungen sei das
folgende Beispiel betrachtet.
In nachstehender Tabelle sind die
Forderungen eines mittelständischen
Unternehmens der Baubranche einer
Kleinstadt zum 31.03. klassiert
festgehalten.
Zu bestimmen
sind die
Quantile bzw.
Prozentpunkte
x , x , x , x ,
x , x und x
Lösung: Zuerst wird die
um die Spalten der
relativen und der
kumulierten relativen
Klassenhäufigkeiten
erweiterte Tabelle
bestimmt.
0.25
\
0.25
0.75
>
]
>
0.05
0.1
0.2
0.25
0.4
0.5
0.75
:
-
u
]
I
i
i
'
]
]