Saltar al documento

Medidas+estad%C3%ADsticas+descriptivas

Asignatura

Metodología de Análisis de Datos Cuantitativos

245 Documentos
Los estudiantes compartieron 245 documentos en este curso
Año académico: 2019/2020
Subido por:
0seguidores
14Subidos
9upvotes

Comentarios

Inicia sesión (Iniciar sesión) o regístrate (Registrarse) para publicar comentarios.

Vista previa del texto

Medidas

estadísticas

descriptivas

Metodología de

análisis de datos

cuantitativos

Medidas estadísticas

descriptivas

En muchas ocasiones necesitamos disponer de una única medida o número que resuma toda la información provista por un conjunto de datos. Este tipo de medida se denomina medida de tendencia central o de posición, e indic a un valor de referencia que da una idea del valor “general” de la variable analizada para todos los datos de interés. La manera en que se comprensa esa idea de “general” dará lugar a la decisión sobre qué medida utilizar.

Antes de seguir, definamos nuevamente los conceptos de población y muestra: la población es el colectivo completo al cual pertenece cada unid ad de estudio. Una muestra es un subconjunto de la població n. En general estamos interesados en las muestras probabilísticas o como las denominamos habitualmente, representativas, que están seleccionadas de manera tal que se conoce previamente la probabilidad de selección de cada individuo.

Media aritmética

El concepto más difundido y de mayor aplicación es la medida denominada media. La media (o promedio) infor ma el valor que se tendría si todos los individuos d el conjunto fueran iguales (extrayendo lo que a algunos les sobra respecto de esa medida de igualdad y agregando lo que les falta a los que se encuentran por debajo de esa media).

Como la fórmula permite ver, se suman todos los valores registrados para todos los integrantes de la población y se divide en tantos c asos como el número que integran la población (N). En el caso de trabajar con datos provenientes de una muestra, se procede de manera análoga y se considerará la siguiente fórmula de cálculo y notación para la media muestral, donde n es el t amaño de la muestra:

El siguiente gráfico esquematiza el concepto de la media de un conjunto de datos.

adelante cómo evaluar si es c ie rto que los datos se p arecen y es conveniente usar la media.

Como alte rnativa (y en algunas circunstancias como complemento para una mejor descripción de un conjunto de datos) al u so de la medi a, se usan otras medidas de posición. Describiremos a continuación las siguientes: la mediana, la moda y los cuantiles (percentiles, deciles, quintiles, cuartiles, etc.).

Moda

La moda es uno de los indicadores más sencillos disponibles. Señala el valor de la variable que se repite más veces. Para determinarla, solo es necesario contar con una tabla de frecuencias. Por ello, es la única medida de tendencia central o de posición que se puede calcular para variables medidas en escala nominal. Veamos algunos ejemplos.

Tabla 2: Cantidad de alumnos en un examen recuperatorio

Sexo Frecuencia Mujer 2 Varón 5 Total 7

Fuente: ela boración propia.

En la tabla anterior observamos que la categoría de la variable que presenta mayor frecuencia es varón, por lo tanto, este valor será la moda. La moda es aplicable a cualquier nivel de medición siempre que sea p osible realiz ar una tabla de frecuencias.

Mediana

La mediana es la medida de posición que mejor refleja la información sintética de un conjunto de datos, si no podemos utilizar la media. La mediana nos indica cuál es el valor de la variable analizada que divide al conjunto de datos (ordenado) en d os partes aproximadamente iguales. Una definición más precisa indica que, la mediana es aquel valor de la variable (observado o no) que deja por debajo de ella a no más de la mitad de las

observaciones y por encima de ella a no más de la mitad de las observaciones.

Los siguientes ejemplos muestran cómo determinar el valor de la mediana para diferentes conjuntos de datos.

En un conjunto pequeño de observaciones, lo que debemos hacer en primer lugar es ordenarlos de menor a mayor:

Conjunto original: {2, 3, 5, 2, 6, 7, 5} Serie ordenada: {2, 2, 3, 4, 5, 7, 7}

Vemos que el valor que cumple todas l as condiciones mencionadas es el 4, ya que no más de la mitad de los datos es menor que este valor, y no más d e la mitad es mayor a este valor.

Como regla general, cuando observamos los datos ordenados, la mediana podrá calcularse en base a las siguientes fórmulas (se debe tener en cuenta si tenemos un número par o impar de datos para ver cómo seleccionar este valor que divide el conjunto de datos en dos partes de aproximadamente la misma cantidad de observaciones). El ejemplo anterior era un caso de un número impar de observaciones:

Veamos el cálculo para el caso de un número par de observaciones. En este caso es evidente que no podrá seleccionarse un número central indiscutido. Por ello, se selecciona como indicativo de la mediana al promedio de los dos números más próximos a la posición central de la serie ordenada de datos.

En la siguiente serie ordenada tenemos (la primera fija indica la posición en la serie ordenada y la segunda el valor de la variable para esa posición).

J 1 2 3 4 5 6 7 8 9 10

Xj 2 3 3,5 5 7 12 18 18 20 25

Con la misma idea, si consideramos los quintiles, tendremos los valores que cortan a la distribución en 5 partes con la misma cantid ad de datos. Si consideramos los deciles, tendremos los valores que dividen a la distribución en 10 p artes, y así sucesivamente. Otra división de gran aplicación cuando el número de observaciones es muy elevado es en 100 partes, aquí los valores que cortan cada sección se denominan percentiles.

Medidas de dispersión

Como mencionamos previamente, estas medidas se utilizan para i ndicar dónde se ubica aproximadamente un conjunto de datos, con una medida única que resuma a todo el conjunto. Para complementar esta información es necesario contar con otro tipo de medidas o indicadores que informen si los datos son parecidos e ntre sí o respecto de la medida de tendencia central considerada. Este tipo de medida se denomina medida de dispersión, ya que informan sobre las diferencias que presentan los valores observados respecto de un de posición.

Una de las medias de dispersión básicas es la varianza. Este indicador se calcula sumando los desvíos al cuadrado de cada observación con respecto a la media. La siguiente fórmula corresponde a la varianza poblacional:

Para el cálculo de la varianza muestral se debe tener en cuenta que el denominador debe corregirse a fin de disponer de un estimador insesgado de la varianza poblacional. Tal ajuste se refle ja en la siguie nte fórmula:

Veamos cómo se calculan estos i ndicadores a través de un ejemplo : comentaremos la manera de calcular la varianza muestral, para una muestra de 8 alumnos, a los cuales se l os evaluó en un examen genérico.

Tabla 3: Calificaciones de alumnos

Alumno de la muestra

Nota obtenida en el examen

Desvío respecto a la media

Desvío al cuadrado 1 5 -1,875 3, 2 7 0,125 0, 3 8 1,125 1, 4 6 -0,875 0, 5 4 -2,875 8, 6 9 2,125 4, 7 10 3,125 9, 8 6 -0,875 0, Total 55 Total 28 , Media: 6,875 Varia nza: 4,

Fuente: ela boración propia.

Como se explicita en el ejemplo anterior, la unidad de medida de la varianza es la misma que la de la variable original, pero elevada al cuadrado. Esto implica una mayor dificultad para interpretar este parámetro. Por ello se suele utilizar más la medida derivada de la varianza denominada desviación estándar que, precisamente, se obtiene tomando la raíz cuadrada de la varianza.

Desviación estándar de la población:

Desviación estándar de la muestra:

¿Ha sido útil este documento?

Medidas+estad%C3%ADsticas+descriptivas

Asignatura: Metodología de Análisis de Datos Cuantitativos

245 Documentos
Los estudiantes compartieron 245 documentos en este curso
¿Ha sido útil este documento?
1
Medidas
estadísticas
descriptivas
Metodología de
análisis de datos
cuantitativos