Saltar al documento

Analisis de correlacion y regresion y Correlación Y Regresión Empleando Excel Y Graph

Correlación Y Regresión Empleando Excel Y GraphCorrelación Y Regresión...
Asignatura

Estadística Matemática

119 Documentos
Los estudiantes compartieron 119 documentos en este curso
Año académico: 2015/2016
Subido por:
Estudiante anónimo
Este documento ha sido subido por otro estudiante como tú quien decidió hacerlo de forma anónima
Universidad Nacional de Ingeniería

Comentarios

Inicia sesión (Iniciar sesión) o regístrate (Registrarse) para publicar comentarios.

Vista previa del texto

Capítulo

Análisis de

correlación y

regresión

Antecedentes Intervalos de confianza Pruebas de hipótesis Funciones lineal, exponencial, potencial, logarítmica, recíproca y polinomial.

Objetivos Proporcionar elementos para

  • Construir e interpretar diagramas de dispersión
  • Calcular e interpretar, en el contexto propio, el coeficiente de correlación r de Pearson
  • Hacer e interpretar inferencias sobre el coeficiente de correlación r de Pearson entre dos variables
  • Calcular e interpretar la recta de regresión por mínimos cuadrados para una muestra de puntos dados
  • Hacer inferencias sobre la estimación y los parámetros de la recta de regresión.
  • Identificar y transformar en lineales las funciones intrínsecamente lineales más comunes.
  • Calcular e interpretar la regresión multilineal.

Introducción En los cursos de geometría, álgebra y otros que el lector haya tomado, generalmente la relación entre las variables es de tipo determinista ; es decir, dado un valor de una de las variables, el valor de la otra variable se determina automáticamente y, podría decirse, sin error. Ejemplos típicos son las fórmulas geométricas y expresiones del tipo C = 400 + 10 k , donde C es el costo de renta de una automóvil y k los kilómetros recorridos. En estadística estamos interesados en relaciones entre variables aleatorias y, por lo tanto, una de las variables no queda determinada por completo por otra u otras variables. Así, expresiones como P = 5 E − 190 que dan la relación entre el peso P de un hombre (en libras) y

Secciones Introducción 13 Correlación lineal. 13 Regresión lineal. 13 Regresión no lineal (funciones intrínsecamente lineales). 13 Regresión multilineal.

13

su estatura E (en pulgadas) para una cierta población, son relaciones estadísticas en donde se espera obtener sólo estimaciones. Las relaciones estadísticas se obtienen mediante una primera fase de exploración conocida como análisis de correlación. Consiste en analizar los datos muestrales para saber el grado de asociación o correlación entre dos o más variables de una población. El grado de correlación se expresa como un número comprendido entre -1 y +1 y se le conoce como coeficiente de correlación. Como corresponde a un estudio exploratorio, el análisis de correlación no es un fin en sí mismo sino que su objetivo es establecer la pertinencia de la segunda fase o análisis de regresión. Este da lugar a una función y = f x )( que describe estadísticamente la asociación o relación entre las variables en estudio y, por tanto, su fin no es calcular sin error sino obtener predicciones del valor de una variable, para un valor dado de la otra variable. Debido a que los cálculos para el coeficiente de correlación y los parámetros que definen la función se basan en una muestra aleatoria, se espera que varíen de una muestra a otra (tal como la media varía de una muestra a otra). Esto plantea preguntas de significancia del coeficiente de correlación, de los parámetros de la función y de los valores de predicción obtenidos con ella. Tales preguntas son respondidas mediante intervalos de confianza y pruebas de hipótesis; esto es, mediante análisis inferencial. Ventana al conocimiento 1 Un disco Secchi es un disco de 8 pulgadas con cuadrantes pintados de blanco y negro alternativamente. Se ata a una cuerda marcada en centímetros. Se sumerge en el agua (de lagos, ríos o mares) hasta no ser visible al observador. La lectura observada en la cuerda es conocida como profundidad Secchi y es una medida de la transparencia del agua. La transparencia del agua se ve afectada por el color, las algas y sedimentos suspendidos. Las algas son pequeñas plantas acuáticas cuya abundancia está asociada a la cantidad de nutrientes, especialmente fósforo y nitrógeno. Los lagos y los ríos se monitorean regularmente, tomando muestras en puntos elegidos aleatoriamente, para establecer la calidad del agua. En cada una de las muestras se determina la profundidad Secchi y algunos parámetros como clorofila a , nitrógeno total , carbón orgánico , fósforo total , sólidos totales suspendidos , conductividad específica y densidad total. Los resultados (variables) así obtenidos son de naturaleza aleatoria.

dipin.kent/images/Secchi%20Disk.jpg

El análisis de regresión puede también dar lugar a una función del tipo y = vzxf ),,( para describir la relación entre varias variables (ver sección 13)

Tabla 13 Contenido de sustancias peligrosas para la salud en cigarrillos. Marca Peso (g)

Alquitrán (mg)

Nicotina (mg)

CO (mg) Alpine 0 14 0 13. Benson&Hedges 1 16 1 16. BullDurham 1 29 2 23. CamelLights 0 8 0 10. Carlton 0 4 0 5. Chesterfield 0 15 1 15. GoldenLights 1 8 0 9. Kent 0 12 0 12. Kool 0 16 1 16. L&M 0 14 1 15. LarkLights 0 13 1 13. Marlboro 0 15 0 14. Merit 0 7 0 10. MultiFilter 1 11 0 10. NewportLights 0 9 0 9. Now 0 1 0 1. OldGold 0 17 1 18. PallMallLight 1 12 1 12. Raleigh 0 15 0 17. SalemUltra 0 4 0 4. Tareyton 1 14 1 15. True 0 7 0 8. ViceroyRichLight 0 8 0 10. VirginiaSlims 0 15 1 13. WinstonLights 1 12 .82 14. Fuente: amstat/publications/jse/jse_data_archive.html Un estudio de correlación empieza seleccionando las variables de interés. Así, si se desea analizar la relación entre los miligramos de alquitrán y los miligramos de CO emitidos por los cigarrillos, puede tomarse los miligramos de alquitrán como la variable predictiva, x y los miligramos de CO como la variable respuesta, y. Ordenando los datos respecto a x y separando las columnas relevantes al estudio del resto de la información, se obtiene la tabla 13.

Tabla 13 Datos ordenados respecto al Alquitrán Marca Alquitrán: x (mg)

CO: y (mg) Now 1 1. Carlton 4 5. SalemUltra 4 4. True 7 8. Merit 7 10 CamelLights 8 10. ViceroyRichLight 8 10. GoldenLights 8 9 NewportLights 9 9. MultiFilter 11 10. WinstonLights 12 14. Kent 12 12. PallMallLight 12 12. LarkLights 13 13 Alpine 14 13. Tareyton 14 15. L&M 14 15. Chesterfield 15 15 Marlboro 15 14. VirginiaSlims 15 13. Raleigh 15 17. Benson&Hedges 16 16. Kool 16 16. OldGold 17 18. BullDurham 29 23. Ordenados los datos, el recorrido simultáneo de las columnas x y y de arriba abajo puede en algunas ocasiones proporcionar información preliminar. En la tabla 13, por ejemplo, se aprecia una relación entre ambas variables que se expresa así:

Debe precisarse, sin embargo, que a diferencia de x , el aumento de y no es estricto; en algunos casos, al pasar de una marca a otra, el CO disminuye para después aumentar. La expresión al aumentar x “aumenta” y describe más bien un patrón de comportamiento global de las parejas en estudio. El siguiente paso consiste en graficar las parejas de datos )( x 1 , y 1 (), x 2 , y 2 ),K(, xn , yn en un

sistema cartesiano, resultando un diagrama de puntos bivariable conocido como diagrama de dispersión. El diagrama de dispersión correspondiente a las parejas de la tabla 13 se da en la figura 13.

Relación observada entre x y y : Al aumentar x “aumenta” y

Un comportamiento global descrito por la expresión al aumentar x “aumenta” y (en lo que resta de esta sección nos referiremos al tipo lineal) suele describirse como una correlación o asociación positiva de y respecto a x (vea figura 13 a ). En caso contrario, esto es, si al aumentar x disminuye globalmente y siguiendo un patrón gráfico lineal (vea figura 13 b ), se dice que hay una correlación o asociación negativa de y respecto a x. Por otro lado, si el diagrama de dispersión es del tipo mostrado en el inciso c ) de la figura 13, el recorrido de izquierda a derecha en el eje x no muestra asociación o relación de ningún tipo entre los valores de x y y ya que, al aumentar x igualmente aumenta y disminuye y. Un diagrama de estas características, es indicativo de que no hay relación (correlación) entre las variables en estudio.

Figura 13 Distintos tipos de correlación o asociación de datos En el caso de variables aleatorias es poco probable tener una correlación lineal perfecta; sin embargo, para fines de análisis, resulta útil e importante considerarla. En los incisos a ) y b ) de la figura 13 se muestra una correlación lineal positiva y una negativa perfectas respectivamente. Como se observa, los puntos están distribuidos a lo largo de líneas rectas.

Figura 13 Correlación lineal po sitiva y negativa perfectas. La “no relación” puede también manejarse mediante una serie de puntos a lo largo de una línea recta horizontal (ver figura 13). El significado algebraico de esto es que y es independiente de x o, en términos estadísticos, que no hay correlación entre x y y.

Figura 13 No asociación Una consideración importante que se desprende de esto es que:

Las descripciones de correlación lineal vistas hasta ahora son de tipo cualitativo. Para avanzar a una descripción cuantitativa se procede a dividir el diagrama de dispersión en cuatro regiones, dibujando líneas paralelas a los ejes por un punto central. El punto central puede ser el de las medianas o el de las medias; en este capítulo se considerará el punto central correspondiente a las medias x y ) ,( , llamado también centroide (en el capítulo 3 del libro

podrá encontrarse un análisis detallado empleando como punto central las medianas ( x ~, y ~)).

Calculando las medias de las columnas x y y de la tabla 13 se obtiene x = .12 216 y y = 12. Colocando el punto central ( 5 ,2 ) en el diagrama de la figura 13 y

trazando paralelas a los ejes por ese punto se llega a la figura 13.

Figura 13 División del diagrama de dispersión en cuatro regiones. Cualquier punto ubicado en la región I o III apoya una correlación positiva; cualquier punto en la región II o IV apoya en cambio una correlación negativa. Tomando en cuenta que se trabaja con muestras de n puntos o datos, puede llamarse n (I) al número de puntos en la región

Las relaciones deterministas vistas en otros cursos, pueden verse como correlaciones perfectas y por tanto como un caso particular de las relaciones estadísticas.

Con el fin de avanzar en el estudio de los coeficientes de correlación se recurre a una situación distinta a la vista pero también en un contexto real. Situación de estudio: maratón Un maratón es una prueba atlética de resistencia con categoría olímpica que consiste en correr a pie la distancia de 42195 metros. Forma parte del programa olímpico en la categoría masculina desde 1896, y en 1984 se incorporó la categoría femenina. Muchas ciudades importantes del mundo organizan anualmente maratones. Uno de los más prestigiados es el de Nueva York. Se listan a continuación los tiempos de los y las ganadoras del Maratón de Nueva York y las temperaturas medias registradas durante el periodo 1978- 1998. Tabla 13 Tiempos de los ganadores del maratón de Nueva York Año T (ºF) t Hombres (min) t Mujeres (min) 1978 75 132 152. 1979 80 131 147. 1980 50 129 145. 1981 54 128 145. 1982 52 129 147. 1983 59 128 147. 1984 79 134 149. 1985 72 131 148. 1986 65 131 148. 1987 64 131 150. 1988 67 128 148. 1989 56 128 145. 1990 73 132 150. 1991 57 129 147. 1992 51 129 144. 1993 73 130 146. 1994 70 131 147. 1995 62 131 148. 1996 49 129 148. 1997 61 128 148. 1998 55 128 145. Fuente: The Effects of Temperature on Marathon Runner ́s Performance de David Martin y John Buoncristiani (Chance, vol. 12, num 4). Resulta plausible considerar que pudiera haber una relación entre las temperaturas (variable predictiva) en que se realiza la prueba y los tiempos de los ganadores (variable respuesta). Para analizar esta hipótesis puede empezarse ordenando los datos de acuerdo a las

Actividad 13 Empleando la expresión 13 demostrar que c = 0 para el caso de una serie de puntos a lo largo de una línea recta horizontal

El origen de la palabra maratón se encuentra en la gesta del soldado griego Filípides, quien en el año 490 a. C. murió de fatiga tras haber corrido unos 40 km desde Maratón hasta Atenas para anunciar la victoria sobre el ejército Persa. En honor a la hazaña de Filípides se creó una competencia con el nombre de "maratón", que fue incluida en los juegos de 1896 de Atenas.

temperaturas. Se omiten los tiempos de los hombres dejando solamente la información relevante al estudio (ver tabla 13). Tabla 13 Tabla ordenada de menor a mayor considerando la temperatura Año T (ºF) t Mujeres (min) 1996 49 148. 1980 50 145. 1992 51 144. 1982 52 147. 1981 54 145. 1998 55 145. 1989 56 145. 1991 57 147. 1983 59 147. 1997 61 148. 1995 62 148. 1987 64 150. 1986 65 148. 1988 67 148. 1994 70 147. 1985 72 148. 1990 73 150. 1993 73 146. 1978 75 152. 1984 79 149. 1979 80 147. Al recorrer simultáneamente las columnas de T y t de arriba abajo, no logra apreciarse una asociación entre las variables. Construyendo el diagrama de dispersión con las temperaturas en el eje horizontal y los tiempos de las ganadoras en el eje vertical, se llega a la figura 13.

Figura 13 Diagrama de dispersión temperatura vs. tiempo

Observe que la temperatura media pueda repetirse en algunas ocasiones ( i. 73 oF) y que, sin embargo, le correspondan tiempos distintos. Esto es común en parejas de datos estadísticos.

correlación de mayor grado que la correlación que guardan los puntos del diagrama del inciso a ).

Figura 13 Correlación positiva débil y fuerte El científico Inglés Karl Pearson desarrolló un coeficiente de correlación que cumple con los requisitos mencionados y es uno de los más ampliamente usados en ingeniería y ciencias. Coeficiente de correlación de Pearson El desarrollo del nuevo coeficiente de correlación puede plantearse asignándole peso a los puntos )( xi , yi en función de su ubicación respecto a las líneas de división que se trazan por el centroide. A medida que el punto ( xi , yi ) se aleja de las líneas, su peso sería mayor (ver figura 13). Después de todo, los puntos cerca de las líneas podrían cambiar de signo fácilmente (recuerde que son valores aleatorios), mientras que los puntos más alejados de las líneas pueden establecer con mayor fuerza la correlación.

Figura 13 Pesos de los puntos del diagrama de dispersión. Para la asignación del peso a un punto ( xi , yi ), se empieza calculando las diferencias xix y yiy (vea figura 13). La magnitud del producto ( xix )( yiy ) da una medida de la cercanía o lejanía de ( xi , yi ) a las líneas de división.

Karl Pearson (Londres 27 de marzo de 1857- Londres, 27 de abril de 1936) fue un prominente científico, matemático, historiador y pensador británico, que estableció la disciplina de la estadística matemática. Desarrolló una intensa investigación sobre la aplicación de los métodos estadísticos en la biología y fue el fundador de la bioestadística.

Los signos de xix y yiy dependen de la región en que se encuentre ( xi , yi ) (vea Tabla

13). El signo del producto ( xix )( yiy ) es positivo para puntos ( xi , yi ) de las regiones I

y III, reforzando la idea de asociación positiva. El signo negativo del producto para puntos de las regiones II y IV haría lo propio con la asociación negativa. Tabla 13 Signos de las diferencias y del producto Diferencias y producto I II III IV xix + + – – yiy + – – + ( xix )( yiy ) + – + – Por tanto, se obtiene un primer acercamiento al coeficiente de correlación buscado, r en adelante, sumando los productos ( xix )( yiy ) correspondiente a los n puntos de la

muestra:

=∑= − −

n i i i

r x x y y 1

####### ( )( )

El resultado es un número real cuyo signo indicaría la preponderancia de los puntos de las regiones I y III o la preponderancia de los puntos de las regiones II y IV y, como se desea, una magnitud indicativa de la fuerza de correlación entre las variables x y y. La suma de los productos, sin embargo, no daría un valor entre -1 y +1, ya que dependería de: a ) La magnitud y unidades de las variables x y y. b ) El número n de puntos de la muestra. Para ver mejor a qué se refiere el inciso a ), se calcula r para los cigarrillos, resultando 617. 0988 mg 2 (se sugiere verificar). La magnitud resultante no sólo no está entre -1 y +1 sino

que además pudo resultar mayor si se hubiesen usado gramos o más pequeña si se hubiesen usado miligramos. Una condición razonable a imponer es que r no dependa de las unidades utilizadas para medir las variables. Lo anterior puede resolverse expresando cada diferencia en términos de desviaciones

estándar: x

i s

xx y y

i s

yy , donde sx y sy son las desviaciones estándar de los valores de x y

de y , respectivamente. Como sx y sy tienen las mismas unidades que sus variables asociadas,

Por último y con el fin de emplear en forma práctica la magnitud de r como un indicador del grado de correlación o asociación entre las variables, se da la tabla 13. Tabla 13 Correlación lineal entre dos variables Valores de r Tipo y grado de correlación

  • 1 Negativa perfecta − 1 < r ≤− 8 Negativa fuerte − 8 < r <− 5 Negativa moderada − 5 ≤ r < 0 Negativa débil 0 No existe 0 < r ≤ 5 Positiva débil 5 < r < 8 Positiva moderada 8 ≤ r < 1 Positiva fuerte 1 Positiva perfecta

Se dan a continuación las propiedades de coeficiente de correlación r.

La demostración de la propiedad del inciso c ) queda fuera de los objetivos del libro. La propiedad de simetría del inciso d ) se discute en la actividad 13.

Propiedades del coeficiente de correlación r de Pearson. a ). El valor de r es independiente de las unidades en que se midan x y y. b ). r = 1 si y sólo si todos los pares de puntos de la muestra están en una recta con pendiente positiva y r =− 1 si y sólo si todos los pares de puntos de la muestra están en una recta con pendiente negativa. c ). El rango de valores de r está dado por el intervalo − 1 ≤ r ≤ 1. d ). Simetría: El valor de r no depende de cuál de las dos variables bajo estudio se designe como x y cuál como y. e ). r mide la fuerza de una relación lineal. No está diseñado para medir la fuerza de una relación que no sea lineal

Ejemplo 13 Demostrar que el coeficiente de correlación de Pearson toma los valores extremos de +1 y − 1 en los casos de correlación lineal positiva y negativa perfectas, respectivamente. Solución. Para llevar a cabo la demostración primero se sustituye en la expresión 13 a sx por

− ∑= −

n n i 1 xi x ( ) 2 1

1 y a sy por ∑

− = −

n n i 1 yi y ( ) 2 1

1 :

∑ ∑

= =

= − − − −

− − = − n i i

n i i

n i i i n x x n y y

x x y y r n 1

2 1

2

1 11 ( ) 11 ( )

( )( ) 1

1

Simplificando:

∑ ∑

= =

= − −

− − = n i i

n i i

n i i i x x y y

x x y y r 1

2 1

2

1 ( ) ( )

( )( )

Luego se considera el hecho de que en la asociación perfecta positiva y negativa todos los puntos quedan en una línea recta y = mx + b. De la misma forma el punto central yx ),( queda sobre esa línea recta (ver problema 13), por lo que y = xm + b. Sustituyendo en la expresión simplificada de r a yi por mxi + b y a y por xm + b y reduciendo se obtiene:

2 1

2 2

1

2

( )

( ) m

m m x x

m x x r n i i

n i i = −

=

=

Como m 2 = m , r += 1 si m es negativa y r =− 1 si m es positiva, quedando con esto la demostración terminada.

Ejemplo 13 Resolver el ejemplo 13 empleando el programa 13 del libro. Solución a ) Al iniciar el programa 13 se verá la siguiente interfase (se muestra sólo la parte relevante):

Al hacer clic en el botón Leer Datos con la opción Archivo activada, se abrirá una ventana que le permitirá navegar en su computadora para seleccionar el archivo de interés. Seleccione el archivo Cigarrillos. Si el archivo no está disponible, cree usted los datos con la opción Teclado y guárdelo para usos posteriores (para el lector interesado, al final del capítulo se dan indicaciones de cómo crear un archivo). Una vez que se ha leído el archivo se verá la interfase de la siguiente manera:

Al hacer clic en el botón Lineal , el programa elabora el diagrama de dispersión y calcula el coeficiente de correlación entre otros aspectos del análisis de correlación y regresión.

La información adicional así como las múltiples opciones restantes que el programa 13 muestra serán utilizadas más adelante. Se deja al lector el inciso b. Ejemplo 13 La disminución de la transparencia del agua en Grand Lake, Colorado, motivó un estudio para establecer estadísticamente cuáles de varios parámetros muestran una correlación fuerte con la profundidad Secchi (ver ventana al conocimiento 1). El objetivo del estudio era establecer cuáles de los parámetros contribuían mayormente a la reducción de la transparencia. Se da a continuación los valores muestrales de parejas correspondientes a la profundidad Secchi (variable predictiva x ) en metros y la cantidad de fósforo total (variable respuesta y ) correspondiente (cdphe.state.co/op/wqcc/WQClassandStandards/Regs33- 37/33_37RMH2008/ProponentsPHS/33_37phsNWCCOGGrandCoEx3). xi yi xi yi xi yi 2 0 2 0 3 0. 2 0 3 0 3 0. 2 0 3 0 3 0. 2 0 3 0 3 0. 2 0 3 0 4 0. 2 0 3 0 4 0. 2 0 3 0 4 0. 2 0 3 0 4 0. 2 0 3 0 5 0. 2 0 3 0 5 0. 2 0 3 0 5 0. 2 0 3 0. a ) Construir un diagrama de dispersión, calcular el centroide y trazar las líneas de división de modo que quede dividido en cuatro regiones. b ) Calcular el coeficiente de correlación r de Pearson y de acuerdo a la tabla 13, establecer el tipo y grado de correlación entre las variables

¿Ha sido útil este documento?

Analisis de correlacion y regresion y Correlación Y Regresión Empleando Excel Y Graph

Asignatura: Estadística Matemática

119 Documentos
Los estudiantes compartieron 119 documentos en este curso
¿Ha sido útil este documento?
1
Capítulo
Análisis de
correlación y
regresión
Antecedentes
Intervalos de confianza
Pruebas de hipótesis
Funciones lineal, exponencial, potencial, logarítmica, recíproca y polinomial.
Objetivos
Proporcionar elementos para
Construir e interpretar diagramas de dispersión
Calcular e interpretar, en el contexto propio, el coeficiente de correlación r de Pearson
Hacer e interpretar inferencias sobre el coeficiente de correlación r de Pearson entre dos
variables
Calcular e interpretar la recta de regresión por mínimos cuadrados para una muestra de
puntos dados
Hacer inferencias sobre la estimación y los parámetros de la recta de regresión.
Identificar y transformar en lineales las funciones intrínsecamente lineales más comunes.
Calcular e interpretar la regresión multilineal.
Introducción
En los cursos de geometría, álgebra y otros que el lector haya tomado, generalmente la
relación entre las variables es de tipo determinista; es decir, dado un valor de una de las
variables, el valor de la otra variable se determina automáticamente y, podría decirse, sin
error. Ejemplos típicos son las fórmulas geométricas y expresiones del tipo kC 10.0400
+
=,
donde C es el costo de renta de una automóvil y k los kilómetros recorridos.
En estadística estamos interesados en relaciones entre variables aleatorias y, por lo tanto,
una de las variables no queda determinada por completo por otra u otras variables. Así,
expresiones como 1905 =EP que dan la relación entre el peso P de un hombre (en libras) y
Secciones
Introducción
13.1 Correlación lineal.
13.2 Regresión lineal.
13.3 Regresión no lineal (funciones
intrínsecamente lineales).
13.4 Regresión multilineal.
13