Tema 7: REGRESIÓN LINEAL SIMPLE

1. En el Tema anterior hemos hecho una introducción a la Regresión. Era importante hacerlo porque así hemos trazado un mapa general de un mundo realmente complejo.

2. No se trata de desanimarse por la visualización del esquema complejo de fórmulas con el que acaba el tema. Iremos focalizando, en su momento, en los tipos más usuales de Regresión y el haber hecho este dibujo introductorio nos ayudará a situar las cosas, con mayor sentido, en el dibujo global del mundo de la Regresión.

3. Vamos a ver, en este Tema, la primera de estas focalizaciones al mapa de las Regresiones. Vamos a ver la Regresión más básica, la Regresión univariante, lineal y simple.

4. En la Introducción ya hemos hablado un poco de este tipo de Regresión, puesto que ya la hemos utilizado para poder situar conceptos generales y verlos en un caso relativamente sencillo y accesible para el que se inicia en este complejo mundo de la matematización de la relación entre variables:

5. La Regresión univariante, lineal y simple suele nombrarse como Regresión simple lineal o Regresión lineal simple o, muchas veces, simplemente como Regresión lineal o Regresión simple.

6. En Regresión las opciones por defecto siempre son las más básicas: univariante, lineal y simple. Las otras opciones deben marcarse, cuando aparecen. Por eso a la Regresión univariante lineal simple se la suele denominar Regresión lineal o de Regresión simple, a secas. Se trata de la Regresión que construye una recta para modelizar la relación que hay entre dos variables.

7. La Regresión lineal simple es la más básica pero también la más usual. Es aplicada en todos los ámbitos del conocimiento.

8. La ecuación de la Regresión lineal simple es: y=ax+b+ɛ. Como puede apreciarse cinco letras distintas: “y”, “a”, “x”, “b” y “ɛ”. Ya sabemos qué representan la “y”, la “x” y la “ɛ”.

9. Nos falta explicar la “a” y la “b”. La “a” y la “b” son los llamados “parámetros de la recta”. Toda recta tiene la fórmula y=ax+b.

10. Tanto la “a” como la “b” pueden ser cualquier número real. Cada pareja de números diferentes define una recta distinta.

11. A la “a” se le denomina pendiente de la recta. Si es positiva, de izquierda a derecha la recta asciende. Si es negativa, desciende.

12. A la “b” se le denomina “Ordenada en el origen”. Y representa el valor de la “y” cuando la “x” vale cero.

13. Al eje de la “y” se le suele llamar eje de las ordenadas y al de la “x” eje de las abscisas. Al punto x=0 se le denomina origen.

14. Por eso a la “b” se le llama “Ordenada en el origen”, porque es el valor de la “y” (de las ordenadas) cuando la “x” es cero (en el origen).

15. Si tenemos valores de dos variables y tenemos una representación bidimensional el problema será encontrar la recta que mejor se adapte a esa representación.

16. Esto se hace mediante la llamada Técnica de los mínimos cuadrados.

17. Mediante esta técnica se busca la recta que minimice, que haga mínimas, las distancias al cuadrado calculadas desde cada uno de los puntos hasta la recta.

18. Así es cómo cualquier software estadístico, o cualquier máquina de calcular con opción de Estadística, estima la recta de Regresión.

19. La recta de los mínimos cuadrados es la recta que mejor se adapta a los valores de dos variables que dibujan sobre el plano una nube de puntos para los cuales una recta es un buen modelo.

20. Los residuos calculados punto por punto respecto a la recta de mínimos cuadrados permiten estimar la DE de la distribución N(0, DE) de la “ɛ” del modelo de Regresión.

21. Vamos a plantear unos datos reales con los que poder ver todo lo visto hasta ahora.

22. Ejemplo de correlación y de regresión: Tenemos diez alumnos con sus notas de matemáticas y de física. Las notas son las siguientes (cada paréntesis recoge las notas de un alumno, la primera nota es la de matemáticas y la segunda es la de física):

(7, 8), (2, 4), (8, 8), (6, 7), (5, 6), (8, 9), (9, 9), (1, 3), (2, 3), (3, 4)

La correlación de Pearson es r=0,98 y su p-valor es menor que p=0,0001, lo que significa que se trata de una correlación significativa, positiva y de alta magnitud.

Vamos a hacer una regresión lineal a través del modelo y=ax+b+ɛ, donde la y es la nota de física y la x la nota de matemáticas. Esto nos puede interesar, por ejemplo, si somos profesores de física y queremos algún día pronosticar las notas que tendrán de física nuestros alumnos sabiendo las notas que han obtenido previamente de matemáticas.

Si aplicamos a estos datos la técnica de los mínimos cuadrados vemos que los parámetros de la recta son: a=0,8179 y b=1,9284. La DE de la ɛ es 0,4.

Esto significa que podemos escribir el modelo:

Nota de física=0,8179*Nota de matemáticas+1,9284+ɛ

donde la “ɛ” sigue una distribución N(0, 0.4).

23. En el gráfico que se adjunta puede verse la representación bidimensional de estos alumnos.

24. Como puede verse en el gráfico los puntos se articulan en torno a la recta y su dispersión es la modelizada por la N(0, 0.4). Estos valores de la “a” y de la “b” de la recta y de la DE del residuo “ɛ” se han obtenido mediante un software estadístico.

IMG_4197

25. Y el concepto de significación, que ya sabemos que es nuclear en Estadística, ¿cómo aparece en la Regresión? Vamos a verlo a continuación:

26. En una Regresión lineal simple tenemos siempre tres significaciones implicadas. Una ya la hemos visto: la de la correlación.

27. De hecho, la significación de la correlación va a ser, de hecho, la puerta de entrada en la Regresión. Es lógico que sea así. No tiene sentido crear una fórmula matemática que relacione unas variables entre las cuales no hay una correlación significativa.

28. Las otras dos significaciones son las de los parámetros de la recta: la “a” y la “b” del modelo y=ax+b. Cada uno tiene su p-valor asociado.

29. El contraste de hipótesis, en estos dos casos, es: Con la “a”:

H0: a=0

H1: a<>0 (distinto de cero)

Con la “b”, lo mismo:

H0: b=0

H1: b<>0.

30. Una advertencia importante. Estos contrastes de hipótesis para poderse realizar tal como están implementados en los software estadísticos necesitan la distribución normal del residuo “ɛ” y también que su Desviación estándar sea homogénea; o sea, que sea la misma para cualquier valor de la variable independiente. Necesita también de la independencia de los datos.

31. Para ver con más detalle el contraste de hipótesis de la pendiente, de la “a” ver en Herbario de técnicas el artículo dedicado a este contraste. Para ver la comprobación de la normalidad ver, también en el Herbario, los artículos dedicados a la bondad de ajuste a una distribución cualquiera (Test de la ji-cuadrado de ajuest a una distribución) o a la normal (Test de Kolmogorov). Para la homogeneidad ver el Test de Glesjer y, para la independencia, el Test de Durbin-Watson.

32. En la hipótesis nula, como siempre en Estadística, tenemos lo que podemos decir antes de hacer cualquier cosa (lo que podemos presuponer): que no hay relación. El paralelismo de la Estadística con el mundo judicial es sorprendente, como ahora veremos.

33. En un juicio también hay dos hipótesis a contrastar: inocencia y culpabilidad. Y las dos no parten paralelas.

34. Una de ellas parte como cierta: la inocencia (“presunción de inocencia”), y sólo si durante el juicio, mediante las pruebas y testigos, se ve que la inocencia no se puede mantener se pasará a la culpabilidad.

35. En Estadística podemos decir que existe la presunción de no relación entre las variables. Presunción de r=0, de a=0, de b=0.

36. Esto es muy importante. En Estadística (de hecho: En Ciencia) es como si existiera una presunción de no relación entre las variables y una presunción (lo veremos, más adelante, en los temas dedicados a la comparación de grupos) de igualdad entre los grupos a comparar. Las relaciones y las diferencias se han de demostrar. Porque el punto de partida, en la Ciencia, es la no relación y la igualdad.

37. Únicamente si es incoherente mantener esas presunciones (no relación entre variables e igualdad entre grupos comparados), a la luz de la muestra (que son nuestras pruebas y nuestros testigos), diremos que hay relación.

38. Y cuando lo hagamos, cuando digamos que hay relación o que hay diferencia, lo habremos hecho tras darle mucho margen de confianza a la presunción de no relación o a la de igualdad.

39. Por esto entonces diremos que aquella relación es significativa, que es fiable, que existen pocas posibilidades de que, a nivel poblacional, no sea así.

40. En el fondo los estadísticos somos un poco como el Tribunal constitucional.

41. El Tribunal constitucional tiene como objetivo básico analizar las leyes y acabar dictaminando si se adaptan o no a la constitución.

42. Al final sus sentencias son, en esencia, decir “esto es constitucional” o “esto no es constitucional”. Y lo que dice este tribunal es la última palabra.

43. Con la Estadística sucede un poco lo mismo. Analiza unos datos y acaba dando un veredicto: “significativo” o “no significativo”.

44. Y la comunidad científica está muy pendiente de estos veredictos, por su fundamental trascendencia.

45. Podemos decir, para acabar con todo esto que la Estadística es el Tribunal de la significación de la ciencia.

46. La significación es la palabra central, nuclear, de la Estadística. Y tal vez de la Ciencia.

47. Para acabar, existe un importante y muy usado criterio de calidad de una Regresión lineal simple: el Coeficiente de determinación , la denominada R2. Se trata de un valor que va del 0 al 1, cuanto mayor mejor, más relación hay entre la variable dependiente y la independiente, más determina la independiente a la dependiente. Muchas veces el valor de R2 se da en porcentaje, para expresar el porcentaje de determinación que existe en esa Regresión, el porcentaje de determinación que la variable independiente ejerce sobre la dependiente.

2 pensamientos en “Tema 7: REGRESIÓN LINEAL SIMPLE

  1. Pingback: Herramientas estadísticas en Medicina (Una hoja de ruta) | LA ESTADÍSTICA: UNA ORQUESTA HECHA INSTRUMENTO

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s