Archivos Mensuales: noviembre 2012

Solución Situación 1

La solución es la que se ve en el esquema adjunto. Se añade también, ahora, una curva de Lorenz hipotética de cada país. El reparto de la riqueza es bien distinto en cada uno de estos tres países. Más igualitario Suecia y muy desigual Etiopía. Grecia está en una posición intermedia. Es importante ver cómo el Box-Plot y la curva de Lorenz, cada uno a su manera, dibuja esta distinta distribución de la riqueza que hay en los tres países:

Anuncios

Tema 8: RELACIÓN ENTRE VARIABLES CUALITATIVAS. EL TEST DE LA JI-CUADRADO

1. Hasta el momento hemos dedicado prácticamente todo nuestro curso de Estadística a hablar de variables cuantitativas.

2. Hemos de dedicar ahora un espacio a las variables cualitativas, a sus peculiaridades descriptivas, a ver cómo se valora la relación entre variables cualitativas, a evaluar la cuantificación de esa relación, a evaluar la significación de esa relación.

3. Una variable es cualitativa, o categórica, o nominal, cuando los valores que toma la variable son cualidades o categorías, o nombres. Por ejemplo: la variable sexo (Hombre, Mujer), la variable tener o no una determinada patología, etc.

4. Muchas veces ciertas variables cuantitativas se convierten en cualitativas, se categorizan. Por ejemplo, la variable cuantitativa edad. Supongamos que creamos los siguientes grupos de edad: menores de 16 años, entre 16 y 65 años y mayores de 65 años. Estamos creando tres categorías a partir de una variable cuantitativa como la edad. Esto es frecuente en sociología, economía, etc. O cuando en Medicina decimos: Valores iguales o menores de 140 de Presión sistólica: “Bien controlado”. Y valores mayores de 140 de dicha presión: “Mal controlado”. Estamos, también, transformando en cualitativa una variable cuantitativa.

5. Al final del tema dedicado a la Estadística descriptiva hemos comentado lo poco que dan de sí, desde el punto de vista descriptivo, estas variables. Recordémoslo.

6. Con las variables cualitativas suele hacerse un recuento de cuántos casos tenemos de cada una de las categorías posibles (frecuencias absolutas) o un tanto por ciento o un tanto por uno de lo que supone cada una de las categorías dentro del conjunto de categorías posibles (frecuencias relativas) y suele hacerse, entonces, un Diagrama de frecuencias o un Diagrama pastel para graficas esos valores.

7. Vamos a ver ahora cómo evaluar la relación entre variables cualitativas. Nos centraremos en variables dicotómicas (con dos valores posibles) pero los conceptos que veremos a continuación son fácilmente exportables a variables cualitativas con más de dos valores posibles.

8. Supongamos que queremos evaluar la relación entre la variable sexo y la variable tener o no una determinada enfermedad. Se trata evidentemente de dos variables cualitativas.

9. Se trata, además, de dos variables cualitativas con dos valores posibles en cada una de ellas (variables dicotómicas). La variable Sexo: Hombre o Mujer. Y la variable Enfermedad: Sí la tiene o No la tiene.

10. Supongamos los siguientes datos:

IMG_4381

11. Tenemos, pues, una muestra con 60 hombres enfermos y con 40 que no. Y tenemos, también, en la muestra 20 mujeres enfermas y 80 que no. A partir de estos valores, ¿podemos decir que están relacionadas estas variables?

12. A los datos de dos variables cualitativas expresados en frecuencias absolutas, en una tabla como esta, se le denomina “tabla de contingencias”.

13. Vamos ahora a analizar una tabla de contingencias como ésta y, así, detectar si hay relación entre la variable sexo y la variable tener o no esa enfermedad.

14. Para evaluar esta relación vamos a suponer que en lugar de estos datos tuviésemos estos otros:

IMG_4382

Y, ahora, comparemos las dos tablas de contingencias. ¿Qué diferencias hay?

15. Si comparamos las dos tablas de contingencias podemos ver que en esta última no hay en absoluto indicios de relación.

16. No hay relación en esta tabla porque en hombres y en mujeres hay una proporción muy similar de enfermos y de no enfermos.

17. Sin embargo, en la primera tabla la proporción de enfermos y no enfermos es muy distinta en hombres y en mujeres.

18. Esta diferencia de proporciones es lo que hace pensar que en la primera tabla sí que hay relación, que esa enfermedad no se presenta independiente al sexo, sino que hay asociación, que hay una relación en los datos de aquella tabla.

19. La técnica de la ji-cuadrado es la técnica estadística más utilizada para analizar la relación de variables cualitativas expresadas en forma de tablas de contingencia.

20. La ji-cuadrado es una técnica que dictamina, objetivamente, si la muestra obtenida permite pensar en una relación significativa entre las variables cualitativas o si, por el contrario, las diferencias de proporciones que se ven son atribuibles al azar del muestreo y no son unas diferencias sólidas y fiables.

21. De nuevo nos encontramos, por lo tanto, con el dilema, ya visto con la correlación entre variables cuantitativas, de decidirnos entre la no relación y la relación entre variables. Lo que ahora debemos adaptarnos a un formato de datos bien distinto, pero el problema es completamente equivalente.

22. Y en esta decisión el tamaño de muestra, como siempre en Estadística, tiene un papel decisivo.

23. Observemos, ahora, las dos tablas de contingencias siguientes:

IMG_4383

24. La diferencia de proporciones entre hombres y mujeres, respecto a la proporción de los que tienen la enfermedad o no la tienen, es la misma en ambas tablas, porque la única diferencia que hay entre ellas es el cero de más que tienen los valores de la primera tabla.

25. Sin embargo, en el primer caso hay más posibilidades de ser significativa la relación que en el segundo.

26. El pequeño tamaño muestral del segundo caso le genera, como siempre en casos así, desconfianza a la técnica estadística y, por esto, acaba dando el veredicto de no significación.

27. En el contraste de hipótesis que formaliza la decisión sobre la relación entre variables cualitativas la Hipótesis nula es H0: Variables independientes (no relacionadas) y la Hipótesis alternativa es H1: Variables relacionadas.

28. Hay, por lo tanto, presunción de independencia. Y un gran margen de confianza para esa independencia.

29. Este gran margen de confianza por la Hipótesis nula, como siempre, nos permitirá estar confiados con la Hipótesis alternativa cuando nos veamos obligados a rechazar la afirmación de la nula por falta de coherencia entre lo que vemos en la muestra y lo que dice tal hipótesis.

30. La ji-cuadrado como técnica para evaluar la relación entre variables cualitativas es muy útil en muchos campos.

31. Por ejemplo, en las encuestas sociológicas para ver si hay relación entre dos ítems (preguntas) diferentes.

32. En el mundo de la Medicina es muy usual comparar exposición o no a un riesgo y la presencia o no de una determinada patología.

33. Por ejemplo, fumador y no fumador como exposición a un riesgo y tener o no cáncer de pulmón.

34. Hemos visto ejemplos con variables con dos valores posibles, pero las variables pueden tener más de dos valores posibles, por supuesto.

35. Es interesante comparar lo que estamos haciendo aquí y lo que hemos hecho en el Tema 5 con la correlación de variables cuantitativas. El gráfico adjunto ilustra el paralelismo. He puesto la representación de las dos variables cualitativas en un formato análogo al de las cuantitativas. También he puesto puntos en las cuatro casillas posibles para forzar también el paralelismo, pero la representación característica es mediante la escritura de la frecuencia absoluta de cada celda en la muestra estudiada.

Foto 20-10-12 17 58 17

36. La decisión que tomamos entre la Hipótesis nula y la Hipótesis alternativa, en la técnica de la ji-cuadrado, se basa en comparar lo Observado respecto a lo Esperado.

37. En Estadística, de hecho, podemos decir que al decidirnos por una hipótesis u otra siempre hacemos una comparación de este tipo. En el fondo, en un contraste de hipótesis siempre estamos comparando lo que Esperamos que pase si fuese cierta la Hipótesis nula y lo que Observamos en la muestra que tenemos.

38. Si lo pensamos un poco, en el fondo este proceder está muy ligado a la actividad humana más cotidiana. De un nuevo trabajo, de una nueva relación nos hacemos una idea de lo que Esperamos y luego, con la experiencia, nos encontramos con un Observado. De la comparación entre el Observado y el Esperado podemos valorar si aquella decisión tomada, respecto al trabajo o a la relación, valió realmente la pena o no. Por lo tanto, establecer una comparación entre un Esperado y un Observado es clave para valorar una decisión cualquiera, no únicamente estadística o científica. Lo que sucede es que, en este ámbito, las cosas deben estar regladas, protocolizadas, objetivadas.

39. Un contraste de hipótesis tiene, pues, esto siempre. Se crea lo que podríamos llamar un espacio de lo admisible dentro de la Hipótesis nula (alejamientos tolerables respecto de lo Esperado, alejamientos posibles a pesar de ser cierto lo que afirma la Hipótesis nula) y se toma, entonces, una muestra (un Observado). A continuación se analiza si este Observado está o no dentro de este margen de alejamiento posible respecto a lo que Esperamos en el caso de ser cierta la Hipótesis nula. Si está dentro de ese margen, mantendremos la Hipótesis nula, si no lo está nos pasaremos a la afirmación que hace la Hipótesis alternativa.

40. Al final, el p-valor es el que cuantifica el grado de proximidad entre el Observado y el Esperado, el que dictamina si lo Observado está dentro de ese margen, de ese halo donde todavía es admisible la Hipótesis nula o, por el contrario, se ha traspasado esa frontera y debemos rechazarla. Ya sabemos que normalmente esa frontera, expresada en términos de p-valor, es el 0.05. Por encima de 0.05 mantenemos H0, por debajo la rechazamos y nos pasamos a H1.

41. Un ejemplo sencillo: Tomemos el caso que antes hemos comentado, el de la relación entre el sexo y una determinada enfermedad. Teníamos un Observado. Y en él teníamos 100 hombres y 100 mujeres (sumando las filas). Teníamos, también, en total, 80 enfermos y 120 no enfermos de la patología estudiada (sumando las columnas). Si no hubiera relación entre ambas variables cualitativas (sexo y enfermedad), si ambas variables fueran variables independientes, la tabla Esperada sería la siguiente (Muestro la Observada también para poderlas comparar):

IMG_4384

42. Obsérvese que de esta forma, en el Esperado, tenemos los mismos hombres y mujeres (100, respectivamente) y el mismo número de enfermos y no enfermos (80 y 120), pero distribuidos de tal forma que en absoluto pensaríamos que habría relación entre sexo y esa enfermedad. En este Esperado la proporción de enfermos y no enfermos es exactamente la misma en hombres y en mujeres. Lo que impide cualquier afirmación de relación entre sexo y esa enfermedad.

43. La ji-cuadrado es una técnica matemática que valora, de una forma técnica, mediante un procedimiento reglado, la distancia que hay entre este Esperado y el Observado. Valorándolo no sólo por la diferencia de proporciones que haya sino también, y muy especialmente, por el tamaño de muestra que se tiene. O sea, la técnica estadística valora mucha más distancia entre estas dos tablas de contingencia que entre las dos siguientes:

IMG_4385

44. El azar del muestreo puede afectar mucho en un caso como éste, donde hay tan pocas observaciones. En cambio al aumentar el tamaño de muestra las cosas adquieren mayor solidez. Por una razón que ya hemos dicho en algún momento: Entre muestras grandes hay menos diferencias que entre muestras pequeñas. Las muestras grandes son más fiables porque son más similares a otras que hubiéramos podido tener y no hemos tenido. Esto estabiliza las decisiones. En cambio, con muestras pequeñas, entre una y otra muestra puede haber diferencias enormes. Por lo tanto, estamos, en este caso, ante decisiones demasiado vulnerables a los vaivenes que pueden ocasionar muestras potencialmente muy diferentes. Esto es lo que queremos decir los estadísticos cuando decimos que un resultado depende en exceso del azar del muestreo.

45. Por lo tanto, en el caso de arriba, el de mayor tamaño de muestra, la ji-cuadrado acabará dando un p-valor inferior a 0.05, porque detecta que no es posible un Observado así con un Esperado como ese. En cambio, en el caso de abajo, el del tamaño muestral pequeño, la misma técnica de la ji-cuadrado acabará dando un p-valor superior a 0.05 porque es posible esperar estas proporciones a nivel de Esperado y tener ese Observado, por cuestiones de azar del muestreo. Y es importante que se vea en estos dos casos, porque la diferencia de proporciones de enfermos y no enfermos entre hombres y mujeres es la misma.

46. Esto se entiende tal vez mejor con una moneda. Si la lanzas 10 veces, si la moneda es equilibrada, esperas 5 caras y 5 cruces. Si observas 2 y 8 es posible. Si la lanzas 1000 veces, esperas 500 y 500, si ves 200 y 800 dirás que este Observado no cuadra con el Esperado y rechazarás la hipótesis nula, en este caso la hipótesis que afirma que la moneda es equilibrada, en cuanto a las posibilidades de cara y de cruz.

47. En la ji-cuadrado la Hipótesis nula, ya lo hemos dicho, es independencia. Por eso construimos una tabla de lo esperado donde en absoluto se contemple relación entre las variables cualitativas. Y la construimos respetando las cantidades de valores que ambas variables tienen por filas y por columnas.

48. Y esto es lo que básicamente hay que entender en la ji-cuadrado. Entrar en tecnicismos es interesante para el matemático pero no es necesario para el que se acerca a la Estadística con finalidad instrumental y que tiene la intención de entender el por qué de las técnicas sin entrar en detalles más de técnica matemática.

49. No obstante, para los que quieran entrar más en detalle en cómo funciona la técnica de la ji-cuadrado, en el gráfico adjunto se ilustra cómo es la técnica en sí, qué medida de distancia entre Observado y Esperado se utiliza, cómo se calcula, respecto a qué valor de referencia se mide ese cálculo, cómo se llega al cálculo de un p-valor. Estos son los cálculos, en definitiva, que hace un software estadístico para proporcionar un p-valor y así decidirse por la Hipótesis nula o la Hipótesis alternativa, cuando le introduces una tabla de contingencias y le pides que te aplique la técnica de la ji-cuadrado para valorar la existencia de relación o no entre esas variables cualitativas.

IMG_4386

50. La distribución que aparece es la llamada distribución ji-cuadrado (Ver Herbario de técnicas). Es la distribución que sigue el cálculo que se ve en el centro del gráfico y que se aplica a las dos tabla de contingencias mostradas, pero es la distribución que sigue en el caso de ser cierta la Hipótesis nula; o sea, en el caso de que las variables sean independientes. Es la distribución de los valores posibles de ese cálculo (que es una medida de distancia entre Observado y Esperado), en el caso de ser cierta la independencia de las variables. Pensemos que puede haber independencia de las variables y que la muestra obtenida no sea la de la tabla de contingencias Esperada (porque la tabla Esperada es, en realidad, una idealización). Hay un margen de posible alejamiento a ésta, que es lo que nos muestra, precisamente, la forma de la distribución. La posición del Observado respecto a esta distribución es clave para la decisión del contraste. El p-valor (el área a la derecha del valor de ese cálculo: el 33.2 y el 3.33 del gráfico) nos indica la posición relativa de lo que vemos respecto a lo que deberías ver si fuera cierta la Hipótesis nula. El que se calcule el área hacia la derecha es porque, precisamente, cuanto más hacia la derecha nos dé el cálculo, cuanto mayor sea, van decreciendo las posibilidades de la Hipótesis nula y, al mismo tiempo, creciendo las posibilidades de la Hipótesis alternativa. Por encima de un p-valor de 0.05 todavía nos decantamos por mantener la posibilidad de que sea cierta la independencia y ver lo que estamos viendo. Por debajo, no. Por debajo ya consideramos que hay demasiada lejanía entre lo Observado y lo Esperado. Hemos ya traspasado el límite de lo tolerable en el caso de ser cierta la Hipótesis nula. Entender esta forma de razonar es entender la Estadística. Es nuclear. Estamos abordando la esencia de la Estadística.

51. La distribución ji-cuadrado (Ver Herbario de técnicas) se representa mediante la letra griega ji elevada al cuadrado, como puede verse en el gráfico. Esta distribución tiene un único parámetro. Que suele representarse como un subíndice, como puede verse en el gráfico adjunto. En el ejemplo que planteo vale 1, porque tenemos una tabla de contingencias de 2×2. El valor del parámetro es siempre el número de filas de la tabla, menos una, multiplicado por el número de columnas, menos una. Si es, pues, 2×2 el parámetro de la ji-cuadrado es 1, si fuera una tabla 3×2 sería 2, si fuera 4×3 sería 6. Para cada ji-cuadrado diferente el valor de referencia a partir del cual la probabilidad es 0.05 bajo la curva es diferente. En nuestro caso es 3.84, como se puede ver en el gráfico y en cualquier tabla de la ji-cuadrado.

52. Para que el Test de la ji-cuadrado para tablas de contingencias funcione bien se requieren una serie de condiciones. El número de celdas con valores esperados de 5 ó menos no pueden ser más del 20% de todas las celdas. Si la tabla es 2×2 no debería haber ninguna celda bajo estas condiciones. Observemos que en el caso del gráfico anterior, el de abajo, estaríamos fuera de las condiciones.

53. Si se incumplen las condiciones el problema es que el estadístico de test no sigue fielmente la distribución ji-cuadrado y, por lo tanto, estaremos tomando decisiones en base a unos p-valores basados en una distribución, bajo la Hipótesis nula, equivocada.

54. Para los casos en los que se incumple esta condición, y la tabla es 2×2, tenemos el Test exacto de Fisher (Ver Herbario de técnicas).

Tema 7: REGRESIÓN LINEAL SIMPLE

1. En el Tema anterior hemos hecho una introducción a la Regresión. Era importante hacerlo porque así hemos trazado un mapa general de un mundo realmente complejo.

2. No se trata de desanimarse por la visualización del esquema complejo de fórmulas con el que acaba el tema. Iremos focalizando, en su momento, en los tipos más usuales de Regresión y el haber hecho este dibujo introductorio nos ayudará a situar las cosas, con mayor sentido, en el dibujo global del mundo de la Regresión.

3. Vamos a ver, en este Tema, la primera de estas focalizaciones al mapa de las Regresiones. Vamos a ver la Regresión más básica, la Regresión univariante, lineal y simple.

4. En la Introducción ya hemos hablado un poco de este tipo de Regresión, puesto que ya la hemos utilizado para poder situar conceptos generales y verlos en un caso relativamente sencillo y accesible para el que se inicia en este complejo mundo de la matematización de la relación entre variables:

5. La Regresión univariante, lineal y simple suele nombrarse como Regresión simple lineal o Regresión lineal simple o, muchas veces, simplemente como Regresión lineal o Regresión simple.

6. En Regresión las opciones por defecto siempre son las más básicas: univariante, lineal y simple. Las otras opciones deben marcarse, cuando aparecen. Por eso a la Regresión univariante lineal simple se la suele denominar Regresión lineal o de Regresión simple, a secas. Se trata de la Regresión que construye una recta para modelizar la relación que hay entre dos variables.

7. La Regresión lineal simple es la más básica pero también la más usual. Es aplicada en todos los ámbitos del conocimiento.

8. La ecuación de la Regresión lineal simple es: y=ax+b+ɛ. Como puede apreciarse cinco letras distintas: “y”, “a”, “x”, “b” y “ɛ”. Ya sabemos qué representan la “y”, la “x” y la “ɛ”.

9. Nos falta explicar la “a” y la “b”. La “a” y la “b” son los llamados “parámetros de la recta”. Toda recta tiene la fórmula y=ax+b.

10. Tanto la “a” como la “b” pueden ser cualquier número real. Cada pareja de números diferentes define una recta distinta.

11. A la “a” se le denomina pendiente de la recta. Si es positiva, de izquierda a derecha la recta asciende. Si es negativa, desciende.

12. A la “b” se le denomina “Ordenada en el origen”. Y representa el valor de la “y” cuando la “x” vale cero.

13. Al eje de la “y” se le suele llamar eje de las ordenadas y al de la “x” eje de las abscisas. Al punto x=0 se le denomina origen.

14. Por eso a la “b” se le llama “Ordenada en el origen”, porque es el valor de la “y” (de las ordenadas) cuando la “x” es cero (en el origen).

15. Si tenemos valores de dos variables y tenemos una representación bidimensional el problema será encontrar la recta que mejor se adapte a esa representación.

16. Esto se hace mediante la llamada Técnica de los mínimos cuadrados.

17. Mediante esta técnica se busca la recta que minimice, que haga mínimas, las distancias al cuadrado calculadas desde cada uno de los puntos hasta la recta.

18. Así es cómo cualquier software estadístico, o cualquier máquina de calcular con opción de Estadística, estima la recta de Regresión.

19. La recta de los mínimos cuadrados es la recta que mejor se adapta a los valores de dos variables que dibujan sobre el plano una nube de puntos para los cuales una recta es un buen modelo.

20. Los residuos calculados punto por punto respecto a la recta de mínimos cuadrados permiten estimar la DE de la distribución N(0, DE) de la “ɛ” del modelo de Regresión.

21. Vamos a plantear unos datos reales con los que poder ver todo lo visto hasta ahora.

22. Ejemplo de correlación y de regresión: Tenemos diez alumnos con sus notas de matemáticas y de física. Las notas son las siguientes (cada paréntesis recoge las notas de un alumno, la primera nota es la de matemáticas y la segunda es la de física):

(7, 8), (2, 4), (8, 8), (6, 7), (5, 6), (8, 9), (9, 9), (1, 3), (2, 3), (3, 4)

La correlación de Pearson es r=0,98 y su p-valor es menor que p=0,0001, lo que significa que se trata de una correlación significativa, positiva y de alta magnitud.

Vamos a hacer una regresión lineal a través del modelo y=ax+b+ɛ, donde la y es la nota de física y la x la nota de matemáticas. Esto nos puede interesar, por ejemplo, si somos profesores de física y queremos algún día pronosticar las notas que tendrán de física nuestros alumnos sabiendo las notas que han obtenido previamente de matemáticas.

Si aplicamos a estos datos la técnica de los mínimos cuadrados vemos que los parámetros de la recta son: a=0,8179 y b=1,9284. La DE de la ɛ es 0,4.

Esto significa que podemos escribir el modelo:

Nota de física=0,8179*Nota de matemáticas+1,9284+ɛ

donde la “ɛ” sigue una distribución N(0, 0.4).

23. En el gráfico que se adjunta puede verse la representación bidimensional de estos alumnos.

24. Como puede verse en el gráfico los puntos se articulan en torno a la recta y su dispersión es la modelizada por la N(0, 0.4). Estos valores de la “a” y de la “b” de la recta y de la DE del residuo “ɛ” se han obtenido mediante un software estadístico.

IMG_4197

25. Y el concepto de significación, que ya sabemos que es nuclear en Estadística, ¿cómo aparece en la Regresión? Vamos a verlo a continuación:

26. En una Regresión lineal simple tenemos siempre tres significaciones implicadas. Una ya la hemos visto: la de la correlación.

27. De hecho, la significación de la correlación va a ser, de hecho, la puerta de entrada en la Regresión. Es lógico que sea así. No tiene sentido crear una fórmula matemática que relacione unas variables entre las cuales no hay una correlación significativa.

28. Las otras dos significaciones son las de los parámetros de la recta: la “a” y la “b” del modelo y=ax+b. Cada uno tiene su p-valor asociado.

29. El contraste de hipótesis, en estos dos casos, es: Con la “a”:

H0: a=0

H1: a<>0 (distinto de cero)

Con la “b”, lo mismo:

H0: b=0

H1: b<>0.

30. Una advertencia importante. Estos contrastes de hipótesis para poderse realizar tal como están implementados en los software estadísticos necesitan la distribución normal del residuo “ɛ” y también que su Desviación estándar sea homogénea; o sea, que sea la misma para cualquier valor de la variable independiente. Necesita también de la independencia de los datos.

31. Para ver con más detalle el contraste de hipótesis de la pendiente, de la “a” ver en Herbario de técnicas el artículo dedicado a este contraste. Para ver la comprobación de la normalidad ver, también en el Herbario, los artículos dedicados a la bondad de ajuste a una distribución cualquiera (Test de la ji-cuadrado de ajuest a una distribución) o a la normal (Test de Kolmogorov). Para la homogeneidad ver el Test de Glesjer y, para la independencia, el Test de Durbin-Watson.

32. En la hipótesis nula, como siempre en Estadística, tenemos lo que podemos decir antes de hacer cualquier cosa (lo que podemos presuponer): que no hay relación. El paralelismo de la Estadística con el mundo judicial es sorprendente, como ahora veremos.

33. En un juicio también hay dos hipótesis a contrastar: inocencia y culpabilidad. Y las dos no parten paralelas.

34. Una de ellas parte como cierta: la inocencia (“presunción de inocencia”), y sólo si durante el juicio, mediante las pruebas y testigos, se ve que la inocencia no se puede mantener se pasará a la culpabilidad.

35. En Estadística podemos decir que existe la presunción de no relación entre las variables. Presunción de r=0, de a=0, de b=0.

36. Esto es muy importante. En Estadística (de hecho: En Ciencia) es como si existiera una presunción de no relación entre las variables y una presunción (lo veremos, más adelante, en los temas dedicados a la comparación de grupos) de igualdad entre los grupos a comparar. Las relaciones y las diferencias se han de demostrar. Porque el punto de partida, en la Ciencia, es la no relación y la igualdad.

37. Únicamente si es incoherente mantener esas presunciones (no relación entre variables e igualdad entre grupos comparados), a la luz de la muestra (que son nuestras pruebas y nuestros testigos), diremos que hay relación.

38. Y cuando lo hagamos, cuando digamos que hay relación o que hay diferencia, lo habremos hecho tras darle mucho margen de confianza a la presunción de no relación o a la de igualdad.

39. Por esto entonces diremos que aquella relación es significativa, que es fiable, que existen pocas posibilidades de que, a nivel poblacional, no sea así.

40. En el fondo los estadísticos somos un poco como el Tribunal constitucional.

41. El Tribunal constitucional tiene como objetivo básico analizar las leyes y acabar dictaminando si se adaptan o no a la constitución.

42. Al final sus sentencias son, en esencia, decir “esto es constitucional” o “esto no es constitucional”. Y lo que dice este tribunal es la última palabra.

43. Con la Estadística sucede un poco lo mismo. Analiza unos datos y acaba dando un veredicto: “significativo” o “no significativo”.

44. Y la comunidad científica está muy pendiente de estos veredictos, por su fundamental trascendencia.

45. Podemos decir, para acabar con todo esto que la Estadística es el Tribunal de la significación de la ciencia.

46. La significación es la palabra central, nuclear, de la Estadística. Y tal vez de la Ciencia.

47. Para acabar, existe un importante y muy usado criterio de calidad de una Regresión lineal simple: el Coeficiente de determinación , la denominada R2. Se trata de un valor que va del 0 al 1, cuanto mayor mejor, más relación hay entre la variable dependiente y la independiente, más determina la independiente a la dependiente. Muchas veces el valor de R2 se da en porcentaje, para expresar el porcentaje de determinación que existe en esa Regresión, el porcentaje de determinación que la variable independiente ejerce sobre la dependiente.

Tema 6: INTRODUCCIÓN A LA REGRESIÓN

1. Cuando hemos detectado que entre dos o más variables hay una relación significativa una opción es intentar matematizar esa relación, crear una fórmula matemática que materialice, formalmente, esa relación y que permita calcular pronósticos de una o de varias variables a partir del conocimiento de valores de una o de varias variables evaluadas en un individuo concreto.

2. Esta matematización, esta creación de una fórmula, de una ecuación, que relacione varias variables, es la Regresión.

3. La Regresión ha tenido y tiene una importancia extraordinaria en el ámbito de las aplicaciones de la Estadística. A lo largo de este curso deberemos dedicar diferentes momentos a hablar del mundo de la Regresión.

4. Empezaremos los temas dedicados a este mundo con esta Introducción a la Regresión, aunque en mucho momentos focalizaremos especialmente en el caso más básico de Regresión: el de la Regresión lineal simple, para introducirnos así, con mayor facilidad, en algunas nociones generales.

5. La Regresión consiste en la creación de una fórmula matemática que relacione variables, en la creación de lo que llamamos una función matemática.

6. Por lo tanto, lo primero que tenemos que recordar es el concepto de función matemática.

7. Una función matemática de dos variables, y=f(x), es la representación (la modelización) matemática de una relación entre las dos variables: “x” e “y”. A la variable en la posición de la “y” se la denomina dependiente. A la variable en la posición de la “x” se la denomina independiente.

8. Las funciones matemáticas, evidentemente, pueden ser entre más de dos variables. La función y=f(x1, x2, …, xd) relaciona a la variable “y” con las “d” variables x1, x2, …, xd. Estas funciones son las llamadas funciones de varias variables, también llamadas funciones de variable vectorial, porque la “x” es, en realidad, un vector de variables (cuando tenemos dos o más variables analizadas conjuntamente en matemáticas decimos que tenemos un “vector de variables”).

9. También existen las funciones donde la posición de la “y” está ocupada por más de una variable: (y1, y2, …, ym)= f(x1, x2, …, xd), que son las llamadas funciones vectoriales (“m” variables en la posición de la “y”) de variable vectorial (“d” variables en la posición de la “x”) .

10. Obsérvese que suele usarse el mismo signo “y” para las diferentes posibles variables dependientes y el mismo signo “x” para las variables independientes. Los subíndices concretan el número de variables que hay en cada una de las dos posiciones. Así es como habitualmente se representan los diferentes modelos de Regresión en Estadística.

11. Pero para empezar a ver algunas nociones generales de la Regresión utilizaremos el caso de las funciones más sencillas: las funciones y=f(x):

12. Si digo: “Si el domingo llueve me quedaré en casa, si no llueve iré a Girona”, estoy construyendo una función.

13. La x tiene dos valores: llueve y no llueve. La y tiene también dos valores posibles: me quedo en casa y voy a Girona. Y con la frase construyo una relación, construyo la función.

14. Porque una función es una relación establecida entre un conjunto de valores y otro conjunto de valores. Una relación que tiene la siguiente condición: Todo elemento del conjunto llamado Dominio (el conjunto de la variable x) tiene que tener asignado, mediante la regla de la función concreta establecida, un y sólo un elemento del conjunto llamado Codominio o Recorrido (el conjunto de la variable “y”).

15. Es fácil comprobar que el ejemplo: “Si el domingo llueve me quedaré en casa, si no llueve iré a Girona”, cumple las condiciones de función. También lo cumpliría, por ejemplo: “Llueva o no llueva, el domingo iré a Girona”.

16. En nuestro día a día continuamente estamos estableciendo relaciones de tipo funcional, que cumplen la condición de ser función.

17. En ciencia son muy importantes las funciones. Porque la ciencia intenta continuamente establecer relaciones entre las cosas.

18. La Regresión es una parte de la Estadística que se cuida de la creación de funciones entre variables cuya relación no es exacta, como veremos ahora:

19. Otro ejemplo de función: cuando expreso una distancia en Km y la quiero pasar a metros creo una relación matemática (una función): y=1000x.

20. Si quiero relacionar Altura y Peso la cosa no funciona tan bien porque no hay una fórmula que lo haga de forma exacta.

21. No hay ninguna fórmula mediante la cual sabiendo el peso de una persona podamos saber, de forma exacta, su altura. No obstante, como hay una cierta relación entre la altura y el peso podemos establecer una fórmula funcional pero añadiendo un elemento a esa fórmula, un elemento que será clave en el ámbito de la Regresión, como ahora veremos.

22. No nos olvidemos que hemos dicho antes que la Regresión es una parte de la Estadística que se cuida de la creación de funciones entre variables cuya relación no es exacta.

23. La relación entre la Altura y el Peso no es exacta, pero puedo crear el modelo: Altura=f(Peso)+ɛ. Antes podía escribir Metros=f(Km), sin tener que añadir esa “ɛ”. Porque la relación es exacta.

24. Por lo tanto, esta “ɛ”, de momento, la hemos de ver simplemente como lo que le falta o lo que le sobra a la fórmula que relaciona altura con peso para que la relación sea exacta.

25. En la Regresión siempre se crean funciones matemáticas donde es imprescindible añadir esta “ɛ”. Veremos más tarde el papel de esta “ɛ”.

26. Si relacionamos ahora la Altura con la Longitud de pie podemos decir que la función sería Altura=f(Pie)+ɛ . De nuevo la “ɛ”. Porque tampoco se trata de una relación exacta.

27. Como hemos dicho la Altura tiene una correlación r más grande con la Longitud del pie que con el peso.

28. Por lo tanto, la “ɛ” en Altura=f(Pie)+ ɛ es una variable con menos dispersión que la “ɛ” en Altura=f(Peso)+ ɛ. Esto es básico entenderlo para ir introduciéndose en el peculiar mundo de la Regresión.

29. De momento estamos hablando de relaciones entre unas variables que pueden quedar dibujadas por rectas, que los puntos que dibujan quedan articulados en torno a una recta. Pero evidentemente la relación entre dos variables puede no ser una relación lineal, como sucedería, por ejemplo, con la relación entre el Euribor y el Tiempo, que no quedarían, los puntos, ni mucho menos, organizados en torno a una recta, sino, por el contrario, quedarían articulados en torno a complicadas curvas con subidas y bajadas.

30. Por lo tanto, de momento estamos escribiendo expresiones generales de relación, como Altura=f(Pie)+ ɛ, o bien como Altura=f(Peso)+ ɛ, pero, como iremos concretando, en realidad ahora nos limitaremos a relaciones lineales, relaciones que se estructuran alrededor de una recta.

31. Una regla fundamental: Cuanta mayor correlación haya entre dos variables, en la representación bidimensional, estructurada en forma de recta, los valores estarán reunidos más próximos a la recta.

32. Y la dispersión de los valores de la “ɛ”, de esos valores, por exceso o por defecto, necesarios para que la función creada sea una relación exacta, tiene que ver con la dispersión de esa representación bidimensional alrededor de la recta.

33. Y Alturas con Pies tienen una representación bidimensional menos dispersa alrededor de la recta que la representación de Alturas con Pesos.

34. Veamos, gráficamente, de lo que estamos hablando. Puede verse perfectamente en el gráfico adjunto que los valores de Altura y Longitud de pie están menos dispersos en torno a la recta que los valores de Altura y Peso. Y que, por el contrario, los valores de Km y metros no tienen ninguna dispersión:

IMG_4193

35. A la “ɛ” de la ecuación de una Regresión se le denomina Residuo. En ocasiones también se le llama Error.

36. Y en condiciones normales las distancias desde los valores de la representación bidimensional a la recta que pasa entre los puntos (distancias positivas y negativas) sigue una distribución normal N(0, DE).

37. Esto se interpreta de la siguiente forma: Si tomáramos todos los puntos de la representación bidimensional y fuéramos calculando las distancias que hay entre cada uno de esos puntos y la recta, que unas serían positivas (los puntos por encima de la recta) y otros serían negativos (los puntos por debajo de la recta), entonces la reunión de todas esos valores quedaría bien modelizado por un N(0, DE).

38. Esta Desviación estándar (DE) será tanto mayor cuanto menor sea la correlación entre las variables “x” e “y”.

39. En el dibujo de las tres relaciones: Altura versus Peso, Altura versus Pie y Metros versus Km, puede comprobarse perfectamente esta relación entre DE del residuo, de la ɛ, y la correlación entre las variables.

40. Ya hemos visto que esta “ɛ” de la regresión, el residuo, son valores de distancias positivas y negativas.

41. Este residuo tiene generalmente una distribución normal centrada en el cero, por ser valores por exceso y por defecto respecto a la recta, y por tener, generalmente, muchos más valores próximos a la recta y con cierta simetría.

42. Y tiene, por lo tanto, este residuo, una dispersión, una Desviación estándar (DE). Por esto podemos decir que esta ɛ, muchas veces, sigue una distribución N(0, DE), donde esta DE dependerá de la correlación r.

43. Observemos que si planteáramos la relación entre Km y Metros como una Regresión: m=1000•Km+ɛ, la DE de esta ɛ sería obviamente cero.

44. En el gráfico adjunto se ve un caso de relación entre dos variables, se ve la recta de Regresión que modeliza esta relación y se ve, también, que si se proyectaran los valores, los puntos, sobre una recta donde el 0 fuera el punto de intersección de esa recta con la vertical dibujada por la propia recta de Regresión, entonces los puntos proyectados quedarían bien modelizados por una distribución N(0, DE).

IMG_4195

45. Una vez comentadas unas nociones básicas del mundo de la Regresión, vamos a intentar trazar ahora un mapa de los diferentes tipos de Regresión que se manejan en Estadística. Esto nos permitirá, después, cuando veamos tipos concretos de Regresión, en diferentes temas de este curso, saber situar cada uno dentro del plano que ahora vamos a dibujar.

46. Recordemos, antes de empezar con el mapa que la estructura general de la Regresión es la ecuación y=f(x), que a la variable o al vector de variables (si es más de una variable) “y” se la denomina variable o vector dependiente y a la variable o vector “x” se de denomina variable o vector independiente.

47. Una primera distinción es la que se establece entre Regresión univariante y Regresión multivariante. Esta bifurcación viene determinada por el hecho de tener una o más de una variable dependiente.

48. La dicotomía está en estas dos formulaciones: tener una única variable “y” o tener más de una. Los dos tipos de Regresión quedarían ejemplificados en las dos siguientes fórmulas generales:

y=f(x)

(y1, y2, …, ym)= f(x)

si tenemos una única variable independiente, o de esta forma:

y=f(x1, x2, …, xd)

(y1, y2, …, ym)= f(x1, x2, …, xd)

si tenemos varias variables independientes.

49. Obsérvese que aquí lo que diferencia entre Regresión univariante y multivariante es el número de variables dependientes no el número de variables independientes.

50. Si atendemos al tipo de función diferenciaremos entre la Regresión lineal y la Regresión no lineal.

51. En la Regresión lineal la f(x) es la ecuación de una función lineal, una función que será una recta, un plano o un hiperplano, según el número de variables independientes.

52. La Regresión lineal es la representada por el modelo matemático: y=ax+b+e en el caso de tener una única variable independiente, o por el modelo matemático: y=a1x1+a2x2+…+adxd+b+ɛ en el caso de estar trabajando con dos o más variables independientes.

53. Estoy escribiendo la fórmula de la Regresión lineal para el caso de Regresión univariante, pero podríamos hacer lo mismo con la Regresión multivariante. Después haremos una representación general de todas las posibilidades combinatorias y veremos los diferentes esquemas que tendríamos en cada caso.

54. Recordemos que la “ɛ” es siempre el símbolo del residuo, de lo que falta para la exactitud del modelo.

55. La Regresión no lineal es la que sigue cualquier otra función que no sea lineal. Estas funciones, como veremos en su momento, pueden ser exponenciales, pueden ser polinómicas, etc.

56. Si atendemos al números de variables independientes, distinguiremos dos tipos de Regresión: la Regresión simple y la Regresión múltiple.

57. En la Regresión simple tenemos únicamente una variable independiente. En la Regresión múltiple, por el contrario, tenemos dos o más variables independientes. Ahora focalizamos no en el número de variables dependientes sino en el número de variables independientes. Si tenemos una o más de una variable independiente.

58. En la Regresión simple la fórmula general es, pues, y=f(x)+ ɛ si se trata de una Regresión univariante o (y1, y2, …, ym)= f(x)+ ɛ si se trata de una Regresión multivariante.

59. En la múltiple la función es: y= f(x1, x2, …, xd)+ ɛ si se trata de una Regresión univariante o (y1, y2, …, ym)= f(x1, x2, …, xd)+ɛ  si se trata de una Regresión multivariante.

60. Por lo tanto, las dicomomías vistas: Univariante versus Multivariante, Lineal versus No lineal y Simple versus Múltiple, se pueden mezclar mediante todas las combinaciones posibles.

61. Vemos en el gráfico siguiente cómo estas tres dicotomías combinadas dan lugar a los diferentes tipos de Regresión posibles:

IMG_4200

62. Dentro de estos ocho tipos de Regresión se pueden dar casos especiales. Por ejemplo, es el caso de trabajar con una variable dependiente cualitativa hablamos entonces de Regresión logística. Ésta puede ser, también, simple o múltiple, dependiendo de si tenemos una o más de una variables independientes.

63. La Regresión logística es siempre, en realidad, una Regresión no lineal, como veremos en el tema 11. Y siempre es, también, además, univariante. Por lo tanto, podemos decir que los dos tipos de Regresión logística, la simple y la múltiple son casos especiales de Regresión no lineal simple y múltiple, respectivamente.

64. En realidad la Regresión no lineal es un amplio mundo donde se pueden diferenciar diferentes familias dependiendo del tipo de función no lineal que consideremos. Lo veremos en su momento.

65. En la medida que vayamos viendo, pues, estos diferentes tipos de Regresión iremos perfilando y completando este interesante mapa de este apasionante mundo de la Regresión.

66. A modo de resumen y después de visto el esquema que nos proporciona, por combinación de las tres dicotomías vista, los ocho tipos básicos de Regresión, vamos a ver el tipo general de modelo de Regresión de cada una de estas ocho familias; o sea, la forma de cada una de las ocho ecuaciones de los ocho tipos de Regresión.

67. En el caso no lineal he optado por poner una ecuación exponencial pero se trata de la elección de un tipo entre los muchos tipos de funciones que pueden ser usados como modelos de Regresión no lineal.

68. También es importante recordar que la “ɛ” añadida al final de la ecuación es el Residuo. En el esquema adjunto está escrito, ahora, con la letra griega épsilon y se suma siempre a todas las ecuaciones porque es aquel elemento que es necesario introducir siempre en la Regresión por el mismo hecho esencial de estar trabajando con relaciones entre variables que no son relaciones exactas.

69. Obsérvese, también, que el Residuo en la Regresión multivariante es un residuo con subíndice porque cada variable del vector dependiente tiene un valor residual.

70. En cambio en las Regresiones no lineales aparece una “e” que no es el Residuo, es el número e. Obsérvese que este número e siempre está elevado a algo. Es un número básico en las funciones exponenciales.

71. Las otras letras, “a” y “b”, con sus subíndices, cuando los tienen, son los parámetros del modelo, son números que se habrán de estimar, en cada caso concreto, para adaptar el modelo, la ecuación, a un caso concreto.

IMG_4216

Tema 5: CORRELACIÓN

1. Una vez introducidas las técnicas de relación vamos a ver el elemento nuclear en torno al cual gira la valoración de la relación entre variables cuantitativas: la correlación.

2. También la correlación es usada para variables ordinales; o sea, variables cuyos valores son posiciones de orden: primero, segundo, etc.

3. La correlación más usada para variables cuantitativas es la correlación de Pearson. Es especialmente apropiada cuando la distribución de las variables es la normal.

4. Para las variables ordinales las correlaciones más usadas son la correlación de Spearman o la correlación de Kendall. Sin embargo, estas dos correlaciones pueden aplicarse a variables cuantitativas, especialmente es recomendable usarlas si las variables no siguen la distribución normal.

5. En este tema hablaremos de la correlación en general aunque la mayor parte de ejemplos y comentarios se centrarán en la correlación de Pearson, pero todo lo que digamos aquí acerca de la noción de esta correlación es válido para explicar esas otras dos correlaciones.

6. Repito, porque es muy importante: Las diferencias fundamentales entre estas tres correlaciones son las siguientes: La correlación de Pearson funciona bien con variables cuantitativas y que sigan bien la distribución normal. Las otras dos correlaciones funcionan especialmente bien con variables cuantitativas que no sigan la distribución normal o con variables de las que lo único que tengamos sean posiciones de orden (variables ordinales).

7. Cuando hablamos de variables cuantitativas estamos hablando de variables como: altura, peso, renta, goles de un equipo en una temporada, número de empleados de una empresa, etc. De la comprobación de la normalidad ya hemos hablado en el tema de los intervalos de confianza y hablaremos con más detalle en temas futuros.

8. La correlación de Pearson es tan universal, es tan usada, que ha quedado implementada en prácticamente todas las máquinas de calcular. Pero se usa indiscriminadamente y en muchas ocasiones sería más apropiado usar alguna de las otras dos correlaciones: Spearman o Kendall.

9. Hay tres elementos básicos a tener en cuenta al analizar una correlación: signo, magnitud y significación. Veamos cada uno de estos elementos con detalle.

10. La correlación, como cuantificación del grado de relación que hay entre dos variables, es un valor entre -1 y +1, pasando, claro, por el cero.

11. Hay, por lo tanto, correlaciones positivas y negativas. El signo es, pues, el primer elemento básico a tener en cuenta.

12. Correlación positiva significa que las variables tienen una relación directa.

13. En este caso, valores pequeños de una variable van asociados a valores también pequeños de la otra; y, paralelamente, valores grandes de una van asociados a valores grandes de la otra. Pe: La altura y la longitud del pie.

14. Más ejemplos de correlación positiva: Goles a favor y puntos de un equipo de fútbol. Asistencias y puntos de 3 en básquet.

15. Número de oficinas y número de empleados en entidades financieras también tiene una correlación positiva.

16. La correlación negativa la tienen, por el contrario, variables con una relación inversa.

17. En este caso, valores pequeños de una variable van asociados, ahora, a valores grandes de la otra; y, equivalentemente, valores grandes de una van asociados a valores pequeños de la otra.

18. Pe: Goles a favor y Goles en contra en una liga de fútbol. Asistencias y rebotes. Valores altos de una variable van con bajos de la otra.

19. La correlación suele abreviarse con una r. Por lo tanto, r=0,7 es una correlación positiva y r=-0,9 es una correlación negativa.

20. Observemos, gráficamente, cómo se distribuyen los valores de dos variables con correlación negativa y de dos variables con correlación positiva:

IMG_7070

21. Lo segundo a tener en cuenta en la correlación es la magnitud. Y esto lo marca el valor absoluto de la correlación.

22. En la magnitud se valora se valora la correlación sin el signo, valorando la magnitud del número puro.

23. Esto significa que cuanto más cerca estemos de los extremos del intervalo de valores posibles: -1 y +1, más correlación tenemos. Por eso, r=-0,9 es más correlación que r=0,8, porque 0,9 es más grande que 0,8.

24. Respecto a la magnitud de la correlación hemos de matizar un poco su significado. El valor de las cosas en euros y en pesetas tiene r=1.

25. En este caso estamos en la situación de máxima magnitud de correlación. Se trata de un caso de total dependencia entre dos variables.

26. Al saber el valor en euros de un producto sabes el valor en pesetas. Aquí no hay incertidumbre. Otra cosa es la relación entre la altura y el pie.

27. La correlación posiblemente sea próxima a 0,9. Ahora medir 1,80 no determina exactamente el pie que calzas. Hay una cierta variación.

28. Entre altura y peso posiblemente tengamos una r=0,6. Claro que hay una correlación positiva, pero de menor magnitud.

29. Si sabemos la altura de una persona las longitudes de pie que esta persona pueda tener tienen menos dispersión que los pesos que pueda tener. Los pesos posibles varían más las alturas posibles.

30. Mayor magnitud de la correlación significa, pues, mayor dependencia, mayor proximidad a la relación que tienen pesetas y euros.

31. Observemos en el gráfico adjunto cómo cambia la disposición de los valores de dos variables en función tanto del signo como de la magnitud de la correlación entre ellas:

IMG_4122

32. Decíamos antes que hay tres elementos a tener en cuenta en la correlación: signo, magnitud y significación. Hemos visto hasta ahora signo y magnitud.

33. Vamos a ver ahora el más complejo: la significación. Este es un concepto nuclear en Estadística, como iremos viendo.

34. De hecho, la noción de significación es nuclear en Estadística. Se podría decir, en realidad, que la Estadística, en buena parte, es la ciencia que estudia la significación. Ya iremos viendo realmente, en este curso, la trascendencia que tiene este concepto en la Estadística.

35. Significación en Estadística significa algo así como fiabilidad. Un resultado significativo es un resultado por el que podemos apostar.

36. Ante una afirmación estadísticamente significativa podemos pensar que si volviésemos a hacer lo mismo, en las mismas circunstancias, pero con otra muestra, acabaríamos diciendo algo similar, algo equivalente.

37. Podemos pensar, pues, que estamos ante una muestra tipo, ante una buena muestra de muestras, ante una muestra que es representativa del conjunto de todas las muestras que hubiéramos podido tener.

38. Por lo tanto, lo que estamos calculando a la muestra que tenemos es un valor fiable, un valor que no cambiaría mucho con otra muestra tomada en las mismas circunstancias. Por lo tanto, nos acercamos mucho al valor poblacional.

39. Una afirmación si es estadísticamente significativa representa que la Estadística cree que aquel resultado es muy poco probable que sea fruto del azar de un muestreo.

40. Si una técnica estadística duda de la representatividad de un muestreo dice: “no significativo”. Es muy precavida, muy prudente. La ciencia tiene que ser así, evidentemente.

41. La significación estadística se mide mediante el p-valor. Éste es un valor que va del 0 al 1, con dos zonas, dentro de este intervalo, bien diferenciados.

42. Estas dos zonas son: del 0 al 0,05 y del 0,05 al 1. Una metáfora posible es la de las notas: En nuestro sistema educativo las notas van del 0 al 10.

43. Y en este intervalos del 0 al 10 es bien distinta la zona de notas que va del 0 al 5 que la que va del 5 al 10. Esto mismo sucede con el p-valor.

44. La frontera del 0,05 en el p-valor es, en cierto modo, equivalente al 5 en las notas. Pero cuidado: 0,05, no 0,5.

45. Una correlación será significativa si su p-valor es inferior a 0,05. Si no es significativa hemos de presuponer que, entonces, r=0.

46. Siguiendo la metáfora de las notas, es como si se examinara la afirmación r=0. Si el p-valor es igual o superior a 0,05, entonces esta afirmación aprueba. En este caso, mantenemos la afirmación de no correlación entre las variables estudiadas.

47. Pero si, por el contrario, el p-valor es inferior a 0,05 tal afirmación entonces suspende y decidimos que la r no es 0 y nos quedamos con el signo y la magnitud de la r calculada.

48. Observemos que el margen de la afirmación r=0 es muy amplio: va del 0,05 al 1; o sea, es una longitud de 0,95 sobre 1. Esto es lo que permite hablar de “significativo” cuando suspende.

49. Si la hipótesis examinada teniendo tanto margen, suspende, es que podemos rechazarla con un buen nivel de confianza de que no nos estamos equivocando al hacerlo.

50. De esta forma podemos decir que una r=0,8 con un p-valor de 0,26 es, en realidad, una correlación más baja que una r=0,4 con p=0,001.

51. Porque, en este caso, la r=0,8, al no ser significativa, no podemos fiarnos de ella. Puede ser un efecto del azar del muestreo.

52. De la misma forma que en esta muestra hemos calculado una r=0,8 en otra muestra tomada en las mismas condiciones podríamos tener r=-0,8. Por lo tanto, este 0,8 no es fiable.

53. Por eso ante esta posibilidad la técnica estadística nos dice: Ante la duda mejor afirmar que no hay relación; o sea, que r es igual a 0.

54. Veamos en el gráfico que sigue cómo serían los valores de dos muestras donde se pudieran ver estas dos situaciones planteadas. Si se observa en la muestra con la correlación r=0,8 la fiabilidad de esta correlación es baja. Al estar basado el cálculo en una muestra muy pequeña no tenemos la garantía de que al aumentar la muestra se mantendrá este nivel de correlación. Sin embargo, en el caso de la correlación r=0,4, no se trata de una gran correlación pero sí es fiable. Parece que a la luz de lo que vemos en la muestra, si aumentamos el tamaño de muestra no es previsible que cambie mucho el nivel de correlación. Podemos decir, pues, que la correlación r=0,8 es inestable, con el nivel de información que tenemos, está poco solidificada. En cambio, la correlación r=0,4 es una correlación sólida, fiable:

IMG_6957

Si las variables x e y realmente fueran independientes, si tuvieran r=0, a nivel poblacional tendríamos algo así:

IMG_6956

Observemos a continuación los datos muestrales de antes pero sobre este fondo:

IMG_6960

Observemos que en el gráfico de la izquierda tener una población así y obtener una muestra así es muy poco probable. Por eso descartamos la posibilidad de la independencia entre las variables, descartamos que la correlación r sea 0. Sin embargo, en el de la derecha, tener una población como la que tenemos en el fondo y obtener una muestra así es muy probable, como también sería muy probable ver una muestra incluso con una correlación negativa. En este caso no podemos descartar que la r sea 0 porque es posible ver lo que vemos y que a nivel poblacional no exista, en realidad, relación entre esas variables.

55. Es fundamental entender esto. Ver que la significación es algo distinto a la magnitud de una correlación es importantísimo para entender el peculiar lenguaje de la Estadística.

56. La significación tiene mucho que ver, evidentemente, con el tamaño de muestra. Si ese tamaño es pequeño es difícil que la Estadística se fíe de ella.

57. Las muestras de tamaño pequeño son muy imprevisibles porque las diferentes muestras posibles son muy diversas entre ellas.

58. En muestras grandes hay mucha homogeneidad entre las diferentes muestras posibles. Por eso será más fiable lo que una de ellas diga.

59. La metáfora de las notas, del aprobado y suspenso para explicar el contraste de hipótesis y el p-valor tal vez habrá que explicarla un poco más, por la importancia que tiene.

60. La correlación es significativa si el p-valor es inferior a 0,05.

61. El p-valor se mueve entre 0 y 1. Si éste es mayor o igual que 0,05 decimos entonces que no hay correlación; o sea, que no tenemos ningún argumento firme para dudar de la afirmación: r=0.

62. Por eso digo que se puede ver como si quien se examinara fuera r=0 y que el p-valor fuera como la nota de ese examen.

63. Si es menor que 0,05 suspende r=0 y hablamos, pues, de correlación significativa; y si es mayor o igual que 0,05 entonces r=0 no suspende. Se mantiene tal afirmación. De momento ésta no se contradice con lo que sabemos, con lo que vemos.

64. Decimos entonces que no tenemos pruebas que nos permitan afirmar, de forma fiable, que hay correlación entre esas variables.

65. No tenemos pruebas suficientes para afirmar cuál debe ser el signo y la magnitud de la correlación a nivel poblacional. Pensemos que estamos intentando sacar conclusiones poblacionales a partir de una información puramente muestral. Esto es un elemento que está siempre presente en Estadística.

66. Al basarse la decisión en un número entre 0 y 1 y en una frontera (0,05), el paralelismo con la enseñanza es claro.

67. En España, las notas son un número que va del 0 al 10, con una frontera muy clara en el 5.

68. Como puede verse la frontera establecida en el p-valor sugiere realmente un trato de favor para el aprobado. Esto es para que cuando suspenda r=0 tengamos muy pocas posibilidades de errar.

69. Por eso hablamos de correlación significativa cuando el p-valor traspasa ese límite.

70. Le hemos dado mucho margen a r=0 y acabamos viendo, en ese caso, si el p-valor es menor que 0,05, que no es coherente mantener esta afirmación a la luz de lo que estamos viendo en la muestra que tenemos.

71. Entender este razonamiento es fundamental en Estadística. Estamos abordando, con esto, en realidad, el núcleo básico de la Estadística.

72. En Estadística a todo esto que estamos viendo le denominamos “Contraste de hipótesis”. Vamos a ver, ahora, la terminología que usamos.

73. En Contraste de hipótesis se habla de Hipótesis nula: H0, y de Hipótesis alternativa: H1. Y de que hemos de decidirnos por una u otra.

74. La decisión no es como cuando compramos una camisa poniendo una al lado de la otra para ver cuál nos gusta más.

75. La H0 parte como cierta y sólo nos decantaremos por la H1 si la H0 es absurdo mantenerla viendo lo que vemos en la muestra.

76. Por eso H1 se le denomina alternativa, porque es la alternativa de la nula cuando no es lógico mantenerla tras analizar la muestra.

77. En todo lo visto con la correlación podemos ahora conectar: H0 es r=0 y H1 es r distinta de 0.

78. El p-valor es el criterio objetivo basado en el análisis de la muestra que nos permite decidirnos por mantener H0 o pasarnos a la H1.

79. Esta lógica de funcionamiento va a ser el tema nuclear de casi todas las técnicas que iremos viendo a lo largo de este curso.

80. Siempre digo que la estructura de la Estadística es como la del Bolero de Ravel: un mismo tema que va repitiéndose machaconamente.

81. El tema machacón del Bolero de Ravel de la Estadística es esta noción de contraste de hipótesis y el p-valor como criterio de decisión.

82. Pero volvamos a la correlación: Ésta se calcula por dos razones básicas: 1) Para cuantificar el grado de relación entre las dos variables.

83. 2) Para crear una función matemática que modelice la relación entre esas variables. A esto segundo se le denomina “Regresión”. Será el siguiente tema.

Tema 3: INTERVALOS DE CONFIANZA

1. Una buena forma de empezar la Inferencia estadística es hacerlo mediante los Intervalos de confianza, porque aunque sean procedimientos inferenciales, mantienen una importante conexión con la descriptiva. Por esto lo planteo en este capítulo a modo de bisagra entre la Estadística descriptiva y la Estadística inferencial.

2. En una buena parte de muestras, sabiendo la media y la Desviación estándar podemos deducir todos los demás cálculos que podemos hacer a una muestra. Por esto es tan habitual resumir una variable cuantitativa mediante estos dos descriptores.

3. Cuanto más forma de campana de Gauss siga la distribución de los valores de la muestra más será cierto lo dicho en el punto anterior.

4. Una muestra se distribuye de forma normal, o según una campana de Gauss, básicamente cuando se cumplen dos condiciones: 1) Cerca de la media está la mayoría de valores. 2) De forma progresiva y simétrica va disminuyendo la densidad de valores al alejarse, por ambos lados, de la media de la muestra. Hay formas precisas para comprobar la normalidad de una muestra (como veremos en el Tema 14: Comparación de dos poblaciones), y hay formas más aproximadas como son que la Asimetría estandarizada y la Curtosis estandarizada de la muestra sean, ambos, valores que estén entre -2 y 2, como hemos visto en el Tema 2.

5. La muestra (1, 4, 6, 6, 7, 7, 7, 8, 9, 11, 13) sigue bien el carácter de normalidad. La muestra (3, 3, 3, 4, 11, 12, 12, 123) no lo sigue.

6. En la primera está claro que la mayor parte de valores están cercanos al valor central de la muestra y a derecha e izquierda de ese valor central hay más o menos el mismo número de valores; o sea, que hay simetría entre ambos lados.

7. En la segunda, sin embargo, esto no es así. Observemos que hay como tres focos en la muestra: uno próximo a 3, otro próximo a 12 y otro en torno a 123. Esto no se ajusta al ritmo de la campana de Gauss.

8. Ante toda muestra que sigue bien una distribución normal podemos hacer unas importantes afirmaciones acerca de la población:

9. Dentro del intervalo que va de la media menos una Desviación estándar (DE) hasta la media más una DE tenemos aproximadamente el 68.5% de los valores.

10. Esto lo escribimos normalmente así: M±DE. También escribiremos: (M-DE, M+DE).

11. Ejemplo: Supongamos una muestra de alturas de personas, que sigue bien una distribución normal, y que tiene una media de 170 y una DE de 8.

12. En esta población el 68.5% de las personas mide entre 162 y 178 cm, o sea, dentro del intervalo (170-8, 170+8)= (162, 178).

13. De la misma forma, la media más menos dos DE cubre el 95% y la media más menos tres DE cubre aproximadamente el 99.5%.

14. En el intervalo (154, 186) tenemos el 95% de individuos de la población y en (146, 194) el 99.5%.

15. Media más menos una DE, más menos dos DE y más menos tres DE, cubren, pues, el 68.5, el 95 y el 99.5%, respectivamente, de la población.

16. Muestra: (1, 2, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 10, 11, 15). Sigue la distribución normal. La media es 6.75, la DE es 3.

17. Podemos decir que la población de donde hemos tomado esta muestra es una Normal de media 6.75 y DE 3. Escrito así: N(6.75, 3).

18. Esta población queda modelizada por esa distribución. Lo que calculemos a la N(6.75, 3) es como si le calculásemos a la población.

19. Por eso es un modelo, porque sustituye a una realidad, porque la aproxima, porque la representa, porque, en cierto sentido, puede ocupar su lugar.

20. La distribución normal, como modelo de la realidad, es muy usual porque muchas variables se distribuyen de esta forma.

21. Gauss creó una maquinaria matemática (la campana de Gauss) que es una buena maqueta de la variabilidad de muchas variables.

22. De Campanas de Gauss tenemos infinitas. El símbolo general de una de ellas es N(μ, σ). ¿Qué significan la μ y la σ?

23. La μ y la σ son los llamados parámetros de la normal, son como las tallas. Como cuando pedimos unos zapatos del 42.

24. Pero aquí pedimos dos números. Como si para los zapatos necesitáramos pedir mediante dos números: uno para la longitud y otro para la anchura.

25. La μ es el punto más alto de la campana de Gauss y la σ es una medida del grosor de la campana, de su estilización.

26. He escrito ahora N(μ, σ) pero antes he usado la expresión N(M, DE), ¿por qué?

27. Porque la media M, de una muestra, estima la media de la población que, matemáticamente, es representada por la μ de la normal.

28. La DE de una muestra estima la σ, que es una medida de la dispersión poblacional. Por eso M es a μ lo que DE es a σ.

29. Cuando decimos que utilizaremos una N(μ, σ) es como decir que queremos comprar un determinado modelo de zapato.

30. Cuando decimos que utilizamos una N(M, DE) es como cuando pedimos el número 42 de un determinado modelo de zapato, porque la M y la DE siempre serán dos números concretos calculados a la muestra que tengamos.

31. La M y la DE calculada a una muestra que se ajusta a una normal nos eligen la talla de la campana de Gauss que se ajusta mejor a nuestro caso.

32. Una vez tenemos una normal concreta como modelo de una población lo que calculemos al modelo es como si, en realidad, lo calculásemos a la población.

33. Esta es la ventaja de tener modelos en ciencia: sustituyen a la realidad, son maquetas matemáticas que podemos manejar.

34. Maquetas a las que les podemos preguntar cosas: lo que ellas nos respondan es, aproximadamente, lo que nos respondería la población modelizada.

35. Lo de media más menos una, dos y tres DE y los porcentajes vistos son ejemplos de esas preguntas posibles.

36. Modelizar, crear modelos, sirve, pues, para representar una realidad con piezas de otros materiales. Piezas y materiales que son mucho más fácilmente manejables, a los que se les puede alterar cosas y ver su comportamiento, su respuesta.

37. En matemáticas a los modelos se les puede calcular cosas con mucha facilidad. En Estadística un modelo representa, dibuja una realidad determinada, una población, por lo tanto, estos cálculos que hagamos en él son como si les hiciésemos a estas poblaciones.

38. Al calcularle cosas al modelo es como si estuviéramos calculándole cosas a algo que en realidad no tenemos. Este juego es importante entenderlo bien. Es clave para comprender el proceder de la Estadística.

39. Veamos, ahora, un dibujo de la campana de Gauss y de los tres intervalos (media más menos una, dos y tres desviaciones estándar) asociados a los tres números (68.5%, 95% y 99.5%), respectivamente; números que ya no debemos olvidar nunca para poder manejar con propiedad estos dos básicos descriptores de una muestra que son la media y la desviación estándar:

40. Si no hay ajuste a la distribución normal es más recomendable, entonces, usar la mediana y el rango intercuartílico porque al usar la media y la desviación estándar, con el más y el menos entre ellas, resulta una invitación a una inferencia que en absoluto es correcta. Incluso pueden resultar muy incorrectas las inferencias que hagamos a partir de estos dos valores. Ver el importante artículo ¿La media y la desviación estándar o la mediana y el rango intercuartílico? para aclarar cuándo resumir una variable de una u otra forma.

41. Veamos, ahora, otra cuestión que lleva a muchos errores. Una de las confusiones más frecuentes que cometen los usuarios de la Estadística se da entre dos nociones de intervalo de confianza bien distintas que pueden usarse y que, si no están claramente perfiladas, es fácil intercambiar y mezclar. Vamos a intentar clarificar estas dos nociones de intervalo de confianza porque hasta ahora hemos visto únicamente una de ellas:

42. Supongamos que un estudio dice que un intervalo del 95% de la media de la altura de adultos en una población es (169, 171). ¿Significa esto que el 95% de la gente de esa población mide entre 169 y 171?

43. Supongamos dos equipos de investigación que estudian las alturas de una misma población: el equipo A y el equipo B.

44. El equipo A toma una muestra de tamaño 100 de esta población y la media resulta que es 170 y la desviación estándar (DE) es 10.

45. El equipo B toma una muestra de tamaño 400 de la misma población y resulta que al calcular la media y la DE obtiene los mismos valores: 170 y 10.

46. El que la media y la DE den lo mismo es porque estamos teorizando y me va bien que sea así, pero no sería extraño que dieran valores muy parecidos.

47. Pensemos que ambos equipos están estudiando la misma población. Es lógico que no haya mucha diferencia entre los descriptores calculados a sus muestras.

48. Ambos equipos dirán que entre 150 y 190 tenemos el 95% de alturas poblacionales, por todo lo dicho antes.

49. Para decir eso ambos equipos miran primero la normalidad de la muestra y toman, luego, la media y le suman y restan dos veces la DE.

50. Estarían aplicando, ambos equipos, esta regla general que en toda distribución normal la media más menos dos desviaciones estándar cubren el 95% de los valores individuales.

51. Pero si ambos equipos nos dieran un intervalo del 95% de la media sería: (168, 172) el del equipo A y (169, 171) el del equipo B.

52. Porque el intervalo es ahora “de la media”. Este intervalo no significa que el 95% de alturas están entre sus límites.

53. Significa que tenemos una confianza del 95% de que la verdadera media poblacional esté dentro del intervalo.

54. Y en este tipo de intervalo de la media el tamaño de la muestra es determinante porque marca la precisión que tenemos para hacer una predicción.

55. Cuanto mayor sea el tamaño de la muestra más precisión y, por lo tanto, más estrecho será el intervalo.

56. Para entender esto hay que profundizar en la noción de variable en Estadística.

57. Una variable cuantitativa es una medida que podemos evaluar a unas entidades determinadas. El peso, la altura, la renta en 2010 son variables que podemos medir a personas.

58. El número de sílabas es una variable que podemos medir a toda palabra del castellano. El número de trabajadores lo es para empresas, etc.

59. Pues bien, algo muy importante: la media muestral es una variable que se puede medir a toda muestra de un tamaño n en una población. Esto es muy importante. Esta noción de media muestral, con su dualidad (el ser un número para una muestra y el ser una variable para el conjunto de todas las muestras posibles), es realmente uno de los temas esenciales de la Estadística.

60. Cuando tomamos una muestra de una población la muestra que tenemos es una de las muchísimas muestras que podríamos tener.

61. Claro que nosotros únicamente tenemos una, pero el número de muestras que hubiéramos podido tener y no tenemos es enorme.

62. Es sorprendente pero en Estadística para sacarle provecho a una muestra debemos pensar no únicamente en ella sino en todo el repertorio de muestras que hubiéramos podido tener y no tenemos. Es como si el significado de lo que tenemos quedara explicitado por todo lo que no tenemos pero que hubiéramos podido tener.

63. Por lo tanto, la media muestral como variable que es tiene media y DE. Si la media muestral es una variable, como toda variable tiene media y desviación estándar, también las tendrá, evidentemente, la media muestral o cualquier estadístico, cualquier descriptor, cualquier estimador que calculemos a una muestra.

64. Media y DE que nunca tendremos realmente pero sí idealmente, teóricamente, conceptualmente; que significa, en Estadística, algo así como aproximadamente. Y no tendremos todas las muestras posibles nunca porque para tenerlas necesitaríamos tener toda la población y si tuviéramos toda la población, evidentemente, no nos haría falta para nada la Estadística.

65. Pues aquí va un concepto muy importante: Si una variable sigue la N(M, DE) la media de esta variable también es una normal.

66. Una normal también con su media y su desviación estándar. Su media es, exactamente, la misma que la de la variable original; o sea: M.

67. Su DE es la de la variable original dividido por la raíz cuadrada del tamaño de muestra: DE/raíz(n).

68. O sea, si una variable sigue una distribución N(M, DE) la media muestral sigue una distribución N(M, DE/raíz(n)).

69. De ahí que la precisión a la hora de construir intervalos de confianza de la media dependa del tamaño de muestra.

70. Cuanto mayor es el tamaño de la muestra, como la n está en el denominador, el cociente DE/raíz(n) es menor.

71. Por lo tanto, los intervalos construidos a partir de esta desviación estándar serán, así, más estrechos, más precisos.

72. Y es muy importante tener en cuenta que ahora el intervalo construido es un intervalo de la media poblacional. Por esto hablamos de intervalo de la media y no de intervalo a secas.

73. Cuando se habla de intervalo sin más, como lo hemos hecho al comienzo de este tema, nos estaremos refiriendo habitualmente a intervalos de valores individuales de la variable estudiada.

74. Es obvio que estamos hablando, pues, de dos tipos de intervalos completamente distintos, aunque, como tales, funcionan igual: creando un intervalo de un determinado nivel de confianza. Pero con objetivos diametralmente distintos, evidentemente.

75. Volvamos al ejemplo de antes. Teníamos dos equipos: el A y el B, estudiando las alturas de una misma población.

76. Los dos equipos trabajaban con distinto tamaño de muestra: el A con tamaño 100 y el B con tamaño 400. Pero los dos tenían igual M y DE.

77. Como las M y las DE son las mismas en ambas muestras, decía antes que el intervalo del 95% de valores que dan es el mismo.

78. Porque ambos equipos modelizan la población de la misma forma: con una distribución normal N(170, 10).

79. Pero veíamos también que el intervalo de confianza del 95% de la media que da cada equipo es distinto: (168, 172) y (169, 171).

80. Veamos cómo calcula cada equipo su intervalo de confianza del 95% de la media.

81. Para el equipo A, DE/raíz(n) vale 10/raíz(100)=10/10=1. Por lo tanto, la media muestral sigue una distribución N(170, 1).

82. Para el equipo B, DE/raíz(n) vale 10/raíz(400)=10/20=0.5. Por lo tanto, la media muestral sigue una distribución N(170, 0.5).

83. Puede entenderse, pues, que si construyen un intervalo de confianza del 95% de la media tomen la media más menos dos DE/raíz(n).

84. El cociente DE/raíz(n) es la DE de la media muestral. A esta DE de la media muestral, vista ésta como variable, se le denomina Error estándar (EE). La relación entre el EE y la DE es la siguiente:

IMG_6927

85. El Error estándar es, por lo tanto, una Desviación estándar, pero se le denomina así para singularizarla. Es una Desviación estándar pero de una predicción: en nuestro caso de la media poblacional, pero podría ser de otro valor poblacional.

86. A toda Desviación estándar de una predicción se le denomina Error estándar. Y lo que tienen todos esos Errores estándar en común es que se trata de una operación donde en el numerador hay una medida de la Desviación estándar de la variable estudiada y en el denominador está de alguna forma contemplado el tamaño de muestra.

87. Por lo tanto, el tamaño de muestra condiciona completamente la magnitud del Error estándar, en cambio no lo hace así con la Desviación estándar de una variable, la cual se debe a las peculiaridades de la distribución de valores de esa variable en la naturaleza.

88. El error estándar es, pues, una DE, pero una DE de la media muestral, una DE que se construye a partir de la DE de la variable original.

89. Se entiende, pues, que el intervalo del 95% del equipo A sea (168, 172) y el del B sea (169, 171), basta con sumar y restar dos errores estándar (EE).

90. El EE que tenía la media muestral del equipo A hemos visto que era 1, de ahí el 170±2: (168, 172).

91. El EE que tenía la media muestral del equipo B hemos visto que era 0.5. Dos veces ese EE nos lleva al intervalo 170±1: (169, 171). A continuación un resumen en forma de tabla de este ejemplo:

IMG_6893

92. Tener muestras más grandes, pues, nos permite construir intervalos más estrechos a la hora de hacer predicciones.

93. Es básico tener en cuenta siempre en Estadística una cosa que es muy importante: Cuando una muestra es grande habrá poca diferencia entre las diferentes muestras que hubiéramos podido obtener pero que no tenemos. Por lo tanto, es más fiable, estamos muy posiblemente más cerca de lo que buscamos, de lo que pretendemos estimar, en estas circunstancia. Por lo tanto, los intervalos que construyamos podrán ser relativamente estrechos.

94. Sin embargo, cuando una muestra es pequeña las diferentes muestras que hubiéramos podido obtener pero que no tenemos son, ahora, muy diversas entre ellas. Evidentemente, lo que calculemos a la que tenemos es, ahora, menos fiable. Es muy posible que estemos considerablemente lejos del valor que queremos pronosticar. Por lo tanto, los intervalos deben ser, en estas circunstancias, mayores, porque tenemos mucha inseguridad en lo que le calculemos a esta muestra.

95. Es, pues, muy importante diferenciar: En ocasiones se dan intervalos de la variación de una variable, como cuando se daba el intervalo (150, 190).

96. En otras ocasiones se dan intervalos de la media como los (168, 172) o (169, 171). Es básico ver esta diferencia. Es fundamental distinguir cuándo tenemos un tipo de intervalo y cuándo tenemos el otro tipo, porque son sustancialmente distintos.

97. Repito: aquí hablo de intervalos de la media, pero deberíamos hablar de intervalos de una predicción. Cualquier predicción va asociada de un tipo de intervalo que representa un intervalo de confianza sobre un determinado valor poblacional y se construye mediante un Error estándar.

98. Iremos viendo, a lo largo de este curso, valores poblacionales que suelen estimarse mediante intervalos de confianza de este tipo: la media, la correlación de dos variables, la Odds ratio, los coeficientes de una regresión entre dos o más variables, etc.

99. Los dos intervalos de confianza más usuales son el de la media y el de una proporción. A continuación vemos cómo se construye un intervalo del 95% de ambos valores poblacionales:

IMG_8047

100. Observemos cómo se aplicaría el segundo de estos intervalos. El primero ya lo hemos visto a lo largo de la exposición del tema. Supongamos que hemos hecho un estudio mediante el cual queremos estimar la prevalencia de la diabetes en España. La muestra, supongamos, que es de tamaño 10000 y que 700 tienen diabetes; o sea, un 7% ó un 0.07, hablando en proporciones, en tanto por uno. Si queremos construir un intervalo de confianza del 95% para estimar la proporción poblacional de diabéticos en España aplicaríamos, entonces, la segunda formulación de la siguiente forma:

IMG_8049

101. Como puede observarse aunque el cálculo se haga en tanto por uno, porque esta es la formulación habitual, al final el intervalo del 95% lo expresamos en términos porcentuales. Estaríamos, pues diciendo que con una confianza del 95% la proporción de diabéticos en España está entre el 6.49% y el 7.51%.