Archivos Mensuales: junio 2013

La eta cuadrada y la eta cuadrada parcial

La eta cuadrada y la eta cuadrada parcial son dos medias del tamaño del efecto (Effect size) en ANOVA. Observemos qué calculo es cada una de ellas:

IMG_5983

Suele considerarse que una eta cuadrada en torno a 0,01 es poco efecto, que una eta cuadrada en torno a 0,06 indica un efecto medio y que una eta cuadrada superior a 0,14 es ya un efecto grande.

Son cálculos hechos, todos ellos, a partir de la tabla ANOVA, pero con una particularidad: como sucede en toda medida del tamaño del efecto, no depende del tamaño de muestra, porque no es una medida de Significación formal, es una medida de Significación material. Sería recomendable leer el artículo dedicado a la Significación formal y material.

Digo que no dependen del tamaño muestral porque los cálculos están hemos con las sumas de cuadrados, no con los cuadrados medios. El cálculo del p-valor depende de concientes de cuadrados medios, como podemos ver en las técnicas ANOVA (Ver el Tema dedicado al ANOVA.

La d de Cohen

La d de Cohen es una medida del Tamaño del efecto (En inglés “Effect size”). Es una medida relativa entre la diferencia de medias de dos poblaciones comparadas respecto a la dispersión de esas dos muestras.

Veamos el cálculo:

IMG_5980

Suele considerarse que una d en torno a 0,2 es un efecto pequeño, una d en torno a 0,5 un efecto moderado y una d por encima de 0,8 un efecto grande. Evidentemente, la d, por cómo está estructurado su cálculo, puede ir creciendo y creciendo indefinidamente.

Para situar bien este concepto en la Estadística sería interesante leer el tema dedicado a la Significación formal y material.

Solución Situación 35

1a: Hay dos correlaciones significativas: 0.6 y 0.2. Evidentemente, 0.6 es mayor que 0.2.

2a: Sólo una Odds ratio es significativa: 0.25. Las otras no son significativamente distintas de 1.

3c: El error estándar es 0.5 porque 10/raíz(400) es 0.5. Dos veces 0.5 es 1, que es lo que hay que restar y sumar a la media para construir un intervalo de confianza del 95%.

4b: Como -7 es igual a -5-2 y -3 es igual a -5+2, el intervalo que va de -7 a -3 es la media menos más una desviación estándar. Esto en la distribución normal significa un área de 0.68.

5d: La mediana no es 2, es 1.5.

 

Situación 35: Examen (Temas 1-9)

1. ¿Qué correlación es mayor?

a. r= 0.6 IC 95%: (0.3, 0.99)

b. r= 0.7 (p>0.05)

c. r= -0.7 IC 95%: (-0.99, 0.1)

d. r= 0.2 (p<0.05)

2. ¿Qué Odds ratio es mayor; o sea, cuál indica más relación entre dos variables dicotómicas?

a. 0.25 (p<0.05)

b. 2 (p>0.05)

c. 10 (p>0.05)

d. 15 (p>0.05)

3. Si una muestra de tamaño 400, que se ajusta bien a una distribución normal, tiene una media muestral de 40 y una desviación estándar de 10, un intervalo de confianza del 95% de la media poblacional sería:

a. (38, 42)

b. (0, 80)

c. (39, 41)

d. (35, 45)

4. En una distribución normal N(-5,2) el área que hay entre -7 y -3 es aproximadamente de:

a. 0.05

b. 0.685

c 0.95

d. 0.995

5. En la muestra siguiente (8, 1, 1, 1, 1, 2, 2, 10) no es cierto:

a. El rango es 9.

b. El rango intercuartílico es 4.

c. El máximo es 10.

d. La mediana es 2.

Solución

Solución Situación 34

1d: Es la única correlación significativa. Las otras o el p-valor es superior a 0.05 ó el intervalo de confianza incluye al 0.

2d: Hay dos Odds ratio significativas: 10 y 15. Evidentemente, entre ellas, 15 es mayor.

3a: El error estándar es 1 porque es 20/raiz(400). El Intervalo de confianza del 95% será la media más menos dos errores estándar.

4b: Variable dicotómica y muestras relacionadas: Por lo tanto, test de McNemar.

5a: Si se observa la muestra se apreciará que claramente no se ajusta a una distribución normal, por lo tanto el test de Shapiro-Wilk debe dar un p-valor de rechazo de la hipótesis nula, un p-valor inferior a 0.05.

6d: No es cierta ninguna de las tres afirmaciones. Lo que falta saber, básicamente, para ver si será o no significativa esa diferencia, es el tamaño de las dos muestras tomadas en esas dos poblaciones.

7c: La distancia entre -9 y -1 representa menos y más dos desviaciones estándar respecto a la media.

8c: Las otras tres son ciertas. Si la desviación estándar es la raíz cuadrada del promedio de las desviaciones al cuadrado no parece que 50 pueda ser ese valor. Debe ser mucho menor. Observemos que la media está próxima a 3. Claro que habrá algunas diferencias de 7 ó de 5 pero también muchas de aproximadamente 2. Los cuadrados de esos números permiten pensar que ni la varianza alcanzará el valor de 50.

9d: Los Box-Plot nos hablan de la muestra, es una descripción de ella. Pero para ver si habrá diferencias significativas entre las medias de esas dos poblaciones nos falta saber el tamaño de muestra. Sin él no podemos decir nada.

10c: Es una definición posible del p-valor.

Situación 34: Examen (Temas 1-14)

1. ¿Qué correlación es mayor?

a. r= 0.6 IC 95%: (-0.3, 0.99)

b. r= 0.5 (p>0.05)

c. r= -0.7 IC 95%: (-0.99, 0.1)

d. r= 0.2 (p<0.05)

2. ¿Qué Odds ratio es mayor; o sea, cuál indica más relación entre dos variables dicotómicas?

a. 0.25 (p>0.05)

b. 2 (p>0.05)

c. 10 (p<0.05)

d. 15 (p<0.05)

3. Si una muestra de tamaño 400, que se ajusta bien a una distribución normal, tiene una media muestral de 40 y una desviación estándar de 20, un intervalo de confianza del 95% de la media poblacional sería:

a. (38, 42)

b. (0, 80)

c. (39, 41)

d. (35, 45)

4. Estamos estudiando dos posibles nuevos productos mediante la evaluación de la valoración que dan una serie de degustadores. Cada encuestado prueba los dos productos y debe únicamente contestar si lo consumiría o no cada uno de ellos. El Test a aplicar será:

a. El Test de proporciones.

b. El Test de McNemar.

c. El Test exacto de Fisher.

d El Test de los signos.

5. En una muestra como la siguiente: (4.2, 8.1, 9.2, 9.3, 10.1, 10.4, 10.5, 11.2, 12.4, 130.1, 130.4, 131.2, 133.5) si aplicamos un Test de Shapiro-Wilk el p-valor más lógico que podemos obtener es:

a. 0.00002

b. 0.08

c. 0.5

d. -0.2

6. Queremos hacer un Test de comparación de proporciones para comprobar si el porcentaje de mujeres que consumen el producto A es distinto según se trate de mujeres que viven en poblaciones de menos de 50.000 habitantes o en poblaciones de más de 50.000. Para ello cogemos una muestra de mujeres de poblaciones de menos de 50.000 habitantes y otra en poblaciones de más de 50.000 habitantes. En la muestra del primer tipo de poblaciones el 30% son consumidoras del producto A. En la del segundo tipo de poblaciones sólo el 20% son consumidoras. Podemos, a partir de estos datos, decir:

a. El p-valor será mayor que 0.05 porque los porcentajes son muy similares.

b. El p-valor será menor que 0.05 porque aunque los porcentajes son muy similares las poblaciones son muy grandes.

c. No tenemos p-valor en las comparaciones de dos proporciones.

d. Ninguna de las tres afirmaciones anteriores es cierta.

7. En una distribución normal N(-5,2) el área que hay entre -9 y -1 es aproximadamente de:

a. 0.05

b. 0.685

c 0.95

d. 0.995

8. En la muestra siguiente (8, 1, 1, 1, 1, 2, 2, 10) no es cierto:

a. El rango es 9.

b. El rango intercuartílico es 4.

c. La desviación estándar es 50.

d. La mediana es 1.5.

9. En una comparación de dos poblaciones tenemos dos muestras (la Muestra 1 y la Muestra 2), una de cada población, con los siguientes Box-Plots:

IMG_5878

Podemos afirmar lo siguiente:

a. En el test de comparación de dos poblaciones que hagamos el p-valor será superior a 0.05 porque las muestras se solapan mucho.

b. En el test de comparación de dos poblaciones que hagamos el p-valor será inferior a 0.05 porque las medias muestrales están lo suficientemente separadas.

c. No podemos decir cuál sería el resultado del contraste de hipótesis porque no tenemos la desviación estándar de cada muestra.

d. No podemos decir cuál sería el resultado del contraste de hipótesis porque no tenemos el tamaño muestral de las muestras.

10. ¿Qué afirmación, entre las siguientes, es correcta?:

a. El p-valor es un valor que va del -1 al 1, pasando por el cero.

b. El p-valor es una medida de relación entre dos variables cuantitativas.

c. El p-valor es un número que valora la posición relativa de los que vemos respecto lo que deberíamos ver si fuera cierta la Hipótesis nula.

d. Si el p-valor es mayor que 0.05 rechazamos la Hipótesis nula.

Solución

Alfa de Cronbach

La Alfa de Cronbach es un método para comprobar la fiabilidad, la sintonía, de una serie de medidas realizadas a alguna característica. Se basa en el cálculo de un índice que va del 0 al 1 y que refleja el grado de sintonía, de paralelismo, en una serie de medidas que pretenden ser equivalentes, que pretenden ser diferentes formas de medir lo mismo.

Suelen manejarse dos formulaciones distintas, aunque equivalentes, de la Alfa de Cronbach. Son las siguientes:

IMG_5933

IMG_5934

Observemos que, en ambos casos, valores altos de la Alfa nos muestran sintonía entre las variables que potencialmente miden lo mismo.

Este Alfa también es usada con frecuencia para ver la consistencia, la adecuación, de una encuesta. El que la Alfa sea próxima a 1 indica que se trata de preguntas que están en una relación paralela, lo que indica que los diferentes encuestados las entienden. Una encuesta con baja Alfa sería una encuesta en la que existe una aleatoriedad a la hora de responder. Es evidente que en una encuesta la principal componente será siempre los que contestan alto y bajo pero de forma paralela, homogénea.