Archivos Mensuales: enero 2015

Solución Situación 78

1d: Para tener un índice de Gini tan pequeño hace falta que los valores muestrales sean muy similares. La única muestra que cumple tal cosa es ésta. Las demás tienen mucha dispersión.

2b: El tercer cuartil es 8 y el primero 7. Por lo tanto, el rango intercuartílico es 1.

3b: El error estándar en esta muestra es 10, porque la desviación estándar es 100 y la raíz cuadrada del tamaño de muestra es 10. Luego 100/10=10. Si construímos un intervalo de confianza de la media lo haremos con ese error estándar. Para construir un intervalo de confianza del 99.5% de la media deberemos sumar tres veces y restar tres veces el error estándar a la media de la muestra. Tres veces 10 es 30. Por lo tanto, el intervalo de confianza será (70, 130).

La respuesta d, que dice que no podemos tener una muestra con media, desviación estándar y tamaño de muestra iguales a 100, es absurda. Claro que la podemos tener. Si tenemos una variable que pueda tener tanto valores positivos como negativos, claro que puede darse perfectamente esta situación.

4d: Es evidente que se trata de una correlación de elevada magnitud, pero no es significativa. El p-valor es superior a 0.05. Si queremos ver si esta correlación es fiable, y no fruto del azar, deberemos aumentar el tamaño de muestra.

5d: No es una gran correlación, pero es la única que es significativa.

6a: Esta regresión puede ser perfectamente, porque la pendiente es negativa, como la correlación. El signo de la correlación y el de la pendiente de la recta deben ser necesariamente el mismo. La respuesta b no es posible porque la pendiente es positiva y esto es incompatible con lo que acabamos de decir. La respuesta c tampoco es posible porque no introduce el efecto de la variable independiente x, y sabemos que la relación con la variable dependiente es significativa. Si hay relación significativa la variable debe entrar en la fórmula de la regresión.

7d: Es evidente que con una misma desviación estándar el índice de Gini podrá cambiar dependiente de la suma de todos los valores de la muestra. Por ejemplo, la muestra (1, 1, 2, 2) tiene la misma desviación estándar que la muestra (1000, 1000, 1001, 1001) pero el índice de Gini no, porque el reparto del total es más equilibrado en esta segunda muestra que en la primera. El índice de Gini capta este reparto relativo del todo. El índice de Gini de la primera muestra será mayor que el de la segunda muestra.

8c: Como el tamaño de la muestra es par para calcular la mediana debemos ordenar la muestra y hacer el promedio de los dos valores centrales. Los dos valores centrales de esta muestra son 1 y 5. Su promedio es 3.

9c: Si observamos en el tema 8 los ejemplos propuestos en el análisis de la relación entre dos variables cualitativas dicotómicas veremos que en toda tabla de contingencias 2×2 siempre el valor umbral de referencia para ver la significación es 3,84. Como 3 es menor que 3,84 el p-valor será superior a 0.05. Ver el último dibujo del tema 8.

10d: Observemos que tenemos un caso un tanto especial. Tenemos una variable claramente cuantitativa (caudal del río) y una variable dicotómica (nivel de mercurio por encima o por debajo de un cierto valor). Para calcular una correlación de Pearson deberían ser las dos variables cuantitativas y para hacer una ji-cuadrado deberían ser las dos variables cualitativas. No es el caso. Por lo tanto, no estamos en las condiciones de aplicación ni de una ni de la otra técnica estadística.

 

Situación 78: Examen (Temas 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.1, ¿cuál de las siguientes muestras es la más compatible con ese valor:

a. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 24).

b. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 240).

c. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 300).

d. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3).

2. En la muestra (7, 7, 7, 8, 8, 8, 8, 27):

a. La mediana es 7.5.

b. El rango intercuartílico es 1.

c. El índice de Gini es 1.

d. El primer cuartil no existe porque los valores más bajos son iguales.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 100 es cierto:

a. Un intervalo de confianza de la media del 95% sería (98, 102).

b. Un intervalo de confianza de la media del 99.5% sería (70, 130).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. No puede darse una muestra de tamaño 100 con media 100 y desviación estándar 100.

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=-0.8 (p>0.05) podemos decir:

a. El tamaño de muestra es muy grande.

b. Como la correlación es mayor de 0.5 es significativa.

c. Una regresión entre estas dos variables nos daría mucha capacidad pronóstica porque el coeficiente de determinación es superior al 50%.

d. Se trata de una correlación no significativa. Deberíamos aumentar el tamaño de muestra para ver si esta tendencia que se aprecia acaba confirmándose como estadísticamente significativa al aumentar la muestra.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.23)

b. r=0.90 (p=0.45)

c. r=-0.45 (p=0.87)

d. r=0.23 (p=0.01).

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. La relación lineal entre ambas variables puede ser y=-3x-18.

b. La relación lineal entre ambas variables puede ser y=5x+15.

c. La relación lineal entre ambas variables puede ser y=18.

d. Ninguna de las tres relaciones lineales anteriores puede ser.

7. En una muestra donde sabemos que la desviación estándar es 5:

a. El índice de Gini será 0.

b. El índice de Gini será un valor fijo, independientemente de cuáles sean los valores concretos de la muestra.

c. El índice de Gini será 1.

d. El índice de Gini puede ser muy cambiante dependiendo de la magnitud de los valores.

8. En cuál de las siguientes muestras la mediana vale 3:

a. (1, 1, 2, 2, 3, 3, 12, 12)

b. (1, 1, 2, 2, 3, 3, 12, 12)

c. (1, 1, 1, 1, 5, 7.5, 12 12)

d. (1, 1, 3, 3, 4, 12, 12, 12)

9. Si en la relación entre dos variables dicotómicas (con dos valores posibles cada una de ellas) tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 3:

a. El p-valor será menor que 0.05.

b. El p-valor será 0.05.

c. El p-valor será mayor que 0.05.

d. El p-valor no sabemos cuál puede ser porque nos faltaría saber el tamaño de muestra.

10. Entre la variable Caudal de un río un día y que el nivel de mercurio esté por encima o por debajo de un determinado umbral:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre una variable cuantitativa y una cualitativa.

d. No podemos ni medir una correlación de Pearson ni una ji-cuadrado porque no estamos en las condiciones que exigen esas dos técnicas estadísticas.

Solución Situación 77

1. Se trata de un ANOVA de dos factores, uno fijo (Sistema) y el otro aleatorio (Operario) y anidado en el primero.

Los resultados del ANOVA aplicado son los siguientes:

IMG_0547

 

Se cumplen las condiciones del modelo: normalidad, igualdad de varianzas e independencia.

El modelo es un ANOVA de dos factores anidados a efectos mixtos.

Únicamente resulta significativo el factor fijo “Sistema”. Por eso aplicamos unas comparaciones múltiples y podemos ver que es el control C (el grupo al que no se aplica ningún tratamiento) el que se aparta de los otros dos niveles.

El factor Operario no es significativo. No obstante, hemos estimado su componente de la varianza, que es 3,24.

La media general es 13,95 y los tres parámetro del factor sistema son: -10,03, 8,23 y 1,80.

2. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar), cruzados, y uno aleatorio (Operario) anidado en la interacción de los dos factores fijos y cruzados.

El modelo es el mismo que el visto en el problema de la Situación 45, podemos verlo en la Solución Situación 45.

Los resultados son los siguientes:

IMG_0548

 

Todo es significativo excepto Operario. No obstante, hemos estimado también la componente de la varianza de operario que es 2,55. La componente de la varianza residual es 3,17.

Podemos ver también la estimación de los parámetros de los factores fijos del modelo. La media general es 21,49, los parámetros del factor Sistema son -10,36, 8,18 y 2,18, y los parámetros de la interacción -4,62, 4,62, 5,06, -5,06, -0,44 y 0,44.

Respecto a la pregunta de la probabilidad de que la medición sea superior a 31 en el caso de tratarse del Tratamiento 1 con calentamiento, debemos calcular la media muestral de este grupo (que es 32,495) y tomar como varianza la suma de la residual y de la debida a operario (esta es cuestionable por el hecho de no ser significativa): Por lo tanto, sería o la Raíz cuadrada de 3,17 ó la Raíz cuadrada de 3,17+2,55. Se trataría pues de una normal N(32,495; 1.78) o de una normal N(32,495; 2.39). Entonces, se trata de calcular en una de estas dos campanas de Gauss la probabilidad de tener valores por encima de 31. Vamos a calcularlo con la segunda opción que posiblemente sea la más razonable, debido a que los operarios alguna fuente de variación introducen, aunque no sea suficientemente grande como para que el contraste de hipótesis lo marque como significativo. El área a la derecha de 31 en una normal N(32,495; 2.39) es 0,7342.

3. Se trata, ahora, de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) anidado esta vez dentro del factor Sistema, no de la interacción como antes. El modelo sería el del problema de la Situación 41. Ver la Solución Situación 41.

4. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) y los tres factores están ahora cruzados.

Situación 77: Examen (Tema 15)

1. La medición de una determinada variable sanguínea se sabe que puede estar influida por un previo tratamiento de la muestra y, también, por el operario que la realiza. Para ello en un laboratorio de análisis clínicos se hace un experimento para evaluar la importancia de estos efectos.

Se toma una muestra homogénea y se divide en doce partes. A cuatro no se le realiza tratamiento previo (C), a otras cuatro se les hace un tratamiento previo T1 y otras cuatro un tratamiento T2. Se toman 6 operarios al azar. Cada uno de ellos hace el análisis de uno de los tipos dos veces; o sea, en dos de las muestras. Se obtienen los siguientes resultados:

Sistema Operario Medición
C 1 4,22
C 1 7,83
C 2 0,04
C 2 3,57
T1 3 19,55
T1 3 20,77
T1 4 22,98
T1 4 25,44
T2 5 13,85
T2 5 18,05
T2 6 14,06
T2 6 17,05

Estudiar las influencia del tratamiento previo y de la acción del operario en el resultado de la medición de la variable sanguínea.

2. A continuación se quiere ver lo mismo pero introduciendo una variante: haciendo el análisis previo calentamiento de la muestra o no, porque se piensa que también puede ser un factor que influya en el resultado final. El procedimiento del experimento es el mismo: cada una de las muestras de los tres sistemas anteriores se dividir en dos calentando una y no haciéndolo en la otra. Ahora se necesitan tomar, no obstante, 12 operarios. El cuadro de resultados es el siguiente:

Sistema Calentar Operario Medición
C No 1 5,65
C No 1 3,24
C No 2 2,06
C No 2 5,54
C Si 3 21,93
C Si 3 21,11
C Si 4 15,67
C Si 4 13,86
T1 No 5 27,15
T1 No 5 25,96
T1 No 6 28,25
T1 No 6 26,07
T1 Si 7 33,42
T1 Si 7 32,92
T1 Si 8 32,16
T1 Si 8 31,48
T2 No 9 8,86
T2 No 9 12,28
T2 No 10 14,3
T2 No 10 9,22
T2 Si 11 36,83
T2 Si 11 35,73
T2 Si 12 37,54
T2 Si 12 34,6

Estudiar la influencia ahora del tratamiento, del calentar o no la muestra y del operario.

Interesa también conocer la probabilidad de que al aplicar el tratamiento T1 con calentamiento de la muestra el valor de la medición sea superior a 31.

3. Si el experimento del apartado anterior se hubiera hecho con 6 operarios de la forma que marca el siguiente cuadro de datos, ¿cuál hubiera sido el modelo? Responder sin analizar los datos (por eso la medición no tiene valores):

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 3
T1 No 3
T1 No 4
T1 No 4
T1 Si 3
T1 Si 3
T1 Si 4
T1 Si 4
T2 No 5
T2 No 5
T2 No 6
T2 No 6
T2 Si 5
T2 Si 5
T2 Si 6
T2 Si 6

4. Plantear el modelo que tendríamos si el experimento se hubiera hecho sólo con dos operarios, según el siguiente planteamiento:

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 1
T1 No 1
T1 No 2
T1 No 2
T1 Si 1
T1 Si 1
T1 Si 2
T1 Si 2
T2 No 1
T2 No 1
T2 No 2
T2 No 2
T2 Si 1
T2 Si 1
T2 Si 2
T2 Si 2

 

Situación 76: Examen (Tema 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.95, podemos decir:

a. Que existe menor dispersión de valores en la muestra que en una que tuviéramos un índice de 0.3.

b. Que existe una correlación positiva entre las variables.

c. Que no es un valor significativo.

d. Que existe mucha desigualdad de valores dentro de la muestra.

2. En la muestra (8, 6, 0, 16, 8, 6, 0, 16):

a. La mediana es 7.

b. El rango intercuartílico es 12.

c. El rango es 6.

d. El primer cuartil es 0.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 10 es cierto:

a. Un intervalo de confianza de la media del 95% sería (97, 103).

b. Un intervalo de confianza de la media del 99.5% sería (98, 102).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. Un intervalo de confianza de valores individuales del 99.5% sería (90, 110).

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=0.2 (p<0.05) podemos decir:

a. El tamaño de muestra es menor de 5.

b. Como la correlación es menor de 0.5 no es significativa.

c. Una regresión entre estas dos variables nos daría poca capacidad pronóstica.

d. Ninguna de las tres afirmaciones anteriores es cierta.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.001)

b. r=0.90 (p=0.001)

c. r=-0.45 (p=0.001)

d. r=-0.95 (p=0.0001)

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. El coeficiente de determinación es 90%.

b. El contraste de hipótesis de la pendiente de la recta de regresión puede no ser significativo.

c. El contraste de hipótesis de la pendiente de la recta de regresión será significativo y la pendiente será negativa.

d. El coeficiente de determinación no es lo suficientemente grande como para hacer predicciones con error aceptable.

7. En una muestra donde sabemos que la desviación estándar es 0:

a. El índice de Gini será 0.

b. El índice de Gini puede ser 0.5.

c. El índice de Gini será muy próximo a 0 porque hay muy poca desviación estándar.

d. El índice de Gini será 1.

8. El Box-Plot siguiente:

IMG_0265

corresponde a la muestra:

a. (1, 1, 2, 3, 3, 3, 12, 12)

b. (1, 1, 3, 3, 3, 3, 12, 12)

c. (1, 1, 2, 2, 7.5, 7.5, 12 12)

d. (1, 1, 3, 7.5, 7.5, 12, 12, 12)

9. Si en la relación entre dos variables tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 0:

a. El p-valor será 1.

b. El p-valor será menor que 0.05.

c. El p-valor será 0.

d. El p-valor puede ser cualquier valor entre 0 y 1.

10. Entre la variable sexo y padecer o no diabetes podemos decir lo siguiente:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre variables cualitativas.

d. En la relación entre variables cualitativas siempre la relación es estadísticamente significativa.

Solución Situación 76

1d: Valores altos de índice de Gini reflejan elevada dispersión de valores. Un índice de Gini de 0.95 indica que la mayor parte de valores de la variable estudiada están concentrados en un o en unos pocos individuos de la muestra.

2a: La mediana es 7 porque si ordenamos la muestra quedan en medio un 6 y un 8 cuyo promedio es 7.

3c: Como la DE es 10 en un intervalo de confianza del 95% de valores individuales deberemos coger la media y sumarle y restarle dos veces esa DE, quedando el intervalo (80, 120).

4c: Tendríamos poca capacidad pronóstica porque el coeficiente de determinación sería del 4%, muy por debajo del 50% necesario.

5d: Las cuatro correlaciones son significativas, por lo tanto escogemos la que tenga un valor absoluto mayor que es este -0.95.

6c: Si una correlación es significativa también será significativa la pendiente de la regresión que hagamos. Además, el signo será el mismo: Un correlación positiva genera una pendiente positiva y una correlación negativa una pendiente negativa.

7a: Una muestra con DE igual a 0 indica que todos sus valores son iguales. Una muestra así genera una curva de Lorenz diagonal, por lo tanto con índice de Gini igual a 0.

8b: Mínimo=1, Primer cuartil=2, Mediana=3, Tercer cuartil=7.5 y Máximo=12.

9a: Si el valor es 0, a la derecha queda todo el área de la curva de la distribución ji-cuadrado, por lo tanto el p-valor es 1. Total coherencia de la hipótesis nula puesto que tenemos una tabla de contingencias observada que es exactamente igual a la esperada en el caso de ser cierta la hipótesis nula.

10b: El test de la ji-cuadrado es el procedimiento estadístico adecuado para evaluar la relación entre variables cualitativas como es este caso.

 

Solución Situación 75

1c: La variable dependiente es dicotómica y hay una única variable independiente que es continua. Estamos ante un caso de Regresión logística simple.

2c: Tenemos una variable dependiente y tres independientes, lineales, por lo tanto se trata de una Regresión múltiple.

3d: En una Regresión lineal simple lo que le sucede a la pendiente le sucede igual a la correlación. Como la pendiente es significativa también lo será la correlación.

4c: Esto no es cierto porque la primera de los dos variables independientes no tiene una relación significativa con la variable dependiente. Vemos que su intervalo de confianza incluye al 0, por lo tanto no podemos establecer ningún tipo de asociación entre la dependiente y esta variable independiente. La opción b, por el contrario, es cierta, porque ahora sí se trata de una relación significativa, puesto que el intervalo de confianza no incluye al 0 y como la OR será menor que 1, al aumentar el valor de la variable independiente disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

5b: Sólo las dos primeras OR son significativas y 5 es mayor que 4 (1/0.25=5).

6d: El coeficiente de determinación si no va acompañado de una relación significativa no es indicador de nada.

7b: Como el coeficiente de la primera variable independiente es significativo, porque no incluye al 0, y positivo, la relación entre la variable dependiente y esta variable es una relación directa, por lo tanto, habrá una correlación positiva entre ellas.

8a: Como la relación que hay entre la OR y el coeficiente es exponencial, podemos ver que si elevamos el número e a 0.6 y a 1.1 obtenemos, respectivamente, el 1.82 y el 3.0.

9b: El coeficiente de correlación positivo va asociado a una pendiente positiva y el coeficiente de correlación negativo va asociado a una pendiente negativa. Además, la significación es paralela: cuando una lo es la otra también, y al revés. Por lo tanto, como el intervalo de la pendiente no contiene al 0 la correlación será significativa.

10c: Una correlación significativa no nos lleva automáticamente a una regresión con buena o suficiente capacidad predictiva. El coeficiente de determinación es el que solemos usar como criterio para esto último. Si es menor del 50% su capacidad predictiva es baja. En nuestro caso tenemos un valor del 25%, muy por debajo de ese 50%.