Archivos Mensuales: junio 2016

Solución Situación 101

1b:Debe aplicarse la fórmula de la construcción de un intervalo de confianza del 95%. Aquí tenemos las dos fórmulas. La primera para una variable cuantitativa y la segunda para una variable dicotómica. En nuestro caso debemos aplicar la segunda:

IMG_8047

El cálculo es:

0,08±2x(Raíz(0,08×0,92))/Raíz(10000))

en tanto por uno, que da este intervalo de (7.46, 8.54), en tanto por ciento.

2a: El error estándar es 0.25 porque el radio del intervalo es 0.5 y como es un intervalo del 95% se ha cogido dos veces ese error estándar al construir el intervalo.

Entonces: 0.25=DE/Raíz(400). Por lo tanto, la DE es 5.

Si ahora construimos un intervalo de valores individuales del 95% debemos coger dos veces esa DE y nos da el intervalo (40, 60).

3b: El primer cuartil es 5 y el tercero es 8. Por lo que el rango intercuartílico es 3.

4b: Es el único caso donde se dice lo mismo sobre la significación de la correlación y de la pendiente.

5d: Es el único caso donde la relación es significativa y, por lo tanto, el único caso donde tiene sentido hacer una predicción y, por lo tanto, será la mejore de las posibles predicciones.

6c:Este es el único caso en el que las dos afirmaciones van en la misma dirección de la respuesta generada. En este caso si disminuimos la diferencia de medias y aumentamos la desviación estándar el p-valor subirá por las dos causas.

7c:Debemos aplicar la fórmula:

img_3388

pero con una variación: con un 9 en lugar de un 4 porque es un intervalo del 99.5%, lo que implica que hay que construir un intervalo con 3 veces el error estándar. El 9 viene de hacer el cuadrado de 3. Podemos deducirlo de las fórmula del inicio del Tema 16.

Si aplicamos esta fórmula con una p=0.2 y un radio r=0.01 porque se trabaja siempre en tanto por uno, obtenemos n=14400.

8c:El valor de referencia es 12.59 en una tabla 4×3. Como el valor de la ji-cuadrado es mayor que ese valor de referencia el p-valor será menor que 0.05.

9d:Variable dicotómica, muestras relacionadas, la técnica a aplicar es el Test de McNemar.

10a: Zona es un factor significativo. Claramente hay tres grupos homogéneos. El sexo no es significativo. Se observa claramente que en promedio no hay diferencias entre ambos sexos. Y hay interacción porque claramente dependiendo de la zona los valores de los sexos cambian.

11d: En un análisis de componentes principales siempre el número de componentes es el mismo que el número de variables originales del estudio.

12a: La Odds ratio estimada siempre debe estar dentro del intervalo de confianza construido.

13c:Es la Odds ratio con mayor relación. Veamos cuál es su equivalente del otro lado: 1/0.6=1.6666, que es mayor que 1.5. Las otras OR no hace falta valorarlas porque no son significativas.

14c: Observemos que intervalo de confianza que nos dan es del 68.5% no del 95%. Además, con lo próximo que está el 0 en este intervalo es evidente que el intervalo del 95% que será bastante mayor contendrá al 0 e indicará que no hay relación.

15c: Observemos que una OR de 5 es equivalente a una de 0.2. Si tener madre anoréxica es un factor de riesgo con OR de 5, obviamente no tenerla es un factor de protección equivalente y, por lo tanto, con OR de 0.2.

16d: El 2 está a la izquierda para la primera componente y abajo para la segunda. Para estar a la izquierda por la primera componente debe tener valores pequeños de X e Y y grandes de Z. En este caso c y de serían las opciones. Para estar abajo para la segunda componente es necesario que X sea pequeño e Y más grande. Sería el caso, pues, de la opción d.

17c:Es la respuesta incorrecta. Porque claramente hay relación. Observad que hay un total paralelismo entre las filas. La tabla esperada será exactamente igual que la observada. Por lo tanto, a y b serán ciertas y la d también es cierta: 9.4877 es el valor umbral.

18c: Tenemos dibujados los Box-Plot. Para saber si hay diferencias significativas debemos construir los intervalos de la media y ver si se solapan y, por lo tanto, necesitamos el tamaño de muestra.

19c:La ji-cuadrado no da la significación de una V de Crámer. Como en este caso el p-valor es mayor que 0.05 esta V aunque sea muy grande no es estadísticamente significativa.

20b: En un contraste de hipótesis siempre podemos comenter un error: o el de tipo 1 ó el de tipo 2. Siempre. En este caso, debido al p-valor mantendríamos la Hipótesis nula, por lo que podríamos cometer el error de tipo 2.

 

Situación 101: Examen (Temas 1-17 y 19)

1.Si en un estudio sobre la prevalencia de una enfermedad psiquiátrica tenemos una muestra de tamaño 10000 de los cuales 800 tienen esa patología, un intervalo de confianza del 95% del porcentaje poblacional será:

a)(7.20, 8.80)

b)(7.46, 8.54)

c)(7.16, 8.84)

d)(7.50, 8.50)

2.En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (49.5, 50.5). Leemos que el tamaño de muestra ha sido 400. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a)(40, 60)

b)(35, 65)

c)(30, 70)

d)(45, 55)

3.¿En cuál de las siguientes muestras el rango intercuartílico es 3?

a)(1, 3, 6, 10)

b)(1, 5, 5, 8, 12)

c)(1, 3, 3, 3, 7)

d)(1, 1, 3, 6)

4.De las siguientes afirmaciones cuál es cierta:

a)En una Regresión es compatible una pendiente con p=0.45 con un IC de confianza del 95% de la correlación de (-0.7, -0.1)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.1, 3.8) con una correlación con p=0.28

c) En una Regresión es compatible una pendiente con un p-valor de 0.01 con una de la correlación  con un intervalo de confianza del 95% (-0.2, 0.3)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (1.7, 3.8) con uno de la correlación de (-0.35, -0.15)

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a) y=5x-5; IC del 95% de la pendiente (-1, 11)

b) y=10x-3; IC del 95% de la correlación (-0.2, 0.2)

c) y=x-2; IC del 95% de la pendiente (-1, 2)

d) y= 4x+1; IC del 95% de la correlación (0.1, 0.4)

6.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.01 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar y aumentamos la diferencia de medias el p-valor bajará.

c)Si disminuimos la diferencias de medias y aumentamos la desviación estándar el p-valor subirá.

d)Si disminuimos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

7.Se quiere hacer un pronóstico del porcentaje de consumidores que tendría un producto y se quiere tener una muy buena precisión: que el radio del intervalo sea del 1% en un intervalo del 99.5%. Sabemos que un producto similar en países muy parecidos al nuestro tiene un porcentaje de consumo alrededor del 20%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a)6400.

b)11500.

c)14400.

d)8800.

8.Si en una tabla de contingencias 4×3 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 14.55 podemos afirmar:

a)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 21.02.

b)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 3.84.

c)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 12.59.

d)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 24.99.

9.Se ensayan dos medicamentos (A y B) en 50 pacientes con Alzhéimer, en dos épocas distintas. Cada paciente recibe, pues, ambos tratamientos en épocas diferentes. El objetivo es evaluar si durante medio año el valor del Mini-Mental ha bajado o no respecto al valor basal. Con el A un 5% no baja y con el B no baja sólo un 2%. Para analizar los datos deberemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Mann-Whitney.

d)El Test de McNemar.

10.Se ha hecho un estudio de valoración de la atención psicológica en pediatría entre el 1 y el 10 en cinco zonas del país y en los dos sexos (padres y madres). Los resultados obtenidos son los siguientes:

IMG_3467

a)Zona: p<0.05 con tres grupos homogéneos. Sexo: p>0.05. Interacción: p<0.05.

b)Zona: p<0.05 con tres grupos homogéneos. Sexo: p<0.05. Interacción: p<0.05.

c)Zona: p>0.05. Sexo: p>0.05. Interacción: p<0.05.

d)Zona: p<0.05 con dos grupos homogéneos. Sexo: p<0.05. Interacción: p>0.05.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a)Un intervalo de confianza de la media del 95% es siempre más amplio que un intervalo de confianza del 99.5% también de la media.

b)En una muestra con Asimetría estandarizada entre -2 y +2 la Curtosis estandarizada también cae entre -2 y +2.

c)En el Análisis clúster la hipótesis nula afirma que hay un único grupo y la hipótesis alternativa afirma, por el contrario, que hay más de un grupo.

d)En un Análisis de componentes principales hecho a diez variables originales obtenemos diez componentes.

12.¿Cuál de estas cuatro informaciones es incoherente?

a) OR=3.1; IC 95% (0.2, 0.45); p=0.001

b) OR=2.5; IC 95% (2.1, 3.2); p=0.0001

c) OR=2.8; IC 95% (1.24, 4.95); p=0.01

d) OR=0.6; IC 95% (0.12, 1.83); p=0.34

13.¿Qué Odds ratio indica una mayor relación?

a)OR=1.5; IC 95% (1.1, 2.45)

b)OR=2; IC 95% (0.91, 5.2)

c)OR=0.6; IC 95% (0.35, 0.87)

d)OR=0.3; IC 95% (0.02, 1.34)

14.En una Regresión lineal simple es cierto:

a)Si la pendiente tiene un intervalo de confianza del 95% de (0.55, 1.5) no es estadísticamente significativa por contener al 1.

b)Si la R2 es inferior al 5% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

c)Con una correlación r=0.3 con un intervalo de confianza del 68.5% de (0.03, 0.68) no podemos decir que sea una correlación estadísticamente significativa.

d)Una pendiente positiva o negativa pero estadísticamente significativa no puede tener una R2 menor del 50%.

15.¿Cuál de las siguientes afirmaciones es cierta?

a)Una correlación r=-0.75 (p<0.05) tendrá una pendiente de regresión negativa pero no necesariamente significativa.

b)Si en una muestra no hay normalidad, con una Asimetría estandarizada que desplaza mayoritariamente los valores hacia el lado izquierdo, por debajo del primer cuartil hay más valores que por encima del tercer cuartil.

c)Si tener madre anoréxica es un factor de riesgo para que una chica sea anoréxica con una OR=5, tener una madre sin anorexia es un factor de protección para la anorexia, con una OR=0.2.

d)El valor del percentil 75 es siempre mayor que el valor del percentil 25.

16.En un Análisis de componentes principales la primera componente principal es V=0.5X+0.5Y-0.5Z y la segunda es W=0.5X-0.5Y+0.01Z ¿Cuál de los siguientes puntos es el que está en la posición del 2?:

img_3462

a)(1, 0, 1)

b)(1, 2, 1)

c)(2, 1, 5)

d)(0, 2, 5)

17.En la tabla de contingencias siguiente:

Captura de pantalla 2016-05-29 a las 19.11.50

¿Cuál de las siguientes afirmaciones no es cierta?

a)El valor de la ji-cuadrado será 0.

b)El p-valor será 1.

c)El p-valor no será 1 porque la tabla de contingencia esperada no coincide con esta tabla observada.

d)El valor umbral a partir del cual rechazaríamos la hipótesis nula es 9.4877.

18.Hemos hecho una comparación de dos tratamientos en dos grupos diferentes. Los valores de la muestra que tenemos quedan representados de la siguiente forma mediante un Box-Plot:

IMG_3479

Si queremos hacer una comparación de medias de ambos grupos, ¿cuál de las siguientes afirmaciones es cierta?

a)Estos dos grupos constituyen un único grupo homogéneo puesto que se solapan los intervalos de confianza.

b)Las medias serán significativamente diferentes porque ya se observa que el grupo 2 tiene una media superior a la del grupo 1.

c)Necesitamos saber el tamaño de muestra para construir los intervalos de confianza de la media del 95% de cada grupo y ver si esos intervalos se solapan o no.

d)El test que deberíamos aplicar aquí es el test de proporciones.

19.¿Cuál de las siguientes afirmaciones es cierta?

a)Una Odds ratio de 0.5 con un intervalo de confianza del 95% que no contenga al cero es estadísticamente significativa.

b)Una correlación de Pearson de 0.9 con un intervalo de confianza del 95% que no contenga al uno es estadísticamente significativa.

c)Una V de Crámer de 0.9 con una ji-cuadrado con un p-valor de 0.15 implica que no hay relación significativa entre las variables cualitativas relacionadas.

d)Una R2 superior al 50% implica que la regresión lineal simple es estadísticamente significativa.

20.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos el p-valor que obtenemos es de 0.25?

a)El error de tipo I.

b)El error de tipo II.

c)Ambos errores: El error de tipo I y el error de tipo II.

d)No podemos cometer error en este caso porque aceptaríamos la Hipótesis nula por ser el p-valor superior a 0.05.

Solución Situación 100

1c:Debe aplicarse la fórmula de la construcción de un intervalo de confianza del 95%. Aquí tenemos las dos fórmulas. La primera para una variable cuantitativa y la segunda para una variable dicotómica. En nuestro caso debemos aplicar la segunda:

IMG_8047

El cálculo es:

0,1±2x(Raíz(0,1×0,9))/Raíz(10000))

en tanto por uno, que da este intervalo de (9.4, 10.6), en tanto por ciento.

2c:El error estándar es 0.5 porque el radio del intervalo es 1 (porque la distancia que hay desde la media, que es 50 a cualquiera de los dos extremos del intervalo es 1) y como para construir  un intervalo del 95% de la media siempre se coge dos veces el valor de error estándar, éste error debe ser 0.5, porque dos veces 0.5 da 1.

Entonces aplicamos la fórmula del error estándar vista en el tema 3: EE=DE/Raíz(n); o sea, en nuestro caso: 0.5=DE/Raíz(400). Por lo tanto, la DE es 10.

Si ahora construimos un intervalo de valores individuales del 95% debemos coger dos veces esa DE y nos da el intervalo (30, 70). No olvidemos que los intervalos de confianza descriptivos, individuales (que significa individuo a individuo), se construyen con la DE y, en cambio, los intervalos de confianza de la media se construyen con el error estándar (EE).

3c:Con los valores (1, 2) la muestra es la que tendrá un índice de Gini mayor; o sea, será cuando tendremos un muestra con más desigualdad económica. Pensemos que se nos pide con qué dos valores aumentará el índice de Gini; o sea, con qué dos valores habrá más diferencia entre los ricos y los pobres. Añadiendo el 1 y el 2 estamos añadiendo dos personas con ganancias muy bajas. En este momento el individuo que gana 10 unidades monetarias es aún más rico respecto al resto de la muestra. Se crea más desigualdad. Esto se reflejará en un aumento del valor del índice de Gini. Evidentemente se puede calcular para comprobarlo. Pero intuitivamente debe comprenderse qué supone que se añadan dos individuos nuevos con ganancias bajas o, por el contrario, con ganancias altas.

4b: Este caso es el única en el que es coherente lo dicho en de la correlación y de la pendiente. En ambos casos se está diciendo que no hay significación.

5c: De las cuatro respuestas únicamente una presenta una relación significativa y, por lo tanto, es la única predicción posible y, por lo tanto, la mejor. Es la única que tiene un intervalo de confianza o de la pendiente o de la correlación que no tiene al 0 en su interior.

6c: Este es el único caso en el que las dos afirmaciones van en la misma dirección de la respuesta generada. En este caso si disminuimos la diferencia de medias y aumentamos la desviación estándar el p-valor subirá por las dos causas. Si disminuimos la diferencia de medias es evidente que el p-valor subirá, porque habrá más igualdad y si aumentamos la desviación estándar lo que estamos haciendo es mezclar más las muestras y esto se reflejará también en un mayor aumento del p-valor porque será aún más razonable la hipótesis nula.

En los otros casos no sucede así. O en ambos casos no se cumple el resultado dicho o en un caso sí y en otro no, lo que implica que no puede decirse en general que se obtenga en resultado argumentado. Por ejemplo, cojamos la respuesta d: Es verdad que si aumentamos la diferencia de medias el p-valor bajará, porque será más razonable rechazar la hipótesis nula, pero si disminuimos el tamaño de muestra sucederá justo lo contrario: el p-valor subirá porque será más razonable mantener la hipótesis nula. Esta contradicción entre ambas afirmaciones es lo que impide que podamos seleccionar esta opción d.

7c:Debemos aplicar la fórmula:

img_3388

pero con una variación: con un 9 en lugar de un 4 porque es un intervalo del 99.5%, lo que implica que hay que construir un intervalo con 3 veces el error estándar. El 9 viene de hacer el cuadrado de 3. Podemos deducirlo de las fórmula del inicio del Tema 16.

Si aplicamos esta fórmula con una p=0.2 y un radio r=0.01 porque se trabaja siempre en tanto por uno, obtenemos n=14400.

8c:El valor de referencia es 12.59 en una tabla 4×3. Como el valor de la ji-cuadrado es mayor que ese valor de referencia el p-valor será menor que 0.05.

9d:Variable dicotómica, muestras relacionadas, la técnica a aplicar es el Test de McNemar.

10a: Zona es un factor significativo. Claramente hay tres grupos homogéneos. El sexo no es significativo. Se observa claramente que en promedio no hay diferencias entre ambos sexos. Y hay interacción porque claramente dependiendo de la zona los valores de los sexos cambian.

 

Situación 100: Examen (Temas 1-16)

1.Si en un estudio sobre la estimación poblacional de posibles consumidores de un nuevo producto tenemos una muestra de tamaño 10000 de los cuales 1000 serían consumidores de ese producto, un intervalo de confianza del 95% del porcentaje poblacional será:

a)(9.2, 10.8)

b)(9.5, 10.5)

c)(9.4, 10.6)

d)(9.0, 11.0)

2.En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (49, 51). Leemos que el tamaño de muestra ha sido 400. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a)(40, 60)

b)(35, 65)

c)(30, 70)

d)(45, 55)

3)Tenemos un grupo con los siguientes sueldos en unidades monetarias: (1, 5, 6, 7, 10). Si llegan al grupo dos nuevos individuos, con cuáles aumentará más el índice de Gini:

a)(1, 10)

b)(10, 12)

c)(1, 2)

d)(5, 7)

4.De las siguientes afirmaciones cuál es cierta:

a) En una Regresión es compatible una pendiente con p=0.34 con un IC de confianza del 95% de la correlación de (-0.5, -0.2)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.8, 5.7) con una correlación con p=0.21

c) En una Regresión es compatible una pendiente con un p-valor de 0.001 con una de la correlación  con un intervalo de confianza del 95% (-0.3, 0.5)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.7, 5.7) con uno de la correlación de (-0.4, -0.1)

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a) y=3x-2; IC del 95% de la pendiente (-1, 7).

b) y=2x-3; IC del 95% de la correlación (-0.1, 0.99)

c) y=x-2; IC del 95% de la pendiente (0.3, 2)

d) y= -4x+2; IC del 95% de la correlación (-0.7, 0.1).

6.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.01 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar y aumentamos la diferencia de medias el p-valor bajará.

c)Si disminuimos la diferencias de medias y aumentamos la desviación estándar el p-valor subirá.

d)Si disminuimos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

7.Se quiere hacer un pronóstico del porcentaje de consumidores que tendría un producto y se quiere tener una muy buena precisión: que el radio del intervalo sea del 1% en un intervalo del 99.5%. Sabemos que un producto similar en países muy parecidos al nuestro tiene un porcentaje de consumo alrededor del 20%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a)6400.

b)11500.

c)14400.

d)8800.

8.Si en una tabla de contingencias 4×3 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 14.55 podemos afirmar:

a)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 21.02.

b)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 3.84.

c)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 12.59.

d)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 24.99.

9.Se comparan dos productos distintos y para ello se toma un grupo de 40 personas. Todos degustan los dos productos. La variable estudiada es si se consumiría el producto o no. Un producto lo consumiría un 10% y el otro un 5%. Para ver si esa diferencia es estadísticamente significativa debemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Mann-Whitney.

d)El Test de McNemar.

10.Se ha hecho un estudio de valoración de un producto entre el 1 y el 10 en cinco zonas y en los dos sexos. Los resultados obtenidos son los siguientes:

IMG_3467

a)Zona: p<0.05 con tres grupos homogéneos. Sexo: p>0.05. Interacción: p<0.05.

b)Zona: p<0.05 con tres grupos homogéneos. Sexo: p<0.05. Interacción: p<0.05.

c)Zona: p>0.05. Sexo: p>0.05. Interacción: p<0.05.

d)Zona: p<0.05 con dos grupos homogéneos. Sexo: p<0.05. Interacción: p>0.05.