Archivos Mensuales: abril 2015

Base de datos de Demencias 5: Comparación de poblaciones

A partir de la base de datos de demencias contestar a las siguientes preguntas:

1. Comparar, mediante la técnica estadística adecuada al caso, el porcentaje de diabéticos entre los enfermos con demencia Alzhéimer y los enfermos con demencia vascular.

2. Comparar, mediante la técnica estadística adecuada al caso, el volumen del hipocampo a los tres años de diagnóstico entre los enfermos con demencia Alzéimer y los enfermos con demencia vascular.

3. Comparar, mediante la técnica estadística adecuada al caso, si hay diferencia significativa entre el Mini-Mental en el diagnóstico y a los tres años del diagnóstico en los enfermos con demencia vascular.

4. Comparar, mediante la técnica estadística adecuada al caso, si hay diferencia significativa entre el Mini-Mental en el diagnóstico y a los tres años del diagnóstico en los enfermos con demencia Alzhéimer.

5. Comparar, mediante la técnica estadística adecuada al caso, el Mini-Mental a los tres años de diagnóstico entre los enfermos con demencia Alzéimer y los enfermos con demencia vascular.

6. Comparar, mediante la técnica estadística adecuada al caso, el porcentaje de pacientes diagnosticados de demencia que pierden 4 ó más unidades de Mini-Mental a los tres años de diagnóstico entre los hombres y las mujeres.

7. Comparar el volumen del hipocampo a los tres años de diagnóstico entre los tres tipos de demencia estudiados.

 Soluciones:

1.

La variable estudiada es dicotómica.

Alzhéimer: 38% de diabéticos.

Vascular: 58% de diabéticos.

Como el tamaño de muestra por grupo es mayor que 30 y el valor esperado por grupo mayor que 5 aplicamos un test de proporciones.

Test de proporciones: p=0.045

Hay diferencias estadísticamente significativas.

2.

Shapiro-Wilk en Alzhéimer: p=0.193

Shapiro-Wilk en Vascular: p=0.074

Test de Fisher-Snedecor: p=0.79

Test de la t de Student de varianzas iguales: p<0.0001

Por lo tanto, hay diferencias significativas. El volumen es significativamente menor en los enfermos con Alzhéimer.

3.

Shapiro-Wilk de la diferencia: p<0.0001

Al no haber normalidad de la diferencia aplicamos el test de Wilcoxon.

Test de Wilcoxon: p<0.0001

Hay una bajada significativa del Mini-Mental.

4

Shapiro-Wilk de la diferencia: p<0.0001

Al no haber normalidad de la diferencia aplicamos el test de Wilcoxon.

Test de Wilcoxon: p<0.0001

Hay una bajada significativa del Mini-Mental.

5.

Shapiro-Wilk en Alzhéimer: p=0.0149

Shapiro-Wilk en Vascular: p=0.0298

Test de Mann-Whitney: p<0.05

Por lo tanto, hay diferencias significativas. El Mini-Mental a los tres años de diagnóstico es significativamente distinto entre los enfermos con Alzhéimer y demencia vascular..

6.

Hombres: 36/53=0.679

Mujeres: 66/97=0.68

Test de proporciones: p=0.989

No hay diferencias estadísticamente significativas.

7.

Como es una comparación de tres grupos debemos aplicar un ANOVA de un factor con tres niveles.

ANOVA de un factor: p<0.0001

Como hay diferencias significativas debemos de ver cuáles son esas diferencias. Para ello aplicamos un Test de comparaciones múltiples. Si aplicamos el test LSD obtenemos tres grupos homogéneos. Cada enfermedad estudiada es, por lo tanto, diferente de las otras dos en cuanto al volumen del hipocampo a los tres años de diagnóstico. La media de Alzhéimer es 3.88, la de demencia mixta es 4.05 y la de demencia vascular 5.61.

Anuncios

Situación 83: Examen (Temas 1-17 y 19)

1. ¿Cuál de las siguientes afirmaciones es cierta si hemos realizado un ANOVA de dos factores cruzados y tenemos una p=0.1 para el primer factor, una p=0.3 para el segundo factor y una p=0.005 para la interacción?

a. Hay diferencias significativas entre los niveles del primer factor, hay diferencias significativas entre los niveles del segundo factor y no hay interacción entre los dos factores.

b. Hay diferencias significativas entre los niveles del primer factor, hay diferencias significativas entre los niveles del segundo factor y hay interacción entre los dos factores.

c. No hay diferencias significativas entre los niveles del primer factor, no hay diferencias significativas entre los niveles del segundo factor y hay interacción entre los dos factores.

d. Como los dos factores no son estadísticamente significativos la interacción no lo será tampoco.

 

2. En un estudio clínico con los siguientes datos, ¿cuál es la afirmación cierta?

IMG_1210

 

a. El p-valor del ANOVA será menor de 0.05 por lo que el análisis estadístico ya está finalizado.

b. El p-valor del ANOVA será mayor de 0.05 por lo que el análisis estadístico ya está finalizado.

c. En las comparaciones múltiples que hagamos habrá dos grupos homogéneos.

d. En las comparaciones múltiples que hagamos todo será estadísticamente significativo.

 

3. ¿Cuál de las siguientes Odds ratio implica un mayor nivel de relación entre las variables cualitativas estudiadas?

a. OR=0.3 IC 95% (0.01, 0.6)

b. OR=0.1 p=0.98

c. OR=3 p=0.01

d. OR=0.6 IC 95% (0.1, 0.8)

 

4. Se están comparando dos tratamientos a pacientes con trastorno bipolar. La variable analizada es si la concentración de un determinado neurotransmisor al mes de tratamiento menos la concentración de ese mismo neurotransmisor justo antes del inicio del tratamiento es un valor positivo o no. El tamaño de muestra es de 50 personas. Todas ellas toman ambos tratamientos en distintas épocas pero siempre durante un periodo depresivo. La técnica adecuada al caso es:

a. Un test de proporciones.

b. Un test de McNemar.

c. Un test exacto de Fisher.

d. Un test de Mann-Whitney.

 

5. ¿Cuál de las siguientes muestras tiene una mediana de 10, un primer cuartil de 9, un rango intercuartílico de 1 y un rango de 20?

a. (0, 0, 9, 9, 10, 11, 11, 20)

b. (0, 9, 9, 10, 10, 11, 11, 20)

c. (0, 9, 9, 10, 10, 10, 10, 20)

d. (9, 9, 9, 10, 10, 10, 11, 29)

 

6. Si la relación entre dos variables la podemos representar mediante una regresión lineal simpe con una R2=90%, ¿cuál de las siguientes afirmaciones es cierta?

a. Existe una correlación significativa entre las variables.

b.  La correlación de Pearson es de 0.9.

c. Si la relación es significativa, cosa que no podemos afirmar con la información que tenemos, se trata de una fuerte determinación la que hay entre una y otra variable.

d. La regresión no sabemos si es o no significativa pero sí sabemos que la correlación es positiva entre las dos variables.

 

7. Si en un Análisis de componentes principales tenemos como primer componente la variable Y1=0.5X1+0.5X2+0.5X3+0.5X4-0.5X5, ¿qué afirmación no es cierta?:

a. Un individuo con los valores (0, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 1 para la primera componente.

b. Existe una fuerte correlación entre las cinco variables originales del estudio.

c. Un individuo con los valores (1, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 2.5 para la primera componente.

d. Un individuo con los valores (1, 1, 1, 1, 0) de las cinco variables originales tendrá un valor de 2 para la primera componente.

 

8. Tenemos un IC del 95% de la media que es (20, 22), ¿qué afirmación es cierta?

a. El tamaño de muestra es 100.

b. La desviación estándar es 0.5.

c. El error estándar es 1.

d. Un intervalo de confianza del 99.5% sería (19.5, 22.5).

 

9. ¿Qué tamaño de muestra necesitamos tener para estimar la media poblacional del Mini-Mental en el diagnóstico de pacientes con Alzhéimer si sabemos, a partir de una muestra piloto, que la Desviación estándar es, aproximadamente, 2 y queremos tener un intervalo de confianza de una precisión establecida con un radio de 0.1?

a. 160

b. 1600

c. 16

d. 16000

 

10. Si comparamos el Mini-Mental al año y a los dos años del diagnóstico en 100 pacientes con Alzhéimer para comprobar si ha habido un descenso significativo en el nivel de esta variable y aplicamos un test de Shapiro-Wilk a las restas de los valores paciente a paciente obteniendo un p-valor de 0.45, debemos aplicar:

a. El test de la t de Student de varianzas iguales.

b. El test de los signos o el test de Wilcoxon. Cualquiera de los dos es aceptable en este caso.

c. El test de la t de Student de datos apareados.

d. Debemos comprobar la igualdad de varianzas con el test de Fisher-Snedecor. Si el p-valor de este test es mayor que 0.05 debemos aplicar el test de la t de Student de varianzas iguales, si el p-valor es menor que 0.05 debemos aplicar el test de la t de Student de varianzas desiguales.

 

11. Queremos comparar el nivel de conocimientos de estudiantes de Psicología de dos universidades distintas justo al final de sus estudios. Para ello realizamos un test a 40 alumnos de cada una de esas dos universidades. Las medias muestrales son 6 y 7, respectivamente. Las desviaciones estándar son 1.5 y 1.65, respectivamente. Aplicamos un test de Shapiro-Wilk a cada una de las dos muestras y tenemos los siguientes p-valores: 0.25 y 0.01, respectivamente. El test de Fisher-Snedecor de comparación de varianzas tiene un p-valor de 0.67. La técnica adecuada al caso será:

a. El test de la t de Student de datos apareados.

b. El test de Mann-Whitney.

c. El test de la t de Student de varianzas iguales.

d. El test de la t de Student de varianzas desiguales.

 

12. Si tenemos dos muestras independientes de dos poblaciones a las que hemos aplicado correctamente un test de la t de Student de varianzas iguales con un p-valor de 0.55, ¿cuál de las siguientes afirmaciones es cierta?:

a. No tenemos suficiente potencia.

b. Para afirmar que no hay diferencias a nivel poblacional necesitamos saber si la potencia del estudio es, al menos, del 80%.

c. Podemos afirmar ya, a partir del p-valor que tenemos, que no hay diferencias entre ambas poblaciones comparadas.

d. Debemos aumentar el tamaño de muestra hasta que el p-valor sea menor que 0.05.

 

13. Si hemos calculado la correlación de Pearson entre dos variables y resulta ser r=0.5 (p<0.05) podemos afirmar:

a. No es una correlación significativa porque el coeficiente de determinación es del 25%.

b. Podemos crear una regresión con muy buena capacidad predictiva entre esas dos variables porque se trata de una correlación significativa.

c. Si aumentamos el tamaño de muestra es bastante posible que lleguemos a tener una correlación incluso negativa entre esas variables.

d. La regresión lineal simple que construyamos entre esas dos variables tendrá una pendiente positiva y significativa.

 

14. Si tenemos una muestra de cinco pacientes (a, b, c, d, e) a los que les hemos medido una única variable cuantitativa y de la cual tenemos el siguiente dendrograma, obtenido mediante un Análisis clúster:

IMG_1510

¿Cuál de las siguientes muestras es la más razonablemente asociada a este análisis?:

a. (5, 6, 6, 50, 51)

b. (5, 6, 30, 50, 51)

c. (50, 51, 53, 5, 6)

d. (50, 60, 90, 50, 51)

 

15. Un intervalo de confianza del 95% de la media en una muestra de tamaño 100 con desviación estándar de 15 y media muestral de 100 es el siguiente:

a. (97, 103).

b. (94, 106).

c. (85, 115).

d. (70, 130).

 

16. Si en una tabla de contingencias 2×2 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 4.6 podemos afirmar:

a. Que estamos ante una relación significativa porque el valor 4.6 es superior al valor de referencia máximo aceptable para mantener la hipótesis nula en las tablas 2×2.

b. Que es imposible saber la significación porque no podemos saber si el p-valor es mayor o menor que 0.05.

c. Que el valor de la ji-cuadrado no nos dice nada sobre la significación de esa relación.

d. No es una relación significativa porque el valor 4.6 es un valor suficientemente próximo a cero.

 

17. ¿Cuál de las siguientes afirmaciones es cierta respecto a la V de Crámer?

a. Es una medida del grado de concordancia que hay entre dos observadores.

b. Es un valor que está entre -1 y +1.

c. Tiene sentido calcularla tras una ji-cuadrado con p>0.05.

d. Puede calcularse a cualquier tabla de contingencias.

 

18. Si hemos construido una recta de regresión entre dos variables que tenían una correlación significativa r=0.9 y tenemos la ecuación y=4x-5, podemos afirmar:

a. Un individuo de la muestra con el valor de x=5 tendrá un valor de y=15.

b. Si tomamos, en el futuro, un individuo con el valor de x=5 ese individuo tendrá un valor de y=15.

c. Un individuo de la muestra con el valor de y=15 tendrá un valor de x=5.

d. Saber el valor de la variable x determina un 81% el valor de la variable y.

 

19. ¿Cuál de las siguientes afirmaciones no es cierta?

a. La mediana de una muestra puede ser igual al primer cuartil.

b. Una Odds ratio de 4.5 con un intervalo de confianza del 95%: (3.45, 5.18) indica que estamos ante un factor de riesgo significativo.

c. Si en una muestra de una variable cuantitativa la curtosis estandarizada y la asimetría estandarizada están, ambos valores, dentro del intervalo -2 y 2, entonces podemos describirla mediante la media y la desviación estándar.

d. Una variable dicotómica codificada con valores de 0 y 1 no tiene desviación estándar.

 

20. ¿Cuál de las siguientes afirmaciones es cierta?

a. En un ANOVA de dos factores las comparaciones múltiples de un factor se hacen únicamente si la interacción es significativa.

b. El rango siempre es mayor que el rango intercuartílico.

c. Una Odds ratio de 1.75 con un intervalo de confianza del 68.5%: (1.05, 3.18) indica que se trata de un factor de riesgo estadísticamente significativo.

d. Si en una tabla de contingencias calculamos un valor de ji-cuadrado y es 7.14, la significación de ese valor dependerá del número de filas y columnas que tengamos y no del tamaño de muestra.

 

 

Situación 81: Examen (Temas 13-17 y 19)

  1. En un estudio donde se quiere comparar dos mecanismos de rehabilitación pretendemos analizar si hay diferencias de medias entre ellas en la variable SF-36. Tenemos 100 pacientes que repartimos en dos grupos de igual tamaño. A cada grupo le aplicamos uno de los dos tratamientos a comparar. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor mayor que 0.05. El test de Fisher-Snedecor nos proporciona una p=0.01. Es cierto lo siguiente:

a. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que las varianzas son diferentes.

b. Si el test de la t de Student para varianzas desiguales da un p-valor superior a 0.05 debemos concluir que las varianzas son diferentes.

c. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que las medias son diferentes.

d. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que no podemos decir que las medias son diferentes.

  1. Si en una comparación de dos poblaciones el test adecuado al caso el p-valor final es 0.02 es cierto lo siguiente:

a. Si aumentamos el tamaño de muestra y las medias y las desviaciones siguen siendo las mismas el p-valor subirá.

b. Si, sin cambiar el tamaño de muestra ni las dos medias muestrales, observamos que las desviaciones son menores de lo que habíamos calculado previamente, el p-valor subirá.

c. Si, sin cambiar el tamaño de muestra ni las desviaciones estándar, observamos que la diferencia de medias es menor de lo que habíamos calculado previamente, el p-valor bajará.

d. Si, sin cambiar el tamaño de muestra, observamos que la diferencia de medias es mayor de lo que habíamos calculado previamente y las desviaciones estándar menores de lo que habíamos calculado, el p-valor bajará.

  1. Hemos de comparar dos procedimientos distintos de tratamiento para pacientes con demencia. Tomamos 20 pacientes y los repartimos al azar en dos grupos de 10 cada uno. La variable elegida para evaluar ambos tratamientos es el Mini-Mental. El Test de Shapiro-Wilk nos da, en ambas muestras, un p-valor de 0.005 y el test de Fisher-Snedecor nos da un p-valor de 0.03. Debemos:

a. Aplicar el Test de la t de Student de varianzas iguales.

b. Aplicar el Test de la t de Student de varianzas diferentes.

c. Aplicar el Test de Mann-Whitney.

d. Aplicar el Test de la t de Student de datos apareados.

  1. Hemos de comparar dos formas de rehabilitación psicológica a pacientes que han sufrido un infarto cerebral. La variable analizada es si después de un año el paciente consigue superar un umbral previamente establecido en un test psicotécnico. Se ha trabajado con 600 pacientes. 300 en cada grupo. Cada paciente recibe un único tratamiento. Después del año en un grupo un 4% consigue la rehabilitación psicológica. En el otro grupo un 2% lo consigue. Debemos:

a. Aplicar un Test de Mann-Whitney.

b. Aplicar un Test de proporciones.

c. Aplicar un Test exacto de Fisher.

d. Aplicar un Test de McNemar.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. Si en una comparación de dos poblaciones aplicamos un Test de Mann-Whitney es que la variable no se ajusta a la distribución normal en ninguna de las dos muestras.

b. En un contraste de hipótesis para evaluar el ajuste a la distribución normal un p-valor inferior a 0.05 indica que hay suficiente ajuste de los datos a la distribución normal.

c. Cuanto menor desviación estándar tengamos en dos muestras de dos poblaciones a comparar más posible será rechazar la hipótesis nula de igualdad de medias.

d. En un ANOVA de un factor fijo con cinco niveles un p-valor menor de 0.05 indica que hay diferencias significativas entre las cinco poblaciones que estamos comparando.

  1. En un ANOVA de dos factores fijos y cruzados (cada uno de los dos factores con 4 niveles) obtenemos los siguientes p-valores: Factor A: p<0.05, Factor B: p<0.05, Interacción: p>0.05, podemos afirmar:

a. El número de poblaciones a comparar es de 8.

b. Los dos factores son significativos y, por lo tanto, hay interacción entre ellos.

c. No hay interacción significativa entre los factores.

d. Ninguna de las tres afirmaciones anteriores es cierta.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. En un ANOVA de dos factores si ambos factores son significativos lo será también la interacción.

b. Si en las comparaciones múltiples de un ANOVA de un factor tenemos dos o más grupos homogéneos el p-valor del ANOVA será menor de 0.05.

c. Las comparaciones múltiples en un factor únicamente tiene sentido realizarlas si el p-valor del ANOVA previo, para ese factor, es superior a 0.05.

d. En un Análisis clúster se use la distancia que se use el dendrograma obtenido es exactamente igual.

  1. Se quiere hacer un pronóstico de la media poblacional de la concentración de un determinado neurotransmisor. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% de radio 40 si la Desviación estándar que tenemos en una muestra piloto es de 100?:

a. 100.

b. 1000.

c. 400.

d. 25.

  1. En un Análisis de componentes principales la primera componente principal es 0.5X+0.45Y-0.48Z. Es cierto lo siguiente:

a. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X, valores pequeños de Y y valores pequeños de Z.

b. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X, de Y y de Z.

c. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X e Y y valores pequeños de Z.

d. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores pequeños de X e Y y valores grandes de Z.

  1. Tenemos los siguientes datos en un estudio clínico. ¿Cuál es la afirmación más razonable?:

IMG_1209

a. Factor A: p>0.05. Factor B: p>0.05. Interacción: p<0.05.

b.  Factor A: p<0.05. Factor B: p<0.05. Interacción: p<0.05.

c. Factor A: p<0.05. Factor B: p<0.05. Interacción: p>0.05.

d. Factor A: p<0.05. Factor B: p>0.05. Interacción: p>0.05.

Tres problemas de error de tipo I, error de tipo II, potencia y de determinación del tamaño de muestra

1. Sea X una variable que se ajusta bien a una distribución Normal  de media m y desviación típica 2.

a) Construimos un test donde la hipótesis nula es m=2 y la hipótesis alternativa m>2 y definimos una región crítica como: W= “muestras de tamaño 3 de modo que la suma supere las 7 unidades”. Obtener el error tipo I.

b) Determinar el tamaño de muestra necesario para detectar una diferencia de 0.5 unidades con error tipo I igual a 0.05 y error tipo II igual a 0.15.

Solución:

IMG_1169

Observemos que para determinar el tamaño de muestra vamos a trabajar con la variable suma de tres observaciones y con la media muestral de esa variable. Buscar el tamaño de muestra es buscar cuál será el valor de la desviación estándar de la variable media muestral (del denominado error estándar), o sea, buscar cuál es el valor de la amplitud de esa campana de Gauss para que al construir una zona crítica de área 0.05, dibujada con color verde, el área que indica el error de tipo II sea 0.15. Observemos que las dos campanas de Gauss dibujadas, una con media 6 y la otra con media 6.5, es porque la diferencia mínima que se pretende detectar es de 0.5.

IMG_1202

Los valores 1.645 y 1.038 se obtienen de las tablas de la N(0, 1).

2. Sea X una variable discreta. Construimos un test donde la hipótesis nula es que la distribución de X es una Poisson de parámetro 2 mientras que la hipótesis alternativa afirma que es una distribución geométrica (Pascal) de parámetro 0.1.

Se define un criterio de decisión del siguiente modo: Se toma una muestra de tamaño 2 y se acepta la hipótesis alternativa si ninguno de los dos valores obtenidos en la muestra es 0.

Obtener error tipo I y error tipo II.

Solución:

IMG_1200

Observemos que lo importante aquí es saber delimitar cuál es la zona crítica W, la zona que se usará como criterio de decisión. Para el cálculo tanto del error de tipo I como de la potencia (y después del error de tipo II) debemos calcular el área de esa zona crítica si es cierta la hipótesis nula (para el cálculo del error de tipo I) y si es cierta la hipótesis alternativa (para el cálculo de la potencia).

3. Se desea realizar un contraste en que la hipótesis nula es que una variable sigue una distribución Poisson de parámetro 3, mientras que la alternativa es que esa variable tiene por densidad la siguiente función: f(x)=1/9 si x=0, 1, …, 8. Si el criterio de decisión consiste en aceptar la hipótesis alternativa si, al tomar dos valores muestrales, en condiciones independientes, los dos valores son iguales o mayores a 6 unidades, se pide el error tipo I  y la potencia.

Solución:

IMG_1201

Observemos que lo importante aquí, de nuevo, es saber delimitar cuál es la zona crítica W, la zona que se usará como criterio de decisión. Para el cálculo tanto del error de tipo I como de la potencia debemos calcular el área de esa zona crítica si es cierta la hipótesis nula (para el cálculo del error de tipo I) y si es cierta la hipótesis alternativa (para el cálculo de la potencia).

Base de datos de Demencias 4: Relación entre variables cualitativas

A partir de la base de datos de Demencias contestar a las siguientes preguntas:

1. ¿Hay alguna relación significativa entre la variable Grupo y alguna otra de las variables cualitativas? Si en algún caso la hay, calcular la V de Crámer.

2. ¿Hay relación significativa entre la variable Nivel de estudios y las variables sexo, diabetes, hipertensión y enfermedad coronaria? Si en algún caso la hay, calcular la V de Crámer.

3. Entre los enfermos con Alzhéimer, ¿es un factor de riesgo o un factor de protección ser diagnosticado antes de los 70 años, para que el descenso de Mini-Mental a los 3 años de diagnóstico sea mayor de 2 puntos (o sea, 3 ó más)? Calcular la Odds ratio y su intervalo de confianza del 95%.

Soluciones:

IMG_1303

IMG_1304

IMG_1305

IMG_1306

IMG_1307

IMG_1308

IMG_1309

IMG_1310

IMG_1311

IMG_1312