Archivos Mensuales: marzo 2013

Situación 24: Distribución binomial y aproximación mediante la normal

Un examen tipo test consta de 100 preguntas con 5 respuestas alternativas cada una. Las posibles calificaciones finales son: no apto si el número de respuestas acertadas es inferior a 65, apto si está entre 65 y 92 (ambos inclusives) y sobresaliente si es superior a 92. No restan las que están mal. Se pregunta:

1. Un alumno está seguro de la respuesta de 50 preguntas y contesta las otras 50 al azar. ¿Cuál es la probabilidad de obtener una nota superior a no apto?

2. Otro alumno está seguro de la respuesta de 87 preguntas y contesta las 13 restantes al azar. ¿Cuál es ahora la probabilidad de obtener un sobresaliente?

Solución

Test de Cochran-Mantel-Haenszel

El Test de Cochran-Mantel-Haenszel es un contraste de hipótesis para contrastar la igualdad de Odds ratio entre k tablas de contingencia 2×2. Es una forma de evaluar la posible influencia que pueda tener, sobre la relación entre esas variables cualitativas dicotómicas, una tercera variable también cualitativa con k valores posibles.

Es un Test usado para comprobar la posible confusión que puede generar una tercera variable en la relación entre dos variables.

El Test es el siguiente:

IMG_5246

Ejemplo de aplicación del Teorema de las probabilidades totales y del Teorema de Bayes

Los ejemplares de la  especie bacteriana Escherichia coli pueden mutar y adquirir resistencia a los antibióticos. En un experimento consideramos 3 variedades (serotipos concretos) de E. coli, llamados, para abreviar, V1, V2 y V3, y, consideramos también, la resistencia a 2 antibióticos frecuentemente utilizados: A y B.

En presencia de un cierto compuesto mutagénico estas 3 variedades de E. coli tienen probabilidades diferentes a la hora de adquirir resistencia respecte a A y a B. A continuación se indica la probabilidad de que un individuo presente alguna de las diferentes combinaciones de resistencia en función de si pertenece a una u otra variedad de E.coli:

Si es V1:

p(“no resiste ni A ni B”)=0.94, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0.01.

Si es V2:

p(“no resiste ni A ni B”)=0.97, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0

Si es V3:

p(“no resiste ni A ni B”)=0.91, p(“resiste sólo a  A”)=0.05, p(“resiste a A y a B”)=0.03.

Se prepara una solución con el compuesto mutagénico y una mezcla de individuos no resistentes de los que un 40% de bacterias son V1, un 30% son V2 i un 30% son V3. Asumiendo que ha transcurrido el tiempo necesario para que aparezcan mutaciones y que la aparición de resistencias se ha producido de acuerdo a las probabilidades descritas anteriormente, calcular:

1.¿Cuál es la probabilidad de que una bacteria cualquiera de la solución no presente resistencia a ninguno de los dos antibióticos?

2. Si una bacteria presenta resistencia sólo al antibiótico A, ¿cuál es la probabilidad de que sea de la variedad 3?

SOLUCIÓN:

1. Es importante siempre en este tipo de problemas dibujarlo. Veamos en primer lugar las probabilidades de resistencias distintas en cada variedad de E. coli:

IMG_5238

Y ahora veamos cómo se dibujaría lo preguntado en la primera pregunta:

IMG_5239

La aplicación del Teorema de las probabilidades totales es clara en este caso, tenemos la información adecuada para ello. Tenemos una partición y un conjunto solapado con todos los elementos de la partición, tenemos también las probabilidades de cada elemento de la partición y las probabilidades condicionadas correspondientes. El conjunto solapado con la partición es, en este caso, el formado por los ejemplares que no han generado resistencia a ninguno de los dos antibióticos, que es el conjunto complementario al formado por la unión de A y B, como se expresa en el gráfico. Los cálculos necesarios, pues, para responder a la primera pregunta son:

IMG_5240

2. Para resolver este segundo apartado el dibujo que hay que hacer es otro, es el siguiente:

IMG_5241

Ahora el conjunto que está inmerso en la partición es el conjunto A-B, que representa lo que hay en A que no comparte con B; o sea, los ejemplares que presentan resistencia únicamente al antibiótico A, como nos plantea el problema. Lo he dibujado pequeño porque las probabilidades son pequeñas.

Ahora debemos aplicar el Teorema de Bayes, porque sabemos que se ha producido el suceso A-B y queremos calcular la probabilidad de que se trate de la variedad V3. Los cálculos son los siguientes:

IMG_5242

Solución Situación 23

1b.

La a no es cierta porque la normalidad de una variable va acompañada de una media y una mediana muestral muy próximas.

La c no es cierta porque tenemos una DE muy amplia para el rango intercuartílico que tenemos. Esto hace pensar en una gran asimetría de los valores.

La d no es cierta porque la única información de la media y la DE no nos informa de ello.

La b es correcta. Porque la media± 0.68×15 construye un intervalo del 50%. Observemos que 0.68×15=10.2 y dos veces 10.2 es 20.4, muy similar a 20 que es el rango intercuartílico. Esta es, sin lugar a dudas, la información que más nos acerca a pensar en la normalidad de la variable.

2a

El Error estándar (EE) es 1, porque el intervalo de la media tiene radio 2 y es del 95%. Por lo tanto, de la fórmula EE=DE/raíz(n), sabemos EE y raíz(n), por lo tanto DE=EExraiz(n)=1×100=100.

3d

La desviación estándar de una muestra siempre se puede calcular. Otra cosa es que nos sirva o no como criterio inferencial.

El rango es 35, no 34.

La mediana es -2, no 0.

El rango intercuartílico es, efectivamente 4.5. Porque el tercer cuartil es 0.5 y el primer cuartil es -4 y 0.5-(-4) es 4.5.

Situación 23: Tres preguntas

1.¿Qué información nos hace pensar en una variable con distribución normal?

a. Media muestral=12 y Mediana muestral=23

b. Rango intercuartílico= 20, Media±DE=50±15

c. Rango intercuartílico= 5, Media±DE=50±25

d. Media±DE=50±15

2. Si la media muestral de una muestra de tamaño 10000 es 25 y un intervalo de confianza del 95% de la media es (23, 27), ¿cuál es la Desviación estándar (DE) muestral?

a. 100.

b. 1.

c. 1000.

d. 10.

3. En la siguiente muestra (-34, -4, -4, -4, 0, 0, 1, 1):

a. La desviación estándar no se puede calcular porque no se ajusta a una distribución normal.

b. El rango es 34.

c. La mediana es 0.

d. El rango intercuartílico es 4.5.

Solución

Solución Situación 22

Las soluciones son las siguientes:

1c:

En una variable cuantitativa no es el tamaño de muestra lo que condiciona que se use, para describirla, la media y la desviación estándar o la mediana y el rango intercuartílico. Depende de su ajuste a la distribución normal, a la campana de Gauss. Por lo tanto, las respuesta a y b no son ciertas.

Pero la respuesta c sí es correcta. Hemos visto en el artículo “La Estadística descriptiva en Medicina” que si la variable cuantitativa se ajusta bien a una distribución normal si a la media le restamos y le sumamos 0.68 multiplicado por la desviación estándar construimos un intervalo con un 50% de valores poblacionales. El rango intercuartílico, que es la distancia entre el primer y tercer cuartil, cubre un 50% también central. Por lo tanto, dos veces este 0.68; o sea, 1.36 la desviación estándar debe ser un valor similar al rango intercuartílico.

Si la muestra se ajusta bien a una distribución normal la media es muy próxima a la mediana y el rango intercuartílico próximo a 1.36xDE porque sabemos que la media más y menos 0.68xDE en una distribución normal construye un intervalo centrado en la media del 50% de valores.

2c:

El Rango no tiene por qué ser dos veces el Rango intercuartílico, en general. Pueden llegar incluso a ser iguales, ambos rangos. Por ejemplo, en la muestra: (0, 0, 10, 10). En esta muestra Rango y Rango intercuartílico valen lo mismo: 10.

La media muestral puede ser menor que la mediana muestral perfectamente. Por ejemplo, en la muestra: (0, 10, 10, 10). La mediana muestral es 10 y la media muestral es 7.5.

No necesariamente si la mediana muestral y el tercer cuartil coinciden la media muestral debe ser mayor que la mediana muestral. La muestra anterior de nuevo lo demuestra.

Y, finalmente, el primer y tercer cuartil pueden coincidir perfectamente en una muestra. Por ejemplo: (0, 5, 5, 5, 5, 5, 5, 10). Aquí primer cuartil y tercer cuartil coinciden: 5.

3c:

La especificidad es la probabilidad de que dé negativa la prueba condicionado a que el paciente no tenga la enfermedad; o sea, P(-/NE). Los falsos positivos son la P(+/NE). Y, evidentemente, P(+/NE)+P(-/NE)=1. Luego la especificidad es 1-Probabilidad de tener falsos positivos.

4d:

El “a” no es cierto en general. La simetría que transmite la idea de que la mediana sea el promedio exacto del primer y tercer cuartil no implica que esa simetría no se puede romper por la izquierda del primer cuartil o por la derecha del tercer cuartil. Un ejemplo: (0, 0, 5, 5, 5, 5, 10, 100). En esta muestra el primer cuartil es 2.5 y el tercero 7.5. La mediana, que es 5, es, en este caso, el promedio del primer y tercer cuartil, lo que indica que hay una simetría central. Obsérvese que efectivamente, si prescindimos de los dos valores extremos, el mínimo y el máximo, hay una simetría manifiesta, lo que haría pensar en que la media y la mediana podrían ser iguales. Pero observemos que la simetría se rompe en esta muestra por culpa del 100. Lo que hace que la media ascienda mucho y sea considerablemente distinta de la mediana. La media muestral es 16.2.

La “b” tampoco es cierta. Si la muestra se ajusta a una normal la media muestral y la mediana muestral se aproximarán, pero no necesariamente serán iguales.

La “c” tampoco es cierta. Veámoslo con un ejemplo: La muestra (0, 1, 2, 3, 5, 5, 6, 6). La media muestral es 3.5. El primer cuartil es 1.5 y el tercero es 5.5. El promedio de estos dos cuartiles es 3.5. Por lo tanto, en esta muestra coinciden el promedio de primer cuartil y tercer cuartil y la media muestral, pero la mediana de esta muestra es 4.

5c:

La muestra no se ajusta bien a una distribución normal, por lo tanto la inferencia del apartado “a” no es correcta.

La mediana es 4.5, no 5.

El que en la muestra el valor superior sea 60 no significa que en la población no puedan haber valores superiores a él, evidentemente.

Como el intervalo construido por el primer y tercer cuartil de nuestra muestra, que es (3, 30) cubre el 50% muestral podemos hacer perfectamente la estimación, la inferencia, de que en la población habrá un valor próximo al 50% de individuos entre estos dos valores de la variable estudiada.