Archivos Mensuales: mayo 2013

Situación 30: Cinco preguntas en un estudio lingüístico

Estamos diseñando un clasificador automático de artículos de revistas. En un primer proceso de decisión se pretende distinguir si se trata de un artículo de la categoría “Ciencia” o de la categoría “Letras”. Posteriormente habrá otros niveles de decisión y de clasificación.

Para optimizar este primer proceso de decisión se han estudiado una serie de variables en 15 textos de Ciencias y en 15 textos de Letras. Los resultados obtenidos son los siguientes:

IMG_5773

Observad bien la matriz de datos. La variable “Texto de ciencias” toma valores 0 y 1. El valor 1 corresponde a un texto de ciencias y el valor 0 a un texto de letras. Se ha tomado en cada texto, en cada artículo, una muestra de 2000 palabras para medir las tres variables siguientes: “Media de palabras por oración”, “Porcentaje de subordinadas” y “Relación adjetivos/sustantivos”.

1. A partir de esos valores obtenidos y mostrados en la matriz de datos anterior, para evaluar y cuantificar la relación entre las variables “Media de palabras por oración” y “Relación adjetivos/sustantivos” la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

2. Para valorar la relación entre las variables “Texto de Ciencias” y “Media de palabras por oración” la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

3. La correlación de Pearson más razonable entre las variables “Media de palabras por oración” y “Porcentaje de subordinadas”, viendo los datos obtenidos es:

a. r= – 0,78 (p<0,05).

b. r= 0.

c. r= 0,99 (p>0,05).

d. r= 0,87 (p<0,05).

4. El gráfico Box-Plot de la variable “Relación adjetivos/sustantivos” es el siguiente:

IMG_5777

¿Qué afirmación no es cierta?

a. El rango intercuartílico es 0,46.

b. La mediana es 0,625.

c. El tercer cuartil menos la mediana es 0,42.

d. El segundo cuartil menos el primer cuartil es 0,2.

5. Si hacemos una Regresión logística entre la variable “Texto de Ciencias” y “Media de palabras por oración” obtenemos el siguiente modelo:

IMG_5778

Si hacemos una Regresión logística entre la variable “Texto de Ciencias” y “Relación adjetivos/sustantivos” obtenemos el siguiente modelo:

IMG_5780

¿Qué afirmación no es cierta?

a. La variable “Relación adjetivos/sustantivos” tiene, respecto a la variable dicotómica “Texto de ciencias”, una Odds ratio más alejada de 1 que la que tiene la variable “Media de palabras por oración”.

b. Si un texto tiene un valor de la variable “Media de palabras por oración” de 8 podemos decir que la probabilidad de que se trate de un texto científico es del 90%.

c. Si un texto tiene un valor de la variable “Relación adjetivos/sustantivos” de 0,65 podemos decir que la probabilidad de se trate de un texto científico es del 50%.

d. La variable “Media de palabras por oración” representa un mecanismo mejor de clasificación de textos entre la categoría de “Ciencias” o “Letras” que el que obtendríamos mediante la variable “Relación adjetivos/sustantivos”.

Solución

Solución Situación 29

1b: Si la diferencia mínima a detectar es muy pequeña, como ésta está siempre en el denominador de una ecuación para el cálculo del tamaño muestral, el tamaño muestral necesario es muy grande.

2b: Porque es necesario saber las frecuencias de las cuatro posibles combinaciones para aplicar el test. En el estadístico de test debe usarse la frecuencia de los casos de individuos que tienen valores distintos en las dos muestras relacionadas.

3c: El error de typo I es independiente del error de tipo II y de la potencia. No tiene ninguna relación.

4d: El intervalo contiene al 0, por lo tanto no hay una diferencia significativa. El único p-valor que indica no significación es el 0.65.

5d: Si el p-valor es menor que 0.05 el intervalo de confianza no contendrá al 0. El intervalo (0.001, 0.5) no contiene al 0, pero como está muy cerca del 0 el p-valor no daría tan claramente diferente de 0.05. El intervalo más razonable es (0.4, 0.6).

Situación 29: Examen (Temas 14 y 16)

1. ¿Cuál de las siguientes afirmaciones es cierta?

a. Si la desviación estándar de una variable es pequeña el tamaño de muestra deberá ser muy grande.

b. Si la diferencia mínima a detectar entre la media de dos poblaciones es muy pequeña el tamaño de muestra deberá ser muy grande.

c. El tamaño de muestra depende exclusivamente de estudios previos del mismo tipo.

d. Si la desviación estándar de una variable es grande y la diferencia mínima a detectar es pequeña con menos de 30 valores muestrales tendremos suficiente.

2. En el Test de McNemar una de las siguientes afirmaciones es cierta:

a. Sólo necesitamos los dos porcentajes muestrales y los dos tamaños muestrales.

b. Necesitamos una tabla dos por dos donde figuren los casos de las cuatro posibles situaciones de una variable dicotómica evaluada en dos muestras relacionadas.

c. Es un caso especial donde no existe p-valor en el contraste de hipótesis.

d. La Hipótesis nula afirma que existen diferencias entre las proporciones en las dos poblaciones.

3. En un contraste de hipótesis una de las siguientes afirmaciones no es cierta:

a. Tenemos dos hipótesis: la nula y la alternativa. La nula parte “a priori” como cierta.

b. Tenemos un estadístico de test cuya distribución, o una buena aproximación de ella, sabemos en el caso de que sea cierta la hipótesis nula.

c. El error de tipo I es un valor que queda influido por la potencia del test.

d. El error de tipo II es la probabilidad de no aceptar la Hipótesis alternativa cuando no es cierta la Hipótesis nula.

4. Si estamos haciendo una comparación de medias de dos poblaciones normales y tenemos un intervalo de confianza del 95% de la diferencia de las dos medias poblacionales que es (-44, 45), ¿cuál es el p-valor más razonable para el contraste de hipótesis de igualdad de medias?

a. 0.001.

b. 0.04.

c. 0.000008.

d. 0.65.

5. Si estamos haciendo una comparación de proporciones de dos muestras independientes y el p-valor obtenido es 0.001, ¿qué intervalo de confianza de la diferencia de proporciones es el más razonable?

a. (-0.2, 0.3)

b. (0.001, 0.5)

c. (-0.5, 0.05)

d. (0.4, 0.6)

Solución

Introducción al contraste de hipótesis

Supongamos que queremos jugarnos dinero entre tú que lees y yo que escribo mediante una moneda. Si sale cara ganas tú. Si sale cruz gano yo. Cada vez que alguien gane le dará 100 euros a su oponente. ¡Esto va en serio, hay que concentrarse!

Yo pongo la moneda para jugar. Pero te dejo que elijas con cuál de las dos monedas que yo propongo quieres jugar: La moneda 1 ó la moneda 2.

Supongamos que, previamente, ante notario, hemos hecho una serie de lanzamientos independientes de cada una de las dos monedas. Con la moneda 1 hemos hecho 1000 lanzamientos y han salido 550 caras y 450 cruces. Con la moneda 2 hemos hecho sólo 10 lanzamientos, porque nos ha faltado tiempo, y han salido 8 caras y 2 cruces.

Repito: tú puedes elegir la moneda. La moneda 1 ó la moneda 2. Recuerda que tú ganas con cara, yo gano con cruz. ¿Cuál eliges? ¿La 1? ¿La 2? ¿Cuál?

Cuando he planteado esto en mis clases la mayoría de gente elige la moneda 2. Esta relación de 8 caras y 2 cruces es tentadora para quien gana con cara. En cambio, la moneda 1 parece poco apetecible. Las caras salen ganando pero por muy poco. Sólo 550 respecto a 450.

Pero yo de ti escogería la moneda 1. Preferiría que escogieras la moneda 2 para mi beneficio, pero a ti te conviene, sin lugar a dudas, la moneda 1.

Veamos por qué. Veámoslo, además, planteado como un contraste de hipótesis.

En un caso como éste la Hipótesis nula contemplaría la afirmación de que la moneda es equilibrada, de que la probabilidad de cara y cruz es la misma: 0.5. En cambio, en la Hipótesis alternativa tendríamos la afirmación de que la moneda no es equilibrada, de que la probabilidad de cara y cruz no es 0.5, de que la moneda está trucada.

Supongamos que cogiéramos una moneda sacada de fábrica, una moneda que seguro que es equilibrada, una moneda que se ajusta perfectamente a lo que dice la Hipótesis nula. Y que hiciéramos 100000 experimentos de lanzar esa moneda 10 veces. O sea, que hiciéramos un millón de lanzamientos independientes agrupándolos de 10 en 10 para que queden como 100000 experimentos de lanzar 10 veces esa moneda equilibrada. En cada uno de esos 100000 experimentos de lanzar la moneda 10 veces anotaríamos el número de caras que obtuviéramos.

Esto nos llevaría su tiempo, claro. Pero nos daría una idea de los resultados que podríamos obtener bajo la Hipótesis nula, con la moneda 2, siendo cierta la Hipótesis nula.

Pero, aún más largo, supongamos que cogiéramos, también, esa misma moneda y hiciéramos 100000 experimentos pero ahora de lanzar esa moneda 1000 veces en cada experimento. O sea, que hiciéramos cien millones de lanzamientos independientes agrupándolos de 1000 en 1000 para que quedaran como 100000 experimentos de lanzar 1000 veces esa moneda equilibrada. En cada uno de esos 100000 experimentos de lanzar la moneda 1000 veces anotaríamos, de nuevo, el número de caras que obtuviéramos.

Como puede verse, esto nos llevaría mucho tiempo. Mucho.

Pero, ahora, gracias a la informática, gracias a la simulación, se puede hacer en un minuto. En un minuto podemos imitar perfectamente lo que pasaría en la realidad si cogiéramos una moneda recién salida de fábrica donde ingenieros certificaran que es correcta, y que hiciéramos todos esos experimentos que acabamos de comentar.

Si se hace esto con la moneda 2 vemos que los resultados que obtenemos del número de caras en 10 lanzamientos realizado 100000 veces es el siguiente:

IMG_5766

Observemos que el más frecuente es el 5 (5 caras y 5 cruces) con 24712 veces. Pero observemos que un valor de 8 caras y 2 cruces o 2 caras y 8 cruces sale un número no despreciable de veces (4328 y 4437 veces, respectivamente). Lo que significa que si es cierta la Hipótesis nula es razonable ver estas combinaciones; o sea, que no es muy improbable ver lo que vemos con la moneda 2 y que sea cierta la Hipótesis nula. En una moneda equilibrada ver lo que vemos en la moneda equilibrada tiene la suficiente probabilidad como para no dudar de ese equilibrio si en una moneda vemos ese resultado.

Si se hace esto mismo con la moneda 1 vemos que los resultados que obtenemos del número de caras en 1000 lanzamientos realizados 100000 veces es ahora el siguiente:

IMG_5767

Observemos ahora que el valor 550 no sale ni una sola vez. En 100000 experimentos de lanzar una moneda equilibrada 1000 veces en ninguna ocasión ha salido un resultado tan o más desequilibrado del visto en la moneda 1, o sea: 550 caras y 450 cruces. Por lo tanto, en este caso ver lo que vemos en la moneda 1 es muy poco probable si fuera cierta la Hipótesis nula. Por eso en este caso podríamos rechazarla y pasarnos a la Hipótesis alternativa, que afirma que la probabilidad de cara y cruz no es 0.5/0.5, que la moneda no está equilibrada. Y como la estimación es que la cara es más probable que la cruz si se gana con cara interesa elegir la moneda 1. A la larga ganarás más porque saldrá más veces.

Es muy importante entender esto porque en realidad todos los contrastes de hipótesis en Estadística se rigen por mecanismos de este tipo. Observemos que en este segundo caso, con la moneda 1, rechazamos la Hipótesis nula que afirma el equilibrio de la moneda (probabilidad 0.5/0.5) porque lo que vemos en esa moneda, nuestra experiencia con esa moneda, nos proporciona un valor de caras y cruces que es muy poco probable verlo en una moneda equilibrada. Lo observado está muy alejado de lo esperado en el caso de ser cierta la Hipótesis nula. Aquí está la clave. En ver la posición relativa de lo que ves respecto a lo que deberías ver en el caso de ser cierta la Hipótesis nula. De hecho, el p-valor de un contraste de hipótesis es un número entre el 0 y el 1 que cuantifica esta posición relativa. Si es grande (y por grande en Estadística significa que es mayor que 0.05) quiere decir que lo que vemos en nuestra muestra es algo bastante probable de ver si la Hipótesis nula fuera cierta. Sin embargo, si ese p-valor es pequeño (menor que 0.05) quiere decir que lo que vemos está muy alejado de lo que deberíamos ver en el caso de ser cierto lo que afirma la Hipótesis nula.

Por esto el p-valor para la moneda 2 sería un p-valor superior a 0.05 y, sin embargo, para la moneda 1 sería un p-valor inferior a 0.05.

Todo esto, evidentemente, es con la información que tenemos. Los contrastes de hipótesis se realizan con la información que se tiene. Por encima de todo en ciencia interesa ser coherente con el nivel de información que se tiene. Esto es muy importante.

Solución Situación 28

Primera pregunta: b

Como el p-valor, en ambos casos, es inferior a 0.05 entonces se rechaza la Hipótesis nula de la normalidad. Recordemos que en un Test de normalidad la Hipótesis nula afirma la normalidad de la variable.

Segunda pregunta: c

Como estamos en un caso donde no tenemos normalidad de las variables vamos directamente al Test de Mann-Withney para comparar la igualdad de medianas entre ambas poblaciones, no debemos comparar varianzas. Ver el tema dedicado a la Comparación de dos poblaciones.

Tercera pregunta: c

Ahora tenemos una variable dicotómica: Éxito o fracaso del implante. Y las muestras son independientes. Debemos aplicar o el Test de proporciones o el Test exacto de Fisher. Aquí como el valor esperado es menor que 5 porque estamos hablando de comparar un 3% versus un 1% y en total tenemos 200 observaciones (100 de cada tipo de implante), el valor esperado de fracasos bajo la Hipótesis nula es 4, debemos aplicar, pues, el Test exacto de Fisher.  Para leer más sobre esto ir al Tema dedicado a la Comparación de dos poblaciones.

Cuarta pregunta: c

Al ser la Odds ratio significativa y menor que uno el Sexo Mujer no es un factor de riesgo sino, todo lo contrario, de protección, ante el fracaso del implante.

Situación 28: Cuatro preguntas sobre un estudio con implantes

Se han comparado dos tipos distintos de implantes: El A y el B. Se ha puesto a 100 pacientes el implante tipo A y a otros 100 pacientes el implante tipo B. Se ha estudiado, en primer lugar, la estabilidad mediante el ISQ. Lo primero que se ha hecho es comprobar la normalidad de la variable ISQ en el implante A y en el implante B. Se ha aplicado el Test de Shapiro-Wilk. El p-valor para la muestra del tipo A de implante ha sido 0.001 y para la muestra del tipo B ha sido 0.04. Entonces:

a. Las dos muestras se ajustan a la distribución normal.

b. Ninguna de las dos muestras se ajusta a la distribución normal.

c. El tipo A se ajusta a la normal pero el tipo B al ser tan próximo el p-valor a 0.05 no se ajusta.

d. El Test de Shapiro-Wilk no es un test útil para comprobar la normalidad.

Una vez hecho esto si el objetivo es comparar si la estabilidad mediante la variable ISQ es equivalente en ambos tipos de implante, ahora debemos hacer lo siguiente:

a. Comprobar la igualdad de varianzas con el Test de Fisher.

b. Comprobar la igualdad de varianzas con el Test de la t de Student.

c. Aplicar el test de Mann-Withney.

d. Aplicar el test de la t de Student de varianzas iguales.

Supongamos que después de 2 años en el tipo A de implantes 3 implantes se han tenido que extraer y en el tipo B sólo 1 se ha tenido que extraer. Para comprobar si esta diferencia es estadísticamente significativa hemos de realizar lo siguiente:

a. Comprobar la normalidad y si las dos muestras siguen la normalidad comprobar la igualdad de varianzas para saber qué test de la t de Student hemos de aplicar.

b. Aplicar el Test de proporciones.

c. Aplicar el Test de Fisher.

d. Aplicar el Test de Mann-Withney.

Se han buscado factores asociados con el fracaso de los implantes sin distinguir entre tipos de implante y añadiendo datos de otros estudios similares y se ha llegado a las siguientes Odds ratio calculados entre las variables que se especifican a continuación y el fracaso del implante:

Edad: OR=2.33 IC 95%: (1.45, 4.17)

Fumar: OR=4.55 IC 95%: (3.15, 7.32)

Sexo Mujer: OR=0.55 IC 95%: (0.15, 0.87)

Enfermedad periodontal: OR=1.99 IC95%: (1.15, 3.77)

Viendo esta información, ¿cuál de las siguientes afirmaciones no es cierta?

a. Cuanta mayor edad más riesgo de fracaso del implante.

b. Fumar es un factor de riesgo de fracaso del implante.

c. Las mujeres tienen más riesgo a fracaso del implante.

d. Tener una enfermedad periodontal es un factor de riesgo de fracaso del implante.