Archivos Mensuales: mayo 2014

Solución Situación 64

1d: La Hipótesis nula en un test de comparación siempre afirma la igualdad, nunca la diferencia. Las otras tres afirmaciones son ciertas.

2a: Si se ha aplicado el test de la t de Student de varianzas diferentes es que se ha comprobado la normalidad previamente de cada una de las muestras (por lo que la respuesta b es incorrecta, porque nos estaría diciendo que no hay normalidad) y, después, hemos aplicado un test de comparación de varianzas, como es el test de Fisher-Snedecor, dando un p-valor menor de 0.05 y, por lo tanto, considerando que las varianzas poblacionales son diferentes.

3d: Si una enfermedad eleva su prevalente una técnica diagnóstica tiende a disminuir el Valor predictivo negativo. Y si una enfermedad disminuye su prevalencia una técnica diagnóstica tiende a disminuir su Valor predictivo positivo. Por lo tanto, las dos “a” y “b” son incorrectas.

4c: Entre las correlaciones signficativas la que tiene una mayor magnitud es la r=-0.7.

5a: Todas son Odds ratio significativas. Si pasamos todas las Odds ratio a la zona superior a 1, vemos que una OR=0.33 es equivalente a 3 y que una OR=0.5 es equivalente a 2. Por lo tanto, la mayor asociación es la mostrada por la OR=0.33.

6c: El error estándar es 0.5 porque es el resultado de dividir la desviación estándar (20) por la raíz cuadrada del tamaño de muestra. Por lo tanto, dos veces ese error estándar nos da el intervalo de confianza del 95% de la opción “c”.

7d: El Test de Shapiro-Wilk muestra que no hay normalidad. El Test adecuado al caso es, pues, el Test de Mann-Whitney.

8c: Los datos, visulamente, de forma clara se ajustan a la distribución normal. Además el tamaño de muestra es pequeño. Todo va a favor de tener que mantener claramente la Hipótesis nula de normalidad. Es cierto que hay dos p-valores mayores de 0.05, pero uno está claramente alejado de esa frontera y el otro, por el contrario, no. En este caso la opción más lógica es elegir el p-valor superior. Observemos que si el nivel de significación lo fijáramos en 0.1 deberíamos rechazar la normalidad si tuviéramos un p-valor de 0.08.

9b: Observemos que si cogemos los valores de la OR y su intervalo de confianza y los pasamos al otro lado del 1, haciendo la división de 1 por cada uno de los tres valores implicados tenemos los valores de la opción “b”: 1/0.5=2. 1/0.36=2.77. 1/0.68=1.47.

Por otro lado, la opción “a” y la “c” son descartables por mostrar una situación de no significación que no es compatible con lo el hecho de que con el otro orden de valores sí haya significación.

La opción “d” nos da un intervalo muy próximo al 1 cosa que no es coherente con el otro intervalo. Pensemos que únicamente cambiamos de posición el elemento donde focalizamos a la hora de calcular la Odds ratio.

10c: Con una desviación estándar de 10 y un tamaño de 400 el error estándar es 0.5 y, por lo tanto, un intervalo de confianza de la media del 95% tendrá un radio de 1.

11b: Al filtrar a los pacientes de hecho lo que hacemos es aumentar la prevalencia de los que son sometidos a la prueba. Por lo tanto, al aumentar la prevalencia aumenta el Valor predictivo positivo.

12c: Hay suficiente ajuste a la normal. Sabemos que en una normal si multiplicamos la desviación estándar por 0.68 y ese valor lo sumamos y lo restamos a la media obtenemos un intervalos del 50% en torno a la media. En nuestro caso: 20×0.68=13.6. El rango será dos veces ese 13.6; o sea, 27.2.

13d: El error estándar en ambos casos es 0.5. Si construimos los dos intervalos de la media del 95% resultan: (14, 16) y (17, 19). No se tocan. Por lo tanto, hay diferencias significativas de medias poblaciones. Es con el intervalo de confianza de la media que hay que hacerlo, no con el intervalo de confianza de valores individuales.

14d: El que las cajas de los Box-Plot se toquen habla del grado de solapamiento de los valores individuales entres las dos poblaciones, pero no habla del solapamiento de los intervalos de confianza de la media. El Box-Plot no depende del tamaño de muestra. Puede aumentar mucho el tamaño de muestra y no cambiar sustancialmente la forma de ese gráfico, pero sí cambiar, y mucho, los intervalos de confianza de la media: que se van estrechando. Por lo tanto esta afirmación no es correcta.

15d: Si entre dos variables cuantitativas no existe correlación significativa no tiene sentido hacer una regresión. Además, al hacerla, la pendiente no será significativamente distinta de 0.

La “b” no es correcta porque habla del estadístico de la ji-cuadrado, del valor de la ji-cuadrado, no del p-valor.

16c: (Atención que ha cambiado la pregunta respecto a la versión anterior. Antes las respuestas eran la b, la c o la d). La precisión guarda una relación de tipo directo con el tamaño de muestra: mayor precisión mayor tamaño de muestra. Menor precisión menor tamaño de muestra.

17c: El primer cuartil es -3 porque es el promedio de -7 y 1. El tercer cuartil es claramente 3. Por lo tanto, el rango intercuartílico es 6 (3-(-3)).

18d: Si el tamaño de muestra es el mismo en dos correlaciones y una de ellas es una correlación de 0.6 y sabemos que es significativa también lo será, de significativa, una correlación que sea mayor. Podría ser dudosa la significación, sin p-valor, de una correlación que fuera menor que 0.6, pero no una mayor.

La “b” no es elegible por una razón fundamental. Es cierto que si el p-valor es inferior a 0.05 la tabla observada y la esperada son diferentes. De hecho, cualquier p-valor que no sea el 1 nos indica que la tabla observada y la esperada son distintas. Lo relevante estadísticamente es que si el p-valor es menor que 0.05 nos indica que hay relación entre las variables. Esto es lo relevante, no el que las tablas observadas y esperadas son distintas.

19b: En una tabla 2×2 el punto de referencia para aceptar o rechazar la Hipótesis nula en un test de la ji-cuadrado es 3.84, independientemente del tamaño de muestra. Este valor depende del número de filas y el número de columnas que tengamos en la tabla de contingencias, no del tamaño de muestra.

20d: Por definición de primer y tercer cuartil es obvio que por debajo del primer cuartil tendremos el 25% de la población y que por encima del tercer cuartil tendremos también un 25% de la población.

 

Anuncios

Situación 64: Examen (Temas 1-14 y Sensibilidad, Especificidad, VPP, VPN)

1. Sabemos que en un estudio de comparación de dos poblaciones se ha acabado usando un Test exacto de Fisher. No es correcto:

a. El tamaño de muestra de ambos grupos es menor que 30 ó si es mayor o igual a 30 el valor esperado por grupo, bajo la hipótesis nula, es menor de 5.

b. La variable respuesta estudiada es dicotómica.

c. Las muestras son independientes.

d. La Hipótesis nula afirma que hay diferencia entre proporciones.

2. Sabemos que en un estudio de comparación de dos poblaciones se ha acabado aplicando un Test de la t de Student de varianzas distintas. Podemos afirmar:

a. El Test de Fisher-Snedecor ha dado un p-valor inferior a 0.05.

b. Los dos Test de Shapiro-Wilk aplicados han dado un p-valor inferior a 0.05.

c. Son muestras relacionadas.

d. La variable estudiada es dicotómica.

3.¿Cuál de las siguientes afirmaciones es cierta?

a. La elevada prevalencia de una enfermedad hace aumentar el Valor predictivo negativo.

b. La baja prevalencia de una enfermedad hace aumentar el Valor predictivo positivo.

c. Las dos afirmaciones “a” y “b” son ciertas.

d. Las dos afirmaciones “a” y “b” no son ciertas.

4. ¿Qué correlación es mayor?

a. r= 0.6 IC 95%: (0.3, 0.79)

b. r= 0.5 (p>0.05)

c. r= -0.7 IC 95%: (-0.99, -0.1)

d. r= 0.2 (p<0.05)

5. ¿Qué Odds ratio es mayor; o sea, cuál indica más relación entre dos variables dicotómicas?

a. 0.33 (p<0.05)

b. 2 (p<0.05)

c. 0.5 (p<0.05)

d. 1.5 (p<0.05)

6. Si una muestra de tamaño 1600, que se ajusta bien a una distribución normal, tiene una media muestral de 40 y una desviación estándar de 20, un intervalo de confianza del 95% de la media poblacional sería:

a. (38, 42)

b. (0, 80)

c. (39, 41)

d. (39.5, 40.5)

7. Estamos estudiando dos posibles nuevos fármacos antidepresivos en pacientes con depresión mayor. Una muestra de tamaño 50 se divide en dos grupos de 25 cada uno. Los pacientes de cada uno de los dos grupos es tratado con uno de los dos fármacos. Con los valores obtenidos de la variable cuantitativa respuesta estudiada se aplica el Test de Shapiro-Wilk resultando un p-valor inferior a 0.05, en ambas muestras. El Test a aplicar será:

a. El Test de la t de Student de varianzas desiguales si el Test de Fisher-Snedecor nos da un p-valor inferior a 0.05..

b. El Test de la t de Student de varianzas iguales si el Test de Fisher-Snedecor nos da un p-valor inferior a 0.05.

c. El Test exacto de Fisher porque el tamaño de muestra por grupo es menor que 30.

d El Test de Mann-Whitney.

8. En una muestra como la siguiente: (4.2, 8.1, 9.2, 9.3, 10.1, 10.4, 10.9, 11.2, 12.4, 13.1, 13.4, 14.2, 17.5) si aplicamos un Test de Shapiro-Wilk el p-valor más lógico que podemos obtener es:

a. 0.00002

b. 0.08

c. 0.7

d. 0.02

9. Estamos tratando de asociar el consumo de un determinado producto alimenticio y una determinada enfermedad. Nos dicen que la Odds ratio entre los consumidores de ese producto y esa enfermedad es de 0.5 con un IC 95%: (0.36, 0.68). Podemos afirmar:

a. Que no hay asociación significativa porque el intervalo de confianza no contiene el 1.

b. Que la Odds ratio asociada al no consumo de ese producto sería 2 (1,47, 2.77).

c. Que la Odds ratio asociada al no consumo de ese producto sería 2 (0,47, 4.77).

d. Que la Odds ratio asociada al no consumo de ese producto sería 2 (1,04, 4.77).

10. Se quiere hacer un pronóstico de la media poblacional de la concentración de un determinado neurotransmisor. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% de radio 1 si la Desviación estándar que tenemos en una muestra piloto es de 10?:

a. 1000.

b. 100.

c. 400.

d. 250.

11. Si de una técnica diagnóstica de una determinada patología sabemos, si se aplica a la población general,  la Sensibilidad, la Especificidad, el Valor predictivo positivo y el Valor predictivo negativo, si la aplicamos ahora a pacientes filtrados previamente por tener unos determinados signos y síntomas que apuntan hacia la sospecha de una determinada enfermedad, ¿cuál de estas afirmaciones es la más posible?

a. La Sensibilidad disminuirá.

b. El Valor predictivo positivo aumentará.

c. La Especificidad disminuirá.

d. Aumentará la Sensibilidad y disminuirá el Valor predictivo positivo.

12. En una muestra con una variable cuantitativa con Asimetría estandarizada igual a 1.23 y Curtosis estandarizada de -0.98, con media igual a 120 y desviación estándar igual a  20, podemos afirmar:

a. La mediana muestral es 120.

b. Que el 95% de la población, aproximadamente, tiene valores entre 100 y 140.

c. Que el rango intercuartílico es aproximadamente 27.2.

d. Que el percentil 95 es 160.

13. En dos muestras, de tamaño 100 cada una, de dos poblaciones de una variable que se ajusta bien a la distribución normal tenemos los siguientes valores: Primera muestra: 15±5. Segunda muestra: 18±5. ¿Qué afirmación es cierta? (Cada una de las muestras es de tamaño 100)

a. Como los intervalos de confianza del 95%, de cada una de las dos muestras, se solapan no hay diferencia estadísticamente significativa de medias poblacionales.

b. Como los intervalos de confianza del 95%, de cada una de las dos muestras, no se solapan hay diferencia estadísticamente significativa de medias poblacionales.

c. Como los intervalos de confianza del 95% de la media, de cada una de las dos muestras, se solapan no hay diferencia estadísticamente significativa de medias poblacionales.

d. Como los intervalos de confianza del 95% de la media, de cada una de las dos muestras, no se solapan hay diferencia estadísticamente significativa de medias poblacionales.

14. ¿Qué afirmación, entre las siguientes, no es cierta?:

a. Cuanta menos dispersión tenemos en dos grupos a comparar menos tamaño de muestra necesitaremos para encontrar diferencias significativas.

b. Cuanta más diferencia haya entre las medias muestrales de dos grupos a comparar menos tamaño de muestra necesitaremos para detectar significación estadística.

c. Una técnica estadística de comparación de dos poblaciones aplicada a dos muestras con medias muestrales iguales, en un test bilateral nos dará un p-valor de 1, independientemente de la dispersión que tengamos.

d. Si el p-valor en una comparación de dos poblaciones es menor de 0.05 entonces las dos cajas del Box-Plot, de ambas muestras, no se solapan en ningún intervalo de valores.

15. ¿Qué afirmación, entre las siguientes, es cierta?:

a. Si la Odds ratio entre dos variables dicotómicas nos da un intervalo de confianza del 95% (0.9, 1.1) se trata de una relación significativa porque es un intervalo muy estrecho.

b. Si el valor del estadístico de la ji-cuadrado es menor que 0.05 rechazamos la Hipótesis nula de independencia de las variables cualitativas.

c. Una correlación de Pearson entre dos variables cuantitativas con intervalo de confianza del 95% (0.05, 0.85) no es una correlación significativa porque no contiene al 0.

d. Una correlación de Pearson no significativa entre dos variables es incompatible con la realización de una regresión lineal entre esas variables.

16. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Un intervalo de confianza del 95% de una pendiente en una Regresión lineal simple que sea (-0.75, 0.34) nos indica una pendiente no significativa.

b. La significación de una Odds ratio puede mostrarse tanto mediante un p-valor como mediante un intervalo de confianza del 95%.

c. La precisión en la estimación por intervalos de confianza de un valor poblacional mantiene una relación inversa con el tamaño de muestra necesario.

d. Un intervalo de confianza del 99% tendrá un radio de intervalo mayor que uno del 95% de confianza.

17. Sea la muestra (-7, -7, 1, 1, 3, 3, 3, 7). Podemos afirmar:

a. El rango es 7.

b. La mediana es 1.

c. El rango intercuartílico es 6.

d. Ninguno de los tres cálculos anteriores es cierto.

18. ¿Cuál de las siguientes afirmaciones  es cierta?

a. El Test de McNemar es para muestras relacionadas cualquiera que sea la distribución de la variable estudiada.

b. En un Test de la ji-cuadrado si el p-valor es menor que 0.05 la principal conclusión estadística es que la tabla de contingencias observada y la esperada son distintas.

c. Un intervalo de confianza de la media del 95% que sea (8, 12) indica que el Error estándar es igual a 2.

d. Si la correlación de Pearson entre las variables A y B es r=0.6 (p<0.05) y la correlación de Pearson entre las variables C y D es r=0.7, si el tamaño de muestra de ambos estudios es el mismo, podemos concluir que esta última correlación de 0.7 es mayor que la de 0.6, aunque no dispongamos del p-valor concreto de esa correlación entre las variables C y D.

19. ¿Cuál de las siguientes afirmaciones es cierta?

a. Si en una regresión la R2 es del 80% podemos hablar de una relación significativa.

b. Si en una tabla de contingencias 2×2 el valor del estadístico de la ji-cuadrado es menor que 3.84 no podremos decir, con la información que tenemos, que hay una relación estadísticamente significativa entre las dos variables cualitativas, independientemente del tamaño de muestra que tengamos.

c. Una Odds ratio negativa indica una relación inversa entre las variables.

d. Si existe distinta varianza, estadísticamente significativa, entre dos muestras de variables cuantitativas que no se ajustan a una distribución normal, no puede aplicarse el Test de Mann-Whitney.

20. En una muestra con curtosis estandarizada de 0.34 y asimetría estandarizada de -7.18:

a. Si la media muestral es 10 y la desviación estándar es 2 podremos decir que entre 6 y 14 tenemos el 95% de los valores.

b. La media muestral es menor que la mediana muestral.

c. Si el primer cuartil es 9 y la media muestral es 20 podemos decir que entre 9 y 20 tenemos un 25% aproximadamente de la población.

d. Si el primer cuartil es 9 y el tercer cuartil es 30 podemos decir que en la población hay, aproximadamente, los mismos valores por debajo de 9 que por encima de 30.

 

Solución Situación 63

1c: Como existe ajuste a la distribución normal en ambas muestras, porque el p-valor del Test de Shapiro-Wilk es mayor que 0.05, el siguiente paso será aplicar el Test de Fisher-Snedecor y si éste es menor que 0.05, como dice esta afirmación aplicaríamos el Test de la t de Student de varianzas desiguales.

2a: El tamaño de muestra no necesariamente será menor que 30. Puede ser mayor que 30 y tenerse que aplicar igualmente este Test debido a que el número de valores esperados, por grupo, bajo la Hipótesis nula, sea menor que 5.

Podría plantearse alguna duda sobre la respuesta d: La Hipótesis nula en una comparación de proporciones siempre afirmará, necesariamente, la igualdad de proporciones. Otra cosa será si se aceptará o se rechazará, según los datos muestrales que tengamos, pero esta afirmación estará siempre, necesariamente, presente. En la Hipótesis nula siempre hay igualdad, no relación o ajuste a la distribución normal.

3d: Cuanta mayor dispersión más tamaño de muestra. Porque la Desviación estándar y el tamaño de muestra tienen una relación directa.

Atención con la respuesta c: El radio de un intervalo mantiene una relación inversa con el tamaño de muestra: menor radio precisa más muestra, pero la precisión tiene una relación directa con el tamaño de muestra: más precisión precisa de más muestra. Cuidado con este. El radio de un intervalo es menor cuanta mayor precisión queramos. Por lo tanto, radio y precisión mantienen una relación inversa.

4c: Si un factor en un ANOVA nos ha dado un p-valor superior a 0.05 no tiene sentido hacer unas comparaciones múltiples porque no habremos rechazado la igualdad de los niveles de ese factor. Las comparaciones múltiples únicamente las haremos si hay diferencias, si el p-valor de ese factor es inferior a 0.05.

5b: Si aplicamos la ecuación siguiente:

IMG_4908

el resultado es n=100. Porque DE=10 y r=2. Se pide un intervalo de confianza del 95% que, si la media fuese 50, fuese (48, 52). Esto representa un radio de intervalo de 2.

 

Situación 63: Examen (Temas 14, 15 y 16)

1. Se está evaluando la satisfacción de pacientes ingresados en un Hospital al ser dados de alta. Se pretende comparar la satisfacción media que muestran los pacientes ingresados en dos departamentos distintos: Medicina interna y Traumatología. Se ha aplicado un Test de Shapiro-Wilk a cada una de las dos muestras. En ambos casos el p-valor es superior a 0.05. ¿Cuál es el siguiente paso a realizar?

a. Debemos aplicar el Test de Fisher-Snedecor para ver si hay que aplicar o no el Test de Mann-Whitney.

b. Debemos aplicar el Test de la t de Student de datos apareados.

c. Debemos aplicar el Test de Fisher-Snedecor y si el p-valor resulta que es inferior a 0.05 aplicar entonces el Test de  la t de Student de varianzas desiguales.

d. Debemos aplicar el Test de Mann-Whitney porque ninguna de las dos poblaciones se ajusta a la distribución normal.

2. En un estudio sabemos que se ha aplicado un Test exacto de Fisher. ¿Qué afirmación no es necesariamente cierta?

a. El tamaño de cada muestra será inferior a 30.

b. Las variables son dicotómicas.

c. Las muestras son independientes.

d. La Hipótesis nula afirma la igualdad de proporciones.

3. ¿Cuál de las siguientes afirmaciones es cierta?

a. En un contraste de hipótesis de comparación de medias lo que diga la Hipótesis nula depende de si nos interesa demostrar la igualdad o la diferencia.

b. Si el p-valor es menor que 0.05 entonces se rechaza la Hipótesis nula excepto en un Test de ajuste a la distribución normal en el que se acepta.

c. Cuanta más precisión queramos tener en un pronóstico, como la precisión es inversamente proporcional al tamaño de muestra necesitaremos menos tamaño de muestra.

d.  Cuanta mayor dispersión tengamos en un estudio de comparación de medias más difícil será rechazar la Hipótesis nula.

4. ¿Cuál de las siguientes afirmaciones no es cierta?

a. El Test de Kruskal-Wallis es apropiado para hacer un ANOVA de un factor cuyos niveles no se ajusten a la distribución normal.

b. La interacción entre dos factores evalúa si los niveles de un factor se comportan  de forma distinta al combinarse con los niveles del otro factor.

c. Las comparaciones múltiples únicamente tiene sentido realizarlas si el p-valor del ANOVA previo es superior a 0.05.

d. En un ANOVA de dos factores anidados no es posible evaluar la interacción entre factores.

5. Se quiere hacer un pronóstico de la media poblacional de la concentración de un determinado neurotransmisor. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% que, si la media muestral fuese 50, nos diese un intervalo como el siguiente: (48, 52)?  La Desviación estándar que tenemos en una muestra piloto es de 10:

a. 150.

b. 100.

c. 200.

d. 250.

La modelización matemática en Medicina: Validación, Ajuste, Discriminación, Calibración, Precisión, Reproductibidad, Transportabilidad

La modelización matemática es utilizada con mucha frecuencia en Medicina. Es especialmente usada en Medicina preventiva donde es muy frecuente construir modelos de predicción, modelos para evaluar y cuantificar grados de riesgo.

En todas las revistas médicas vemos con mucha frecuencia modelos matemáticos predictivos. En el día a día, en Medicina, usamos muchos de estos modelos. Por citar sólo unos ejemplos: El Framingham risk score, el EuroSCORE, el APACHE, etc.

Una buena parte de estos modelos, en Medicina, son modelos de Regresión logística. La Regresión logística es, digamos, un modelo matemático extraordinariamente ligado a la Medicina. En Medicina con mucha frecuencia nos preocupa el valor de una variable dicotómica: Muere al año de ser operado el paciente o no. Tiene metástasis a los 5 años o no. Ha tenido un infarto o no. Tiene la presión por encima de 140 ó no. Tiene diabetes o no, etc. Y esta variable dicotómica, digamos variable resultado (en terminología Estadística la solemos denominar “variable dependiente”), queremos ver qué relación, qué asociación tiene con otra u otras variables (variables que en Estadística solemos denominar “variables independientes”).

Relacionar cualquiera de estas variables dicotómicas con alguna o algunas variables es, digamos, consustancial a la labor de la Medicina. Es por esto que el modelo matemático y estadístico más usado en Medicina, de largo, es el de la Regresión logística y los principales usuarios de este tipo de modelos son, evidentemente, también, los médicos.

Ahora bien, un modelo es una maqueta matemática de una realidad. Y como maqueta que es puede ser más o menos próxima a la realidad. Hay buenas modelizaciones y malas modelizaciones. Y, por supuesto, toda una inmensa escala de situaciones intermedias que conviene saber distinguir, evaluar y pesar.

Hay todo un amplio repertorio de conceptos que se manejan habitualmente en la modelización. La intención de este artículo es aclarar un poco este bosque inmenso de conceptos para ver qué significa cada uno de ellos. Nos vamos a centrar, en concreto, a la hora de manejar ejemplos, en la modelización mediante Regresión logística, por ser la más habitual en Medicina, pero todos los conceptos que vamos a ver son extrapolables a la modelización usando cualquier otro modelo y en cualquier campo del conocimiento, evidentemente.

Validación, Validación interna, Validación externa, Ajuste, Discriminación, Calibración, Reproductividad, Transportabilidad son conceptos que aparecen habitualmente en este ámbito generando este bosque conceptual por el que es ciertamente difícil moverse.

Todos estos conceptos conllevan, en definitiva, procedimientos matemáticos y estadísticos distintos con los que evaluar la calidad de una modelización. Vamos a internar ir delimitando, poco a poco, cada uno de estos importantes conceptos.

Como vamos a ver cada uno de estos criterios en un modelo de Regresión logística es importante, en primer lugar, recordar un poco lo que es y representa la modelización mediante este especial tipo de Regresión.

Un modelo de Regresión logística es importante, en primer lugar, que se vea dibujado. Si únicamente tenemos una variable independiente el modelo se dibuja así:

IMG_5243

Observemos que se trata de una variable dependiente codificada con 0 y 1 y una variable independiente x. Los puntos representan los valores concretos de una muestra: lo pacientes. Como la variable dependiente es dicotómica (codificada con 0 y 1), los valores únicamente pueden estar a nivel del 0 ó a nivel del 1.

El modelo construye una curva que se adapte lo más fielmente posible a los datos, que en el dibujo anterior es la curva dibujada en color rojo. Para más detalles puede consultarse, en este blog, el Tema 11: Regresión logística.

Vayamos con los conceptos.

Validación: La validación significa evaluar lo válido, lo correcto, lo firme que es un procedimiento. En el ámbito de la modelización, como estamos dibujando una realidad con materiales tomados de otra realidad (en nuestro caso hablamos de evaluar riesgos en la vida real mediante herramientas tomadas del mundo de las funciones matemáticas), la validación evalúa lo estrecha que es esta representación, lo próximo que es ese dibujo matemático a la realidad que trata de representar.

Validación es, pues, un término muy genérico porque esta evaluación se puede hacer mediante criterios diferentes y mediante procedimientos también muy diferentes. Por lo tanto, como vamos a ver a continuación, la noción de validación va abriéndose a distintos conceptos.

Suele diferenciarse entre Validación interna y Validación externa. Veamos esa importante  distinción:

Validación interna: Cuando esa evaluación se hace con los propios datos de la realidad que te han servido o que has usado para construir el modelo. Se trata, por lo tanto, de ver el grado de conexión que hay entre lo que nos dice el modelo matemático creado y los propios datos usados para construir ese modelo. Por eso se le denomina “interna”, porque es respecto a los propios datos usados.

Validación externa: Cuando esa evaluación se hace no con los propios datos usados para construir el modelo sino con otros datos, con otra muestra. Se trata, pues, de una generalización. Aquí no se trata, pues, de evaluar la proximidad del modelo con los datos usados para construirlo, sino, por el contrario, se trata de ensayar, de poner a prueba el modelo para ver si explican también otros valores, si explican una realidad análoga a la representada pero de la que no hemos usado datos a partir de los cuales construir el modelo.

En realidad, estos dos conceptos es en torno a los cuales gira todo lo que estamos explicando aquí, puesto que ahora se trata de ir perfilando los diferentes conceptos que van concretando aspectos diferentes de ese proceso de validación tanto interna como externa.

Ajuste: La noción muy utilizada de Ajuste significa la evaluación de la proximidad de un modelo a una determinada realidad. Por lo tanto, todas las técnicas que evalúan el ajuste de unos datos a un modelo son, en realidad, técnicas de validación. Hemos visto en este blog muchos casos de técnicas de ajuste. Lo hemos visto en distintos momentos y tenemos diferentes ejemplos en el Herbario de técnicas de ese tipo de análisis estadísticos.

Ajustar es ver hasta qué punto hay proximidad entre la realidad y un modelo propuesto. Existen casos en los que basta una técnica de ajuste para poder decir que en gran parte se agota la evaluación de la validez, la evaluación de la proximidad. Esto sucede, por ejemplo, en el ajuste de unos datos a una determinada distribución. Cualquier test de bondad de ajuste a una distribución agota la validación. Al menos la validación interna. El ajuste de la distribución a esos datos. La representatividad, por ejemplo, de la campana de Gauss, como modelo poblacional, a unos datos muestrales concretos, se agota en la misma comprobación. Tiene poca complicación por la sencillez de la situación.

Sin embargo, en modelo más complejos, como el de la Regresión logística, u otro modelo de Regresión en general, la validación, el ajuste, puede evaluarse desde perspectivas distintas. Digamos que existen bastantes dimensiones desde las que abordar el nivel de validez del modelo. Y es aquí, precisamente, donde van surgiendo los diferentes conceptos que vamos a comentar a continuación. Porque una realidad compleja, como la de la modelización de unos datos a un modelo de Regresión logística, puede evaluarse desde perspectivas diferentes, desde ángulos diferentes. Son muchas, por lo tanto, las posibles miradas a hacer.

Tenemos técnicas para evaluar el ajuste. Técnicas como la razón de verosimilitud, el método Wald, etc. Son, éstas, técnicas genéricas, técnicas “todo terreno”, que valen para situaciones muy distintas.

Estos métodos de ajuste genéricos son poco finos. Hacen una valoración global. Hacen, digamos, una mirada demasiado desde arriba, desde lejos. Entran poco en detalles. Por eso se han desarrollado nuevos instrumentos en este ámbito que nos han llevado a tener que matizar la noción de Ajuste. En este contexto surgen nociones como las de Discriminación, Calibración y Precisión.

Discriminación: Es una valoración de un aspecto del ajuste. El objetivo básico de una Regresión logística es establecer, dado el valor de una variable independiente, una probabilidad de si aquel individuo tendrá o no tendrá la enfermedad estudiada. Se trata de hacer una previsión en base a la asociación vista en unos datos muestrales.

Veamos las dos situaciones extremas siguientes:

20140408-155126.jpg

El modelo de la izquierda nos permite discriminar muy bien. Sin embargo, el modelo de la derecha no nos permite una buena discriminación. En el caso de la izquierda saber el valor de la variable “x” nos permite hacer una buena predicción de la variable dependiente. Ese valor discrimina. En el caso de la derecha el saber el valor de la variable “x” no nos informa. No discrimina.

Es muy habitual evaluar la Discriminación de un modelo de Regresión logística mediante curvas ROC y mediante el Área bajo la curva. Ver el Tema 23: Análisis ROC.

Calibración: Es otra valoración de un aspecto del ajuste. Se trata de evaluar que no haya saltos importantes entre valores observados y valores esperados, entre probabilidades observadas y probabilidades esperadas. Se trata de ver si hay paralelismos entre valores observados y valores esperados en distintos tramos de la variable independiente. Una forma habitual de evaluación de la calibración en Regresión logística es el Test de Hosmer-Lemeshow. Este Test evalúa el equilibrio entre los valores observados y los valores esperados por tramos del modelo. Si en estos diferentes intervalos se mantiene un equilibrio entre el observado y el esperado es que el modelo está calibrado.

Es importante distinguir entre Discriminación y Calibración. Porque podemos tener un modelo con buena calibración pero mala discriminación y podemos tener, también, por el contrario, un modelo con bastante buena discriminación y muy mala calibración. Veamos las dos siguientes situaciones:

20140408-160245.jpg

En el caso de la izquierda tenemos una muy buena calibración. Los esperados y los esperados van a coincidir perfectamente, pero la discriminación es inexistente. En el caso de la derecha sucede justo lo contrario: tenemos una aceptable discriminación pero la calibración es mala. En distintas zonas de la variable independiente los valores observados y los esperados van a tener amplias diferencias. Lo que indica que el modelo no está bien calibrado.

La Calibración tiene este problema. Que valora digamos el equilibrio en la disposición por un lado de las probabilidades según el modelo y los valores reales, que serán, evidentemente, ó 1 ó 0. La realidad, sólo da esos valores, el modelo da probabilidades. Para penetrar mejor en el ajuste, para mirar con más precisión, con una lente más potente, hay que introducir la noción de Precisión.

Precisión: Es una cuantificación del grado de aproximación de estos observados y esperados en un modelo. Es, de hecho, un complemento a la Calibración ofrecida de forma original por el Test de Hosmer-Lemeshow. El Score de Brier es uno de esos cuantificadores de la Precisión. Es un cálculo que evalúa, no por sectores, por intervalos, sino valor a valor, la distancia entre los valores observados (1 ó 0, evidentemente) y la probabilidad asignada por el modelo. Este Score, por lo tanto, no evalúa el equilibrio de observados y esperados por sectores, por intervalos, sino que evalúa distancias entre valores observados y probabilidades esperadas bajo el modelo.

El Score de Brier es el siguiente cálculo:

20140409-175330.jpg

En cada uno de los n valores muestrales se resta cada observado (0 ó 1) del valor esperado que es el valor de la función dibujada en rojo para cada punto.

Observemos cómo el cálculo de este Score de Brier nos dará valores bien distintos entre las dos siguientes modelizaciones:

20140409-175247.jpg

Estos dos modelos, si atendemos puramente a la Calibración evaluada mediante, por ejemplo, el Test de Hosmer-Lemeshow, son dos modelos calibrados. Porque si observamos diferentes intervalos de la variable independiente “x”, los valores observados y esperados están muy próximos. Sin embargo, para el Score de Brier los valores serían muy diferentes. En el caso de la izquierda todos los valores esperados serían 0.5 y los observados serían 0 ó 1, lo que daría restas muy grandes. Sin embargo, a la derecha veamos que las probabilidades de los puntos con valores bajos de la variable “x” darían probabilidades muy pequeñas (porque el valor de la curva roja, la curva de la Regresión logística, nos da probabilidades de ser 1) y como en este espacio los observados son 0 esas restas darán valores pequeños. Cuando la variable “x” tenga valores grandes las probabilidades serán próximas a 1 y los valores observados serán 1, lo que nos dará, de nuevo, restas pequeñas.

Por lo tanto, el Score de Brier nos mide la precisión, la proximidad entre los pronósticos y los valores reales evaluado puntualmente; o sea, valor a valor, no intervalo a intervalo como hace la Calibración.

La Discriminación, Calibración y Precisión son, como puede verse, distintos criterios de ajuste. Es bueno que se den las tres cosas: Que el modelo discrimine bien, que esté bien calibrado y que sea preciso. Por eso es necesario evaluar cosas diferentes. Con una única evaluación nos podríamos encontrar con una deficiente evaluación.

Cuando el Ajuste, la Discriminación, la Calibración o la Precisión la evaluamos con la propia muestra utilizada para construir el modelo estamos haciendo una Validación interna.

Cuando el Ajuste, la Discriminación, la Calibración o la Precisión la evaluamos con una muestra diferente a la utilizada para construir el modelo estamos haciendo una Validación externa. El grado de alejamiento de esta muestra diferente, respecto a la muestra original, nos lleva a dos ámbitos de la Validación externa que ahora vamos a delimitar: la Reproducibilidad y la Transportabilidad.

Reproducibilidad: Con este concepto evaluamos el grado de validez de un modelo a la hora de ser aplicados a una muestra que no es la tomada para construir el modelo. Pero, eso sí, se trata de una muestra tomada en un contexto análogo al de la muestra original. Supongamos, por ejemplo, que la muestra base ha sido tomada entre pacientes de un hospital de una determinada ciudad. Pues, si lo ensayamos con pacientes de otro hospital de un nivel análogo al anterior, y de la misma ciudad, estaremos evaluando el grado de Reproducibilidad de nuestro modelo.

Una forma habitual de Reproducibilidad es hacer lo que suele denominarse una Validación cruzada (Cross-Validation). Consiste en crear, en una muestra, un subgrupo para construir el modelo y otro subgrupo distinto para validar el modelo construido. Suele hacerse diversas veces este procedimiento, en una misma muestra. Suele, entonces, denominarse una Validación cruzada con k iteraciones (k-fold Cross-Validation). Este procedimiento consiste en dividir la muestra en k subgrupos. Entonces se realiza k veces esta operación de construir el modelo con un subgrupo y validarlo con otro subgrupo. Cada una de estas veces es uno de esos k grupos el usado como grupo de validación y el resto de valores de la muestra es usado para construir el modelo.

El bootstrap es una forma habitual de trabajar a este nivel. El bootstrap es un procedimiento que genera submuestras a partir de la muestra. Una muestra es transformada en población y de ella, aleatoriamente se toman muestras del tamaño deseado.

Observemos que en cualquiera de estos procedimientos comentados nos estamos moviendo dentro de un mismo ámbito. Estamos intentando ver si la modelización hechas con una muestra sigue siendo válido con una muestra distinta aunque tomada en el mismo contexto que la muestra con la que se ha construido el modelo.

Transportabilidad: Con este concepto evaluamos, ahora, el grado de validez, el grado de proximidad, de un modelo, con todas las dimensiones vistas (Ajuste, Discriminación, Calibración, Precisión), a la hora de ser aplicado a un grupo de individuos distinto al grupo base del estudio. Ahora es otro país, otro ámbito distinto, la fuente de la muestra. Es, pues, un grado superior de generalización que el ofrecido por la Reproducibilidad.

Ahora estamos buscando el grado de inferencia a distancia: una distancia que puede ser temporal, territorial, etc.

En la Reproducibilidad y la Transportabilidad hay grados diferentes. Es un continuo. Y es de elevada complejidad saber el nivel de generalización en el que podemos situar una determinada Validación externa.

El siguiente cuadro puede constituir un resumen de todo lo visto:

20140409-184404.jpg

Obsérvese que este esquema intenta plantear una visión global de todo lo visto.

Los siguientes puntos resumen, también, todo lo dicho:

1. La Validación es la búsqueda del grado de proximidad entre modelo y realidad.

2. La Validación puede ser interna (si se evalúa la proximidad entre el modelo construido y los propios datos empleados para construir el modelo) o externa (si se evalúa la proximidad entre el modelo y otros datos que no sean los usados para su construcción).

3. Ajuste, Discriminación, Calibración y Precisión son distintas miradas, distintas perspectivas desde donde evaluar la Validación. Por lo tanto, son herramientas con las que valorar el grado de proximidad entre modelo y realidad.

4. Ajuste, Discriminación, Calibración y Precisión son aplicables tanto en la Validación interna como en la Validación externa. La diferencia entre estos dos tipos de Validación está en qué datos son los usados para evaluar la proximidad, pero las técnicas para hacerlo son exactamente las mismas.

5. La Validación interna es una: la evaluación de la proximidad entre realidad y modelo sólo se realiza con la muestra que se ha usado para estimar el modelo. La Validación externa, por el contrario, es mucho más compleja y multidimensional: se han propuesto distintas formas para hacerla, según sea esa otra muestra usada para el ajuste. Es por eso que se habla de la Reproducibilidad y de la Transportabilidad, incluso de distintos tipos dentro de ellos, lo que le dota de un carácter más controvertido y complejo.

Solución Situación 62

SOLUCIONES:

1. ¿Hay diferencia, estadísticamente significativa, a nivel basal (a los 0 años), en cuanto al nivel de enfermedad entre los dos grupos (el grupo Placebo y el grupo Tratamiento)?

La variable del Mini-Mental es continua, las muestras que debemos comparar aquí (las dos muestras basales de los 0 años) son independientes. Debemos comprobar el ajuste a la normalidad de cada una de las dos muestras. El Test de Shapiro-Wilk nos da un p-valor de 0.0382 para el grupo Placebo a los 0 años y un p-valor de 0.3162 para el grupo Tratamiento a los 0 años. Como no se cumple que ambas muestras se ajustan a la distribución normal debemos aplicar el Test de Mann-Whitney. Este test nos da la siguiente salida de ordenador:

IMG_8963

No hay diferencias entre las medianas (p=0.3139). Aunque tengamos una mediana de 18 y otra de 19 estas diferencias no son estadísticamente significativas. Podemos, aceptar, pues, que estamos ante dos grupos homogéneos.

Este es un test metodológicamente muy importante en muchos estudios en ciencias de la salud. La finalidad es comprobar que partimos de dos grupos homogéneos, de dos grupos con el mismo nivel de demencia.

2. ¿Hay una pérdida, estadísticamente significativa, en el grupo Tratamiento, en los dos años?

De nuevo variables continuas pero ahora muestras relacionadas. Debemos, pues, comprobar la normalidad de la variable Resta del grupo Tratamiento. El Test de Shapiro-Wilk, en este caso, nos da un p-valor de 0.0008, por lo tanto, como no hay ajuste a la distribución normal, debemos aplicar o el Test de Wilcoxon o el Test de los signos para evaluar si hay diferencias estadísticamente significativas. La salida de ordenador del Test de Wilcoxon es la siguiente:

IMG_8961

El p-valor es de 0.000001. Observemos que la salida de ordenador nos da un p-valor de 0.0001E-2 que significa 0.0001 multiplicado por 10 elevado a menos 2 (o sea, multiplicado por 0.01). Hay, pues, diferencias significativas en los dos años.

La salida de ordenador del Test de los signos es:

IMG_8962

El p-valor también nos indica que hay diferencias significativas.

Por lo tanto, en los dos años hay una pérdida significativa de la capacidad cognitiva de estos pacientes del grupo tratamiento. Una pérdida que puede resumirse mediante una mediana de 2, como puede verse en la salida de ordenador.

3. ¿Hay una pérdida, estadísticamente significativa, en el grupo Control, en los dos años?

De nuevo variables continuas y muestras relacionadas. Debemos, pues, comprobar la normalidad de la variable Resta del grupo Placebo. El Test de Shapiro-Wilk, en este caso, nos da un p-valor de 0.0782, por lo tanto, como hay ajuste a la distribución normal, podemos aplicar el Test de la t de Student de datos apareados para evaluar si hay diferencias estadísticamente significativas. La salida de ordenador es la siguiente:

IMG_8960

El p-valor nos indica que hay una pérdida significativa del nivel cognitivo. Una pérdida que puede resumirse mediante la media: 3.9. La media de las pérdidas individuales es de 3.9.

4. ¿Hay diferencia, estadísticamente significativa, entre los dos grupos (Placebo y Tratamiento) en cuanto a la variable Resta; o sea, la variable Mini-Mental a 0 años-Mini-Mental a 2 años?

La variable Resta es continua, y, evidentemente, se trata de muestras independientes, hemos visto, en los apartados 2 y 3, que una no se ajusta a la distribución normal y la otra sí (p-valores del Test de Shapiro-Wilk de 0.0008 y de 0.0782, respectivamente). Esto nos obliga a trabajar con el Test de Mann-Whitney, cuya salida de ordenador, para estos datos, es la siguiente:

IMG_8964

 

El p-valor del Test de Mann-Whitney es 0.0002, lo que nos indica que hay diferencias significativas entre las pérdidas de Mini-Mental (las variables Resta de cada uno de los dos grupos) en esos dos grupos comparados.

Por lo tanto, estamos ante un tratamiento que, desde el punto de vista estadístico, consigue una reducción significativa en la evolución de la demencia.

5. ¿Hay diferencia, estadísticamente significativa, entre ambos grupos, en cuanto al porcentaje de los pacientes que en los dos años el descenso del valor individual es superior o igual a 6?

Se trata de una variable, ahora, dicotómica y se trata, también, de muestras independientes. La duda está en si aplicar el Test de proporciones o el Test exacto de Fisher.

En el grupo Placebo hay 3 casos, entre los 30, con una pérdida de valor del Mini-Mental igual o superior a 6. En el grupo Tratamiento hay 1 caso únicamente entre los 30. Como el valor esperado bajo la Hipótesis nula es de 2 por grupo, que es menor que 5, conviene aplicar un Test exacto de Fisher. Si se aplica este test el p-valor resulta ser 0.612, lo que nos obliga a mantener la Hipótesis nula de igualdad de proporciones entre los dos grupos. Por lo tanto, las diferencias entre las proporciones muestrales de pacientes que pierden 6 ó más unidades del Mini-Mental en los dos grupos (Placebo y Tratamiento) son diferencias no estadísticamente significativas.

La salida de ordenador del Test exacto de Fisher es la siguiente:

IMG_8983

El p-valor es 0.612, lo que nos indica que no se trata de una diferencia estadísticamente significativa.