Archivos Mensuales: marzo 2016

Estimador de Mantel-Haenszel

Cuando se calcula una Odds ratio y se pretende evitar el problema de la confusión por otra variable el Estimador de Mantel-Haenszel es el más utilizado.

La variable confusora se divide en estratos y se estudia la tabla para cada uno de esos estratos.

Veamos cuál es la fórmula:

img_3290

Y veamos su aplicación a un caso concreto con una variable confusora en dos estratos:

img_3292

Anuncios

Solución Situación 95

1c: Si tachamos el valor 20 quedan a su izquierda el 75% de valores y a su derecha el 25% de valores restantes.

2b: Si se aplica la fórmula para el cálculo del intervalo de confianza de una proporción visto en el tema 3 se obtiene este intervalo de confianza.

3d: El Error estándar será 0.1. Por lo tanto, sólo puede ser la respuesta d.

4b: Es el único caso donde pendiente y correlación siguen la misma suerte.

5d: 25 es el tercer cuartil, por lo tanto debajo de él tenemos el 75% aproximadamente de los enfermos.

6d. Puede ser posible tener una pendiente significativa y una R2 menor del 50% porque ambas cosas representan cosas diferentes.

7b: El primer cuartil es siempre, haya o no normalidad, un estimador del 25% de valores poblacionales inferiores.

8c: En una tabla 3×2 el valor de referencia es 5.99, por lo tanto, si el p-valor es menor de 0.05 es porque la ji-cuadrado ha dado un valor superior a 5.99.

9b: Es la única opción donde ser dicen cosas diferentes con el intervalo y con el p-valor.

10b: El valor de referencia es 12.59. Como 5.84 es menor el p-valor es mayor que 0.05 y por lo tanto no hay una relación estadísticamente significativa ente ambas variables.

Situación 95: Examen (Temas 1-9)

1.El tercer cuartil de la muestra (8, 9, 10, 20, 22) es:

a) 21

b) 15

c) 20

d) No tiene tercer cuartil esta muestra

2. Si en un estudio sobre la prevalencia poblacional de una enfermedad tenemos una muestra de tamaño 10000 de los cuales 100 tienen esa enfermedad, un intervalo de confianza del 95% del porcentaje poblacional será

a) (0, 2)

b) (0.8, 1.2)

c) (1, 3)

d) (0.5, 1.5)

3. Tenemos una muestra de tamaño 10000 de una variable con media muestral igual a 100, desviación estándar igual a 10, que se ajusta bien a una distribución normal. ¿Cuál de las siguientes afirmaciones es cierta?

a) IC 95% de valores individuales: (90, 110)

b) IC 95% de la media: (99.7, 100.3)

c) IC 99.5% de valores individuales: (99, 101)

d) IC 68.5% de la media: (99.9, 100.1)

4. De las siguientes afirmaciones cuál es cierta:

a) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.3, 0.7) con una de la correlación de (-0.6, -0.2)

En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.8, 5.7) con una de la correlación de (0.4, 0.7)

En una Regresión es compatible una pendiente con un p-valor de 0.85 con una de la correlación  con una p-valor de 0.01

En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.7, 5.7) con una de la correlación de (-0.6, -0.1)

5. Nos dicen que la concentración de dopamina en pacientes diagnosticados de Parkinson se puede resumir de la siguiente forma 5 (5- 25), podemos afirmar:

a) Que podemos representar a esa población de la siguiente forma: 5±5.

b) Entre 5 y 25 tenemos aproximadamente los mismos pacientes con Parkinson que con valores superiores a 25.

c) Por encima de 5 tenemos aproximadamente el 25% de la población de los pacientes de Parkinson.

d) Por debajo de 25 tenemos aproximadamente el 75% de los enfermos con Parkinson.

6. En una Regresión lineal simple es cierto:

a) Si la R2 es superior al 95% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b) Un coeficiente de determinación del 25% es compatible con una correlación r=-2.5

c) Si la pendiente es mayor que 0 la correlación es significativa.

d) Una pendiente negativa y significativa puede tener un R2 menor del 50%.

7. ¿Cuál de las siguientes afirmaciones es cierta?

a) Un intervalo de confianza de la media del 95% es siempre más amplio que el intervalo de confianza del 95 de los valores individuales de la variable cuantitativa estudiada.

b) En una muestra con Asimetría estandarizada y una Curtosis estandarizada fuera de intervalo -2 y 2 por debajo del primer cuartil hay aproximadamente el 25% de la población.

c) Una correlación r=-0.75 (p>0.05) tendrá una pendiente de regresión negativa y significativa.

d) Si del primer cuartil a la mediana hay el doble de distancia que de la mediana al tercer cuartil también habrá el doble de observaciones aproximadamente en la población.

8. Si se realiza una ji-cuadrado para ver de analizar la relación entre dos variables cualitativas es cierto:

a) Si el valor del cálculo de la ji-cuadrado es menor que 3.84 la relación será significativa.

b) Si el p-valor es mayor que 0.05 el valor del cálculo de la ji-cuadrado es menor que 5.99.

c) Si el p-valor es menor que 0.05 el valor del cálculo de la ji-cuadrado es mayor que 5.99 si la tabla de contingencias es 3×2.

d) Si el valor del cálculo de la ji-cuadrado es mayor que 3.84 y la tabla de contingencias es 2×2 el p-valor es mayor que 0.05.

9. Si en una tabla de contingencias 3×2 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 10.35 podemos afirmar:

a) Que estamos ante una relación significativa porque el valor 10.35 es superior al valor de referencia máximo aceptable para mantener la hipótesis nula en las tablas 3×2.

b) Que es imposible saber la significación porque no podemos saber si el p-valor es mayor o menor que 0.05.

c). No es una relación significativa porque el valor 10.35 nos proporcionará un p-valor superior a 0.05.

d) No sabemos si la relación es significativa pero sí sabemos que la correlación de Pearson será positiva y significativa.

9. ¿En cuál de las siguientes Odds ratio la información es incorrecta?

a) OR=0.3; IC 95% (0.1, 0.7); p=0.001

b) OR=0.5; IC 95% (0.1, 1.4); p=0.01

c) OR=3.1; IC 95% (0.56, 7.45); p=0.24

d) OR=0.5; IC 95% (0.2, 3.12); p=0.31

10.En la tabla

Captura de pantalla 2016-03-16 a las 11.25.16

El valor de la ji-cuadrado de esta tabla de contingencias es 5.84

a) Como 5.84 es menor que 21.02 el p-valor será mayor que 0.05

b) No hay una relación estadísticamente significativa entre ambas variables cualitativas.

c) Como 5.84 es mayor que 3.84 el p-valor será mayor que 0.05

d) Esta tabla no tiene V de Crámer por no ser una tabla 2×2

La Odds ratio para estudiantes de primaria

La Estadística es análisis de datos. Pero, ¿qué significa “análisis” y qué significa “datos”? Veámoslo.

“Análisis” significa descomponer algo en sus elementos. Si cogemos una cartera del cole de cualquiera de vosotros y la abrimos y empezamos a ver lo que hay en ella: el estuche, un libro de naturales, el bocadillo, las llaves de casa, etc. Esto se podría decir que es analizar la cartera. En este sentido empleamos expresiones que habréis oído alguna vez: Cuando nos hacen un análisis de sangre detectan, con unas máquinas complicadas cuánto azúcar, cuánto colesterol, etc, tenemos en la sangre. Cuando buscáis en clase de lengua, en una oración, cuál es el sujeto y cuál es el predicado, estáis haciendo un análisis sintáctico, que es un análisis de esa oración: buscar cuáles son las piezas de que está compuesta.

“Datos” significa observaciones, mediciones, hechas a muchos individuos; o sea, medir o evaluar ciertas características a muchos individuos. A todos los alumnos de primaria se podría pedir la altura, el peso, el sexo, las notas que tuvieron en la última evaluación en mátemáticas, lengua, naturales, etc. Esto serían datos.

La Estadística se estudia en casi todos los estudios universitarios porque en todos ellos hay que analizar datos. El biólogo analiza datos de seres vivos: animales, vegetales, microorganismos. El economista analiza datos de empresas, de consumidores de productos. El astrónomo analiza datos de estrellas, de planetas. El médico analiza datos que se refieren a cuestiones de salud de seres humanos. Etc.

En esta clase nos vamos a centrar en la Estadística aplicada a la Medicina.

Vamos a ver uno de los conceptos estadísticos que más se utiliza en Medicina: la Odds ratio. De hecho, la Odds ratio es una herramienta fundamental en el trabajo de un médico.

Veamos unos datos y vamos a analizarlos:

En invierno casi todos vosotros pasáis unos días con tos. Una semana y curados, normalmente. Se trata de una Bronquitis aguda. Una enfermedad en la que los bronquios se infectan e inflaman y la tos es una reacción de nuestro cuerpo ante esta inflamación. La tos es un mecanismo de defensa de nuestro organismo para expulsar los microbios invasores.

Pero una Bronquitis crónica es algo mucho más complicado. Es algo similar a lo que tenéis vosotros una semana al año, pero con una diferencia muy importante: dura casi siempre. Una tos que raramente marcha y, además, mucho más molesta.

Pues supongamos que tomamos una muestra real. A 22 personas adultas les pedimos si son fumadores y si tienen Bronquitis crónica. Podríamos obtener los siguientes datos:

Captura de pantalla 2016-03-24 a las 18.55.33

Esta es la forma primaria de información que tenemos en cualquier ciencia. En este caso, como la muestra es pequeña, ya podríamos empezar a sacar conclusiones viendo los datos que tenemos. Sin embargo, normalmente, la muestra es muchísimo más grande y se hace imposible sacar conclusiones con la simple observación.

Por eso se precisan mecanismos de análisis como los que trabaja la Estadística. Mirad un ejemplo: Mirad la siguiente tabla que es una forma de empezar a analizar estos datos primarios que tenemos:

Captura de pantalla 2016-03-08 a las 15.55.17

Y sigamos con el análisis:

Captura de pantalla 2016-04-06 a las 18.52.07

¿Cuál de esas dos relaciones es mayor? Sin duda que la primera, ¿verdad? Es un valor más grande. Es una proporción mayor. Pero, ¿cuántas veces? ¿Cuántas veces es mayor esa relación entre personas con Bronquitis crónica y personas sin Bronquitis crónica en los fumadores respecto a lo que sucede en los no fumadores?

Observad que esto es como decir, con números más sencillos: 10 es mayor que 2. Evidentemente, ¿verdad? Pero, ¿cuántas veces es mayor 10 que 2? ¿Cuántas veces está el 2 dentro del 10? Pues 5, porque 2×5=10. Necesitamos sumar 5 veces 2 para obtener 10.

Pues aquí lo mismo. ¿Cuántas veces es mayor 5/8 que 1/8? Supongamos que compramos una pizza y la dividimos en 8 trozos del mismo tamaño y una persona se come 5 trozos y otra persona se come únicamente un trozo. ¿Cuántas veces se come más pizza el primero que el segundo? Pues, 5, ¿verdad? Porque sumar 5 veces 1/8 nos da un valor de 5/8; o, lo que es lo mismo: multiplicar 5 por 1/8 me da 5/8; o, lo que es también lo mismo: dividir 5/8 por 1/8 da 5.

La Odds ratio es esta división. La Odds ratio es, pues, en este caso, 5. Usualmente la Odds ratio se escribe así: OR. En este caso diríamos OR=5.

Esto significa que hay 5 veces más Bronquitis crónica entre los fumadores que entre los no fumadores. En este caso decimos que fumar es un factor de riesgo para tener Bronquitis crónica.

Buena parte del objetivo del análisis estadístico a unos datos, en Medicina, es la obtención de valores como éste. Valores que nos digan cómo están relacionadas ciertas actividades, ciertos comportamientos, con ciertas enfermedades.

Gracias a análisis como éste y gracias a la OR sabemos cuales son los factores de riesgo de diferentes enfermedades: Infarto de miocardio, Anorexia, Cáncer de pulmón, etc.

Y, para acabar, sólo una cosa más, pero muy importante. Mirad estas dos tablas:

Captura de pantalla 2016-03-08 a las 16.23.22

La primera es la que hemos visto antes y la segunda es muy similar y distinta al mismo tiempo. Observad que podrían ser dos estudios hechos por distintas personas. El primero con pocos datos y el segundo con muchos más datos. Pero observad bien que la OR es la misma en ambas tablas. La OR es igual a 5. Si hacéis lo mismo que hemos hecho antes para calcular la OR con la segunda tabla veremos que la OR es, efectivamente, 5.

Pero observad bien que hay una diferencia muy importante: la cantidad de valores no es el mismo. Esto es muy importante en la ciencia, en la investigación. Que lo que se diga se haga con muchos datos, con lo que llamamos un tamaño de muestra suficiente. Y, ¿quién dice cuándo es suficiente el tamaño de muestra? Pues lo dice también la Estadística.

Cuando hemos trabajado con un tamaño de muestra suficiente decimos, entonces, que el resultado es SIGNIFICATIVO (Observad que lo pongo en mayúsculas porque tal vez sea la palabra más importante no sólo de la Estadística, sino de toda la Ciencia). SIGNIFICATIVO significa fiable, sólido.

Por lo tanto, aunque en ambos estudios la OR es la misma, en el segundo estudio el resultado es realmente SIGNIFICATIVO, es fiable, tiene realmente valor científico.

 

 

 

Artículo 15: Traditional and Emerging lifestyle risk behaviors and all-cause mortality in middle-aged and older adults

Se trata de un artículo muy interesante desde el punto de vista estadístico por la enorme masa de datos que maneja y la gran capacidad que tiene de ir articulando diferentes agrupaciones buscando su relación con la mortalidad.

El abstract es el siguiente:

Captura de pantalla 2016-03-05 a las 8.51.49

Durante seis años de seguimiento de 231048 personas se ha podido establecer cuáles son los riesgos de mortalidad en función de una serie de estilos de vida que se analizaron en todos estas personas. Los comportamientos analizados han sido: Fumar, beber alcohol, tipo de alimentación, actividad física, comportamiento sedentario y horas de dormir.

Los resultados de riesgos se establecen mediante la Hazard ratio (HR). La significación la obtenemos del intervalo de confianza.

La HR es una relación entre las funciones de riesgo de mortalidad de dos grupos que se quieren relacionar. Estas funciones son el reverso de las llamadas curvas de supervivencia. Una HR de 1 ó, aunque no sea 1 exactamente, si su intervalo de confianza contiene al 1, indica que los miembros de los dos grupos tienen el mismo riesgo de morir. Si la HR es mayor que 1 significativamente (el intervalo de confianza no contiene al 1) será que el grupo estudiado, respecto al grupo referencia, tiene más riesgo de morir. Tanto mayor, claro, cuanto más grande sea esa HR. Si fuera menor que 1, significativamente (sin contener al 1 su intervalo de confianza) entonces indicaría un grupo protector de la mortalidad.

Los distintos comportamientos y su relación de riesgo respecto al grupo de referencia lo muestra la siguiente ilustrativa tabla:

Captura de pantalla 2016-03-05 a las 8.53.16

Captura de pantalla 2016-03-05 a las 8.53.29

Captura de pantalla 2016-03-05 a las 8.53.40

Evidentemente esta fragmentación de la muestra en tantos grupos distintos únicamente es posible en muestras enormes como esta. Observemos que en esta fantástica tabla se pueden visualizar situaciones muy diferentes. A la derecha tenemos el porcentaje de personas que representa cada grupo respecto al total de la muestra. Y más a la derecha tenemos la HR con su intervalo de confianza que si no contiene al 1 se entiende como estadísticamente significativa.

En el artículo hay otra interesante forma de agrupar los datos. De los factores estudiados calculan un score según acumulen desde 0, 1, … , 6 factores de riesgo, según el siguiente criterio:

Captura de pantalla 2016-03-06 a las 8.43.17

Por lo tanto, pueden crear 7 grupos según el valor del score: 0, 1, 2, 3, 4, 5 y 6.

Entonces analizan los datos según diferentes grupos y según el valor del score:

Captura de pantalla 2016-03-06 a las 9.05.26

Captura de pantalla 2016-03-06 a las 9.05.39

Realmente se trata de un artículo extraordinario desde el punto de vista estadístico.