Archivos Mensuales: marzo 2014

Solución Situación 60

Las preguntas eran:

1. Comprobar si hay relación significativa entre la variable Grupo (anorexia frente a control) y cada una de las otras variables del estudio.

2. Calcular la V de Crámer para cada una de las relaciones.

3. Calcular la Odds ratio para cada una de las relaciones.

En el siguiente cuadro aparecen todos los resultados:

G respecto a: ji-cuadrado p-valor V de Crámer OR IC 95%
P 10,1764 0,0014 0,3190 4,2051 (1,69, 10,45)
A 14,0359 0,0002 0,3746 6,2469 (2,26, 17,29)
B 5,1975 0,0226 0,2280 2,9531 (1,14, 7,65)
H 23,5200 <0,0001 0,4850 20,4444 (4,47, 93,47)
D 4,5737 0,0325 0,2139 2,8908 (1,07, 7,82)
S1 13,1494 0,0003 0,3626 4,6437 (1,98, 10,88)
S2 15,1744 <0,0001 0,3895 5,5238 (2,26, 13,48)
S3 16,3185 <0,0001 0,4040 10,4444 (2,85, 32,21)

En todos los factores analizados vemos, mediante la ji-cuadrado, una relación significativa entre la variable cualitatitva Anorexia-Control y cada uno de esos factores analizados: P, A, B, H, D y las respectivas sumas de factores: S1, S2 y S3.

La variable H es la que presenta una Odds ratio más elevada. Las mujeres con antecedentes parenterales de trastornos de la alimentación tienen 20 veces más posibilidades de tener anorexia que las que no tienen esos antecedentes, en base a la muestra que tenemos.

Observemos, también, que al ir sumando más de esos factores considerados se va incrementando el riesgo. La Odds ratio va creciendo. Desde S1 a S3 vamos incrementando la Odds ratio.

Es interesante constatar el hecho de que H, individualmente, tenga una Odds ratio superior a cualquiera de las variables que suman riesgos. La suma de riesgos es más general, porque suma cualquier combinación. Tienen, esas sumas, valores de Odds ratio más bajas pero también con intervalos de confianza más estrechos porque reúnen un número superior de casos y esto reduce el intervalo.

Evidentemente en cualquier relación lo preferente es encontrar relaciones significativas, pero una vez tenemos significación cuanto más estrecho sea el intervalo de confianza más perfilado tenemos el nivel de riesgo o de protección de la exposición analizada.

Anuncios

Solución Situación 59

1. Calcular las correlaciones de Pearson entre las cuatro variables:

IMG_8352

 

La Edad no está correlacionada significativamente con ninguna de las otras tres variables. Lo que indica que la gravedad de la situación no depende de la edad, sino de otros factores. Nos podemos encontrar cualquier nivel de gravedad en cualquier edad.

La correlación entre las variables Amenorrea, Densidad ósea y Leucocitos es significativa y elevada. La correlación es negativa entre Amenorrea y las otras dos variables, indicando que cuantos más meses de amenorrea tenga la paciente menor nivel de densidad ósea o de leucocitos tiene. La correlación entre Leucocitos y Densidad ósea es positiva, indicando que existe entre ella una relación directa.

2. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los meses de amenorrea de la paciente:

IMG_8353

IMG_8354

 

Como la correlación entre Amenorrea y Densidad ósea es significativa podemos establecer entre ellas una Regresión lineal simple. Vemos cuál es la fórmula matemática que se acaba estimando: D=0.8234-0.0172*A.

La Res del 65.97%. No es muy elevado pero está por encima del 50% que es el umbral que se suele establecer para hablar de buen o mal modelo predictor. Por encima de este 50% ya podemos hablar de una determinación aceptable.

3. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los valores de leucocitos de una paciente:

IMG_8355

IMG_8356

 

Como la correlación entre Densidad ósea y Leucocitos también es significativa podemos establecer también un modelo de Regresión lineal simple. Ahora la fórmula es D=0.3018+0.0001*L. Observemos que el programa estadístico nos da 0.001E-1, esto significa que es 0.001 multiplicado por 10 elevado a -1; o, lo que es lo mismo, multiplicado por 0.1.

La R2 es del 97.05%, por lo tanto estamos ante una enorme capacidad de determinación de la Densidad ósea a partir del valor de Leucocitos de una paciente.

Por lo tanto, a la hora de predecir la Densidad ósea de una paciente los meses de amenorrea es un buen procedimiento, pero, aún mejor es basarse, si es que se conoce, el valor de Leucocitos de la paciente.

Herramientas estadísticas en Medicina (Una hoja de ruta)

El objetivo de este artículo es confeccionar una hoja de ruta, un mapa, para moverse entre las principales técnicas estadísticas en Medicina. Con esa hoja de ruta pretendo orientar al usuario de la Estadística a moverse en el complejo bosque de esas técnicas analíticas, especialmente tal como suelen usarse en el ámbito de la Medicina.

El índice básico de esta hoja de ruta es el siguiente:

1. Estadística descriptiva.

2. Técnicas de comparación.

3. Técnicas de relación.

4. Determinación del tamaño de muestra.

En la gran mayoría de investigaciones en Medicina se usan, al mismo tiempo, estos cuatro tipos de técnicas. Veamos cada una de estas familias de técnicas. Veamos lo que analizan, cómo se usan habitualmente y veamos, también, sucesivos enlaces donde encontrar detalles más concretos para quien quiera ampliar información:

1. Estadística descriptiva

El objetivo fundamental de la Estadística descriptiva es cuantificar ciertas características a las variables con las que hemos trabajado (media, mediana, desviación estándar, rango intercuartílico, etc., en las variables cuantitativas, y frecuencia absoluta y frecuencia relativa en las variables cualitativas).

La decisión de cómo presentar, de cómo resumir, las variables cualitativas y, especialmente, las variables cuantitativas, en un estudio, en absoluto es un tema trivial y suelen cometerse importantes errores a este nivel.

Unas pautas para el resumen básico, según el tipo de variable, son las siguientes:

a. Variables cualitativas: Suelen resumirse sin demasiado problema mediante las frecuencias absolutas y la frecuencias relativas de los diferentes valores que esa variable puede tener.

b. Variables cuantitativas: Con la media y la desviación estándar, si la variable se ajusta a la distribución normal. Con la mediana y el rango intercuartílico, si la variable no se ajusta a la distribución normal.

Para más información consultar los artículos: La Estadística descriptiva en Medicina, para ver cómo suele presentarse la Estadística descriptiva en artículos de Medicina, y Media y desviación estándar o Mediana y rango intercuartílico para la explicación de cuándo resumir una variable cuantitativa mediante Media y desviación estándar o mediante Mediana y rango intercuartílico.

2. Técnicas de comparación

El objetivo de las Técnicas de comparación es comprobar si las diferencias apreciadas en los distintos grupos comparados son diferencias estadísticamente significativas. Esto nos lleva al que seguramente es el elemento nuclear de la Estadística: la noción de  “significación”. En Estadística “significativo” significa que estamos ante un resultado que es muy poco probable que sea debido al azar, que estamos ante un resultado fiable. Ver los artículos: La Estadística como ciencia de lo significativo o La Estadística es como un partido de baloncesto o Introducción a las técnicas de comparación.

Entre las técnicas de comparación suele distinguirse entre Técnicas de comparación de dos grupos y Técnicas de comparación de más de dos grupos:

a. Comparación de dos grupos: En el tema dedicado a la Comparación de dos poblaciones se puede seguir el protocolo de decisión de la técnica a aplicar en un caso concreto. Es importante saber que disponemos de técnicas adaptadas a manejar datos que tengan una estructura adecuada. Es importante aplicar, pues, en cada caso, la técnica adecuada al caso. De esta forma optimizamos la decisión. Un resumen, en forma de diagrama de flujo, de los pasos seguidos para la elección de la técnica de comparación de dos poblaciones es el siguiente:

20140325-133316.jpg

b. Comparación de más de dos grupos: Para la comparación de más de dos grupos debemos introducirnos en el mundo ANOVA.

Es importante distinguir que hay dos momentos diferentes en los que se suele usar cualquiera de las técnicas de comparación en Medicina:

a. Comparación en la búsqueda de igualdad: donde se busca la igualdad de unos grupos, respecto a una serie de variables-descriptoras. Grupos que respecto a un tratamiento o la exposición a un riesgo están en posiciones diferentes.

b. Comparación en la búsqueda de diferencia: donde se buscan diferencias en ciertas variables-resultado entre los grupos sometidos a condiciones diferentes.

La siguiente tabla nos resume todo lo visto en el apartado 1 y 2:

IMG_8279

Observemos que en esta tabla se sintetiza Estadística descriptiva y Técnicas de comparación. Se expresan las variables cualitativas en frecuencia absoluta y frecuencia relativa y las variables cuantitativas mediante la media y desviación estándar o mediante la mediana y el rango intercuartílico. En las dos primeras columnas vemos los dos grupos a comparar en la búsqueda de igualdad, con el p-valor respectivo de esa comparación, con la técnica apropiada, en la tercera columna. En las columnas cuarta y quinta están los dos grupos a comparar en la búsqueda, ahora, de diferencia, con el p-valor respectivo en la sexta columna. Los dos primeros grupos comparados son según el tratamiento, los dos últimos grupos han sido creados según el resultado (éxito/fracaso). Es lógica la búsqueda de igualdad en la primera comparación y la búsqueda de diferencia en la segunda.

3. Técnicas de relación

En las técnicas de relación el objetivo es establecer relaciones entre variables. En el ámbito de las técnicas estadísticas que analizan las relaciones entre variables es habitual diferenciar tres situaciones posibles:

a. Relaciones entre dos variables cuantitativas.

b. Relaciones entre dos variables cualitativas.

c. Relaciones entre una variable cualitativa y una cuantitativa.

La siguiente figura resume estas tres situaciones posibles:

Foto 20-10-12 17 58 17

Observemos que tenemos tres filas y tres columnas. Las tres filas indican los tres posibles tipos de relación entre dos tipos de variables: Dos cuantitativas, dos cualitativas y una cualitativa y una cuantitativa. Las tres columnas indican tres tipos de situaciones en cuanto a la relación. En la columna del medio no hay relación entre las variables. En las columnas de la izquierda y de la derecha hay relación. Y en ambos lados digamos que se trata de una relación de tipo, de signo distinto.

En cada uno de estos tres ámbitos el objetivo será triple:

a. Detectar si hay o no relación estadísticamente significativa.

b. Cuantificar esa relación.

c. Matematizar esa relación, crear una función que exprese, matemáticamente, esa relación.

De todos los conceptos que se manejan en el ámbito de la relación entre variables los que son más frecuentemente usados en el ámbito de la Medicina son los siguientes:

a. Para detectar relación y cuantificarla, entre variables cuantitativas: la correlación, en sus diferentes versiones: Pearson, Spearman y Kendall.

b. Para matematizar la relación entre variables cuantitativas: la Regresión lineal simple. Para más de dos variables: la Regresión múltiple.

c. Para detectar relación entre variables cualitativas: el Test de la ji-cuadrado.

d. Para cuantificar la relación entre variables cualitativas: la Odds ratio.

e. Para detectar, cuantificar y matematizar la relación entre variables cualitativas y cuantitativas: la Regresión logística.

f. Cuando una de las variables es el tiempo hasta que sucede un determinado acontecimiento tenemos: el Análisis de supervivencia y cuando esta supervivencia queremos explicarla matemáticamente mediante otra u otras variables tenemos: la Regresión de Cox. En este ámbito aparece una nueva cuantificación de la relación: el Hazard ratio, que, aunque guarde una estrecha relación con la Odds ratio se trata de dos medidas diferentes que es importante saber situar. Para esa distinción ver el artículo: Odds ratio versus Hazard ratio.

4. Determinación del tamaño de muestra

La muestra es el punto de partida del análisis estadístico. Sin embargo, la elección misma de la muestra ya supone un análisis estadístico previo bastante complejo. El tamaño de muestra depende de una serie de factores que es muy importante entender bien:

a. De los errores que se esté dispuesto a cometer (Error de tipo 1 y Error de tipo 2). Al de tipo 1 se le suele denominar Error alfa y al de tipo 2 Error beta. Al valor 1-Error de tipo 2 (1-beta), expresado en porcentaje, es lo que se suele denominar la potencia del test. Como se decide igualdad versus diferencia o no relación versus relación, según lo que estemos trabajando y que, por lo tanto, es una decisión entre dos opciones, podemos cometer dos tipos de errores. Por ejemplo, en el caso de igualdad versus diferencia podemos decir que hay diferencia siendo iguales (Error tipo 1) o podemos decir que hay igualdad siendo diferentes (Error tipo 2). Lo que interesa es que estos dos errores sean pequeños, especialmente el primero. Es habitual, por ejemplo, que el primero se fije en 0.05 i el segundo en 0.2 (lo que supondría una potencia del 80%).

b. De la dispersión de las variables analizadas, usualmente expresada mediante la desviación estándar. El grado de dispersión que es algo que nos viene impuesto por la realidad estudiada influye en el tamaño de muestra necesario para decir cosas en ciencia. A mayor dispersión necesitamos más tamaño muestral para saber cómo es aquella realidad.

c. De la diferencia mínima que queramos detectar o del nivel de relación mínimo que queramos detectar. Esto es importante y complejo de establecer, en muchas ocasiones. Se trata de fijar el mínimo que se entiende como significativo, médicamente. Diferencia por debajo de la cual aunque viéramos una diferencia estadísticamente significativa sería irrelevante clínicamente. Por lo tanto, se pretende encontrar la muestra que necesitamos para que si acabamos viendo aquella diferencia mínima o relación mínima, o más, teniendo la desviación estándar especificada y, con el nivel de error fijado, podamos hablar de que se trata de una diferencia estadísticamente significativa.

Observemos un caso de declaración de muestreo en un artículo:

IMG_6860

IMG_6857

En este tipo de información donde se especifica el tamaño de muestra usado siempre se acaba concretando que ha sido en función de estos dos tipos de error, de la dispersión que se tiene y de la diferencia mínima o el grado de relación mínimo a detectar. Esto es una constante que conviene entender y saber aplicar.

Tenemos afortunadamente extraordinarios calculadores del tamaño muestral. Todos ellos, evidentemente, nos pedirán estos elementos para determinar la muestra que necesitamos.

Para más información consultar los siguientes artículos: La maquinaria de un contraste de hipótesisLa noción de potencia estadística,  Determinación del tamaño de muestra y Un ejemplo de la determinación del tamaño de muestra en Medicina.

Siempre tenemos en una investigación en Medicina si no todos los elementos comentados aquí, sí prácticamente todos. Es muy importante saberlos situar e interpretar. El análisis será mucho más ajustado y preciso si la mirada estadística es la adecuada.

Y, finalmente, ligado, por un lado, a la necesidad de aumentar el tamaño de muestra en Medicina y ligado también a la necesidad de evaluar la coherencia entre diferentes estudios análogos hecho por grupos de investigación distintos se ha desarrollado todo un nuevo repertorio de técnicas: el Metaanálisis.

Situación 60: Práctica (Temas 8 y 9)

Tenemos la siguiente base de datos de mujeres entre 15 y 35 años, 50 de ellas diagnosticas de anorexia nervosa y otras 50, controles, sin el diagnóstico de esa enfermedad. El objetivo es detectar factores de riesgo asociados a la anorexia. A las 100 mujeres se les ha pasado una encuesta anónima para, a partir de ella, poder establecer, mediante criterios que aquí no se comentan, una tendencia al perfeccionismo, si tenía una autovaloración negativa, si su contacto con los padres era bajo, si en sus padres había alguna historia de anorexia o bulimia y, finalmente, si había abuso de consumo de drogas. Las variables y sus codificaciones son las siguientes:

G=Grupo

a: anorexia

c: control (sin anorexia)

P=Perfeccionismo

1=sí

0=no

A=Autovaloración negativa

1=sí

0=no

B=Bajo contacto con los padres

1=sí

0=no

H=Historia de anorexia o bulimia parenteral

1=sí

0=no

D=Abuso de consumo de drogas

1=sí

0=no

S1=Suma de 1 ó más riesgos

1=La suma de las otras variables es 1 ó más

0=La suma de las otras variables es 0

S2=Suma de 2 ó más riesgos

1=La suma de las otras variables es 2 ó más

0=La suma de las otras variables es 0

S3=Suma de 3 ó más riesgos

1=La suma de las otras variables es 3 ó más

0=La suma de las otras variables es 0

La base de datos es la siguiente.

G P A B H D S1 S2 S3
a 1 1 0 1 1 1 1 1
a 0 0 1 0 1 1 1 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 0 1 1 1
a 1 1 1 1 0 1 1 1
a 1 1 0 1 0 1 1 1
a 0 1 0 0 0 1 0 0
a 1 1 1 1 0 1 1 1
a 1 1 0 1 1 1 1 1
a 0 0 0 0 1 1 0 0
a 0 0 0 0 0 0 0 0
a 1 0 0 1 0 1 1 0
a 0 0 1 0 0 1 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 0 0 1 1 1
a 0 0 1 1 1 1 1 1
a 0 0 0 0 1 1 0 0
a 1 1 1 1 1 1 1 1
a 0 0 1 0 0 1 0 0
a 1 0 0 1 0 1 1 0
a 0 0 1 1 0 1 1 0
a 0 0 0 0 0 0 0 0
a 1 0 0 1 0 1 1 0
a 0 0 0 0 1 1 0 0
a 1 1 0 0 0 1 1 0
a 0 0 0 0 0 0 0 0
a 0 0 0 0 0 0 0 0
a 1 1 0 0 0 1 1 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 0 1 1 1
a 1 1 1 1 1 1 1 1
a 0 0 1 0 0 1 0 0
a 1 0 0 1 0 1 1 0
a 0 1 0 0 1 1 1 0
a 1 1 0 1 0 1 1 1
a 0 1 1 0 1 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 1 1 0 1 0 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 0 1 0 1 1 1
a 0 0 0 0 1 1 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 1 1 0 1 0 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 0 0 0 0 0 0 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 1 0 0 1 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 1 0 0 0 1 1 0
c 0 1 0 0 0 1 0 0
c 0 0 1 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 1 0 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 1 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 1 0 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 1 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 1 1 0 0 1 1 1
c 0 1 0 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 0 0 1 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 1 1 0 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 1 1 0 0
c 0 0 0 0 0 0 0 0
c 1 0 1 0 0 1 1 0
c 0 1 0 0 1 1 1 0
c 0 0 0 1 0 1 0 0

1. Comprobar si hay relación significativa entre la variable Grupo (anorexia frente a control) y cada una de las otras variables del estudio.

2. Calcular la V de Crámer para cada una de las relaciones.

3. Calcular la Odds ratio para cada una de las relaciones.

4. Interpretar los resultados.

Situación 59: Práctica (Tema 7)

Tenemos una base de datos de mujeres con el diagnóstico de anorexia nervosa. Las variables que tenemos son: la edad, los meses de amenorrea, la densidad ósea y el nivel de leucocitos en sangre. Codificadas así:

E=Edad (años).

A=Amenorrea (meses).

D=Densidad ósea (g/cm2)

L=Leucocitos (cél/microL)

E A D L
16 5 0.70 4170
17 11 0.65 3630
25 13 0.60 2990
28 14 0.54 2530
23 11 0.57 2832
24 8 0.68 3914
18 9 0.68 3927
19 9 0.71 4234
23 17 0.54 2573
22 18 0.53 2458
28 12 0.57 2897
32 14 0.59 2917
18 11 0.55 2584
24 8 0.67 3711
16 9 0.72 4204
18 15 0.53 2362
27 17 0.51 2283
28 13 0.57 2728
29 15 0.59 3020
33 16 0.55 2620
25 13 0.58 2877
17 19 0.49 2074
27 11 0.58 2806
23 10 0.60 3042
24 8 0.71 4800
26 9 0.72 4223
25 14 0.66 3773
30 14 0.61 3243
25 8 0.69 4200
23 13 0.65 3536
25 16 0.59 3065
22 12 0.70 4500
21 16 0.62 3291
22 17 0.52 2269
24 12 0.55 2600
26 17 0.51 2271
23 16 0.50 2100
21 18 0.47 1830
18 11 0.56 2704
17 8 0.73 4410
19 17 0.60 3079
23 14 0.67 3770
22 18 0.52 2209
25 11 0.60 2910
22 14 0.56 2699
21 17 0.53 2465
23 18 0.47 1861
21 11 0.67 3882
19 10 0.65 3563
18 8 0.72 3950

1. Calcular las correlaciones de Pearson entre las cuatro variables.

2. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los meses de amenorrea de la paciente.

3. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los valores de leucocitos de una paciente.

4. Valorar los resultados.

Solución Situación 57

1. Hacer una Estadística descriptiva de la variable IMC:

Los estadísticos más importantes son los siguientes:

IMG_8112

El Box-Plot es el siguiente:

IMG_8113

2. Comprobar el ajuste de la variable IMC a la distribución normal mediante la Asimetría estandarizada y la Curtosis estandarizada y resumirla apropiadamente:

En los datos de Estadística descriptiva del apartado anterior puede verse el cálculo de la Asimetría estandarizada y la Curtosis estandarizada de esta variable. Como puede verse una (la Asimetría estandarizada) está fuera del intervalo (-2, 2). Con uno que esté fuera de ese intervalo ya podemos considerar que el ajuste a la normalidad no es de la suficiente calidad.

Por lo tanto, a la hora de resumir la variable, la mejor opción sería: Mediana y Rango intercuartílico; o sea: 24 (23, 26).

3. Calcular y valorar las correlaciones entre las tres variables cuantitativas: Edad, IMC y TVdiaria. Calcular esas mismas correlaciones entre las tres variables cuantitativas en hombres y en mujeres por separado:

En el total de individuos las correlaciones de Pearson son las siguientes:

IMG_8114

En hombres:

IMG_8116

En mujeres:

IMG_8117

Como puede observarse entre Edad e IMC siempre hay correlación significativa, positiva y bastante grande en cuanto a magnitud. Entre Edad y TvDiaria hay correlación positiva significativa en el total y cuando se hace por sexos esta correlación sólo es significativa en las mujeres, no en los hombres.

4. Hacer una Estadística descriptiva de las variables Antidepresivos y Trabaja:

IMG_8118

IMG_8119

IMG_8120

IMG_8121

5. Construir un intervalo de confianza del 95% de la media de la IMC en hombres y uno en mujeres:

Veamos primero el de mujeres. La Estadística descriptiva de la variable IMC en mujeres es:

IMG_8125

Por lo tanto, un intervalo de confianza de la media del 95%, en mujeres, sería (24.14-2×0.4, 24.14+2×0.4)=(23.34, 24.94). Porque cogemos la media muestral y le restamos y le sumamos dos veces el error estándar (0.4).

Veamos ahora lo mismo pero en hombres:

IMG_8126

Por lo tanto, un intervalo de confianza de la media del 95%, en hombres, sería (25.72-2×0.41, 25.72+2×0.41)=(24.9, 26.54).

Tema 29: METAANÁLISIS

1. Es muy frecuente en estudios estadísticos encontrarnos con las dos situaciones siguientes:

a. Que no se aprecien diferencias estadísticamente significativas entre los grupos comparados o que no se pueda hablar de una asociación, también estadísticamente significativa, entre dos variables, debido a un tamaño de muestra pequeño.

b. Que se hayan hecho muchos estudios relativamente similares y que sea difícil acabar de perfilar una conclusión global por la falta de sintonía entre los diferentes resultados.

2. Para enfrentarse a estas situaciones suele hablarse de dos soluciones posibles: Los estudios multicéntricos o el metaanálisis. En los estudios multicéntricos el objetivo es unificar criterios de diferentes grupos para realizar un estudio conjunto. En los estudios de metaanálisis el objetivo es aprovecharse de la información de diferentes estudios hechos con la misma intención por grupos diferentes buscando una unificación de toda esa información.

3. En los estudios multicéntricos y en los metaanálisis el objetivo es siempre aumentar la mirada, aumentar el tamaño de muestra. Sin embargo, la calidad no es la misma. El grado de unificación es muy superior en los estudios multicéntricos, sin lugar a dudas.

4. En ocasiones no es posible la organización de un estudio multicéntrico y, al mismo tiempor se dispone de muchos estudios, en cierta forma análogos, hechos por diferentes grupos. En estas situaciones es interesante tratar de sintetizar la información que se tiene en esos diferentes estudios. Por esto ha tenido y tiene mucho éxito este tipo de estudios.

5. En muchas ocasiones un metaanálisis ha sido la antesala de un posterior estudio multicéntrico. Es obtener ciertas conclusiones en la particular ampliación del tamaño de muestra que representa un metaanálisis ha llevado en muchas ocasiones a la realización de estudios multicéntricos que han acabado demostrando o no, mediante un estudio de más calidad metedológica, lo que apuntaba el metaanálisis.

6. Lo primero que hay que hacer en un metaanálisis es reunir una serie de estudios que hayan hecho lo mismo. Que hayan estudiado lo mismo. Evidentemente con una muestra distinta tomado en una zona diferente. Puede que con algunos aspectos metodológicos diferentes, pero lo fundamental es que se haya buscado lo mismo: la relación que hay entre la exposición a un riesgo y una determinada enfermedad, la comparación de un tratamiento determinado respecto a un placebo, etc.

7. Un elemento presente en un metaanálisis es siempre la tabla resumen de los diferentes resultados obtenidos en los diferentes estudios. Veamos un ejemplo de estas tablas resumen en un estudio donde se analiza el riesgo de enfermedad coronaria en fumadores pasivos:

20140309-195325.jpg

20140309-195336.jpg

8. Los gráficos son muy importantes en metaanálisis. Se han diseñado muchos tipos de gráficos. Posiblemente los más usados son los siguientes:

9. El denominado Forest plot, que es el que suele usarse más, resume digamos que sin voluntad de estructuración los diferentes estudios que tenemos. Es un orden incluso alfabético, no hay una ordenación estructurada como la hay en otros tipos de gráficos en metaanálisis. La estructura general es, pues, la siguiente:

IMG_8170

10. El Funnel plot resume la información con ya cierta estructuración. Lo hace según el peso estadístico que tiene cada uno de los estudios. Por el tamaño de muestra o por el error estándar. Por ejemplo, veamos cómo quedaría estructurado según el tamaño de muestra:

IMG_8171

11. Observemos que cada punto hace referencia al valor obtenido en un estudio incluido en el metaanálisis pero ahora están estructurados en función del tamaño muestral del estudio. Es interesante porque, de hecho, el peso del tamaño de muestra por estudio es un elemento muy importante. Suele darse, lógicamente, una estructuración en forma de triángulo isósceles con base en la zona de tamaño muestral reducido y con vértice en la parte de mayor tamaño muestral.

12. El Abbé plot es la creación de dos territorios diferentes: uno donde va mejor un tratamiento y otro donde va mejor el otro. Se trata, entonces, de ver dónde caen mayoritariamente, los diferentes estudios.

13. A la hora de juntar todos los valores buscando por lo tanto la unificación y el aumento del tamaño de muestra es muy importante tener en cuenta la heterogeneidad de los estudios. Este es el gran caballo de batalla del metaanálisis, sin lugar a dudas.

14. Un elemento para evaluar esta heterogeneidad es el llamado Test de heterogeneidad. Es un contraste de hipótesis con la Hipótesis nula: Homogeneidad (igualdad entre los estudios) e Hipótesis alternativa: Heterogeneidad (diferencia significativa entre los estudios). Es un Test de la ji-cuadrado, como veremos después.

15. Otro elemento que evalúa la heterogeneidad entre estudios incluidos en el metaanálisis es el denominado coeficiente de heterogeneidad que se suele simbolizar con una I2. El cálculo de este coeficiente es el siguiente:

IMG_8172

16. El valor, como puede verse, se calcula mediante el valor de la ji-cuadrado y el número de grado de libertad, que será el número de estudios menos 1.

17. Veamos, a continuación, dos ejemplos diferentes donde veremos aplicar tanto el Test de heterogeneidad como el cálculo del coeficiente de heterogeneidad.

18. Vamos a ver el primero paso a paso. Supongamos un metaanálisis en pequeño para entenderlo mejor:

IMG_8173

19. Ahora hacemos el total; o sea, sumamos los tres estudios:

IMG_8173

20.  Ahora tenemos una probabilidad total, con la que construiremos un Test de la ji-cuadrado (Ver el Tema 8: Relación entre variables cualitativas. El test de la ji-cuadrado): o sea, el observado, que es lo que tenemos, y el esperado, que es lo que tendrían los tres estudios si la probabilidad fuera única:

IMG_8173

21. A partir de aquí podemos aplicar el Test de la ji-cuadrado y el coeficiente de heterogeneidad para obtener:

IMG_8175

22. El coeficiente como es negativo se hace 0% que es el valor más bajo posible.

23. El otro ejemplo, ahora con todos los datos de golpe y donde se puede ver una importante heterogeneidad entre los estudios:

IMG_8176

24. El coeficiente de heterogeneidad servirá para rectificar los intervalos de confianza y los contrastes de hipótesis que se realicen con los datos del metaanálisis agrupados. Un coeficiente de heterogeneidad elevado penalizará las decisiones finales, hará que el tamaño de muestra alcanzado sumando estudios no sea tan trascendente.

25. La variabilidad en los estudios de metaanálisis debe verse en dos componentes. Una es la variabilidad intraestudio y otra la variabilidad interestudios, que queda evaluada mediante el coeficientes de heterogeneidad o mediante el Test de heterogeneidad. En los intervalos de confianza de un pronóstico o en un contraste de hipótesis siempre está presente la noción de Error estándar que hemos visto en el Tema 3: Intervalos de confianza:

IMG_6927

26. La magnitud del coeficiente de heterogeneidad modifica el numerador. Lo amplía. Por lo tanto, un mismo metaanálisis, con un mismo tamaño de muestra total proporcionará intervalos de confianza distintos según el grado de heterogeneidad. Cuanta más heterogeneidad más grande se hace el numerador.

27. Supongamos un nuevo ejemplo sencillo y simplificado que nos ayudará a valorar esto que estamos diciendo. Lo vemos en un tema que trata de estudiar la media de colesterol en una población. Cuatro estudios presentan los siguientes valores:

IMG_8194

28. Si ahora calculamos la media de los cuatro estudios es 205, pero hay una cierta heterogeneidad que nos debe penalizar a la hora de construir un intervalo de confianza de la media juntando los cuatro estudios.

29. Calcularemos la varianza dentro de los estudios, marcada con un subíndice D, y la varianza entre los estudios, marcada con el subíndice E. Vemos también a continuación una alternativa forma de cálculo del coeficiente de heterogeneidad a partir de estas dos varianzas. Y calcularemos también la varianza global y la DE global a partir de la suma de estas dos varianzas:

IMG_8196

30. Si ahora incorporamos los valores totales en la tabla anterior y el valor de esta DE global ello nos permite calcular el Error estándar (EE) y ver cómo queda penalizado por la varianza entre estudios o heterogeneidad:

IMG_8194

31. Observemos que al final el EE es 1.13 y no 1, como sería sin esta penalización. Si tuviéramos más heterogeneidad tendríamos más penalización.

32. Finalmente una tabla donde se expresan los resultados finales del metaanálisis mostrado anteriormente del estudio del riesgo de enfermedad coronaria en fumadores pasivo:

20140309-195345.jpg