Archivos Mensuales: noviembre 2014

Artículo 6: Chimpanzee adenovirus vector Ebola vaccine. Preliminary report

Se trata de un artículo que acaba de publicarse (el 26 de noviembre de 2014) en el New England Journal of Medicine. Es un muy interesante estudio, en fase 1, de una vacuna para el Ébola.

El Abstract es el siguiente:

IMG_0285

He elegido este artículo para comentarlo porque es una buena herramienta para repasar la elección de la técnica adecuada al caso en la comparación de dos poblaciones. Y, en general,  es, a mi modo de ver, muy apropiado para ver el uso de técnicas estadísticas en contextos concretos de investigación. Veamos el apartado de Métodos estadísticos del artículo:

IMG_0286

IMG_0287

 

Observemos las técnicas usadas y su contexto. Se trabaja con diferentes variables respuesta: algunas dicotómicas (Respuesta positiva o no) y algunas continuas (Cantidad de anticuerpos). Se comparan en algunos casos muestras independientes (cuando se comparan los dos grupos con dos dosis distintas de vacuna) y en algunos otros casos se comparan muestras relacionadas, muestras apareadas, porque se analiza, en estos casos, el mismo individuo en momentos temporales diferentes para ver la evolución de alguna variable respuesta a lo largo del tiempo.

Se habla del Test exacto de Fisher, cuando se comparan variables dicotómicas y muestras independientes. Se habla también del uso del Test de la t de Student, cuando se comparan variables cuantitativas de muestras independientes. Finalmente se habla de un tercer tipo de análisis de comparación: el Test de Wilcoxon, cuando se trabaja con variables continuas y muestras relacionadas o apareadas.

Para ver las decisiones que hay que tomar para la elección de la técnica adecuada al caso en la comparación de dos poblaciones ver el Tema 14: Comparación de dos poblaciones y para practicar con casos ver los artículos Situaciones de comparación en Ciencias de la salud y Soluciones a las situaciones de comparación de dos poblaciones.

Viendo este Tema 14 se podrá apreciar que la decisión de usar el Test exacto de Fisher es por tratarse de una variable dicotómica, por comparar muestras independientes y por ser el tamaño de muestra menor de 30 por grupo (el tamaño muestral es 10 por grupo).

Podrá apreciarse, también, que se usa el test de la t de Student en las variables continuas y con muestras independientes. Se habrá comprobado el ajuste a la distribución normal y la igualdad de varianzas de ambas muestras. Realmente si se observan los datos (la ventaja de este artículo, a efectos didácticos, es que nos muestran, en los gráficos, los valores muestrales concretos) en las comparaciones de ambos grupos (alta y baja dosis), a un mismo tiempo, la normalidad se intuye perfectamente y también la igualdad de varianzas. Observad la Figura 2 y comparad, en cada uno de los tres gráficos, los dos grupos en la semana 2 y los dos grupos en la semana 4: podréis observar que los valores muestras se ajustan bien a la distribución normal: la mayoría próximos a la media y simétricos respecto a ésta. Y la dispersión de las muestras comparadas, en cada caso, es del mismo orden. Esto es lo que les lleva a aplicar en estas comparaciones el Test de la t de Student de muestras independientes y varianzas iguales.

Finalmente, podrá apreciarse el uso del test de Wilcoxon al comparar variables continuas en muestras relacionadas, en muestras apareadas. En este caso se está comparando las semanas entre sí dentro de un mismo grupo para evaluar la significación de la respuesta a lo largo del tiempo. Viendo los datos de esa evolución temporal es creíble pensar que no haya normalidad en la variable diferencia entre los tiempos comparados. Por eso se han inclinado por usar esta técnica “no paramétrica” en lugar del test de la t de Student de datos apareados.

También se habla de establecer una relación entre variables. Aquí interviene la correlación, en concreto la correlación de Spearman. Ver el Tema 5: Correlación. Se trata de ver si existe una relación directa (positiva) o inversa (negativa) en la respuesta evaluada mediante variables diferentes. En concreto se pretende cuantificar el grado de relación que hay en la respuesta mediante anticuerpos y mediante células T.

Una cosa que puede sorprender es que se hable de Media geométrica muestral, en lugar de Media muestral. La media geométrica es la raíz cuadrada del producto de los valores muestrales. Su uso es frecuente cuando los datos presentan valores que al aumentar el valor de la variable aumenta exponencialmente la magnitud de dicho valor; o sea, en variables que es recomendable transformarlas a escala logarítmica, como sucede en este artículo y puede apreciarse en la figura 2. Recordemos una relación importante: El Logaritmo de la media geométrica de una muestra es igual a la media de los valores muestrales transformados a logaritmos. Al calcular la media geométrica en lugar a la media muestra lo que se hace es calcular la media muestral de los valores transformados logarítmicamente. Es una forma de darle menos peso a los valores que se disparan exponencialmente.

Como puede verse se trata de un artículo muy rico para ver diferentes situaciones y ver, también, diferentes técnicas a aplicar.

Previamente al análisis de comparación de los dos grupos con su evolución temporal, nos describen los dos grupos que se comparan:

IMG_0288

Veamos los cuadros de resultados:

IMG_0290

Y también:

IMG_0291

Los valores de media geométrica en la variable cuantitativa y los valores de porcentajes de respuesta en la variable dicotómica, son los siguientes:

IMG_0289

Solución Situación 71

1a: Un índice de Gini de 0.9 indica más dispersión de valores que en una con un índice de 0.3. Esto es precisamente lo que mide el índice de Gini: el grado de reparto desigual del total ganado.

2b: El tercer cuartil es 12 (promedio de 8 y 16) y el primero es 3 (promedio de 0 y 6). Por lo tanto, el rango intercuartílico es 9.

3c: Porque un intervalo de confianza de valores individuales del 95% se construiría sumando y restando dos veces la desviación estándar a la media y esto sería (80, 120).

4d: Cuando una correlación no es significativa y se aumenta el tamaño de muestra y acaba siendo significativa el signo final no tiene por qué ser el mismo del que teníamos cuando no era significativa tal correlación. Porque por eso no era significativa, porque todo estaba abierto todavía.

5a: El p-valor de una correlación nos sirve para saber si es o no significativa. El que el p-valor sea mucho menor de 0.05 no la transforma en más significativa. La significación es un todo o nada. Como la primera es la de mayor magnitud entre las correlaciones significativas se trata de la mayor.

6d: El coeficiente de determinación es grande. Un 81% es realmente grande, pero habrá cierto error en las prediciones. Únicamente no habría error si fuera del 100%.

7d: Observemos las siguientes muestras: (0, 0, 0, 2), (2, 2, 2, 4), (10, 10, 10, 12), (1000, 1000, 1000, 1002). Las cuatro muestras tienen una desviación estándar de 1, pero los índices de Gini pasan de ser muy grandes en la primera muestra a ser valores muy pequeños, próximos a 0, en la última. Observemos que en la primera todo lo gana una persona. En las demás, progresivamente cada vez queda más repartido el total ganado.

8b: La muestra (1, 3, 3, 12) tiene un mínimo de 1, un máximo de 12, un primer cuartil de 2, una mediana de 3 y un tercer cuartil de 7.5, como queda dibujado en el Box-Plot.

9b: Hay infinitas muestras posibles con este Box-Plot. Por ejemplo: (1, 1, 3, 3, 3, 3, 12, 12). Y, así sucesivamente, vamos añadiendo cada vez un 1, dos 3 y un 12, eso lo podemos hacer infinitas veces y siempre tendrán el mismo Box-Plot.

10c: Si no hay correlación significativa ya ni entramos a la opción de Regresión. ¿Para qué vamos a relacionar matemáticamente variables que no están relacionadas?

Situación 71: Examen (Temas 1-7)

1. Si en una muestra tenemos un índice de Gini es 0.9, podemos decir:

a. Que existe mayor dispersión de valores en la muestra que en una que tuviéramos un índice de 0.3.

b. No podemos tener un valor de 0.9 porque el índice de Gini va de 0 a 0.5.

c. Que existe la misma diversidad que en una muestra con índice 0.1 pero en un orden contrario.

d. Que existe muy poca diversidad de valores dentro de la muestra.

2. En la muestra (8, 6, 0, 16):

a. La mediana es 6.

b. El rango intercuartílico es 9.

c. El rango es 6.

d. El primer cuartil es 6.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 10 no es cierto:

a. Un intervalo de confianza de la media del 95% sería (98, 102).

b. Un intervalo de confianza de la media del 99.5% sería (97, 103).

c. Un intervalo de confianza de valores individuales del 95% sería (90, 100).

d. Un intervalo de confianza de valores individuales del 99.5% sería (70, 130).

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=0.78 (p>0.05) podemos decir:

a. El tamaño de muestra es muy grande.

b. Si aumentamos el tamaño de muestra y la correlación finalmente es significativa la correlación seguirá siendo positiva.

c. Si aumentamos el tamaño de muestra y la correlación finalmente es significativa la correlación será negativa.

d. Si aumentamos el tamaño de muestra y la correlación finalmente es significativa la correlación puede ser de cualquier signo.

5. ¿Qué correlación es mayor?

a. r=-0.56 (p=0.03)

b. r=0.50 (p=0.001)

c. r=0.45 (p=0.34)

d. r=0.45 (p=0.0001)

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), no es cierto:

a. El coeficiente de determinación es 81%.

b. El contraste de hipótesis de la pendiente de la recta de regresión será significativo; o sea, deberemos rechazar la Hipótesis nula.

c. Del contraste de hipótesis sobre la Ordenada en el origen no tenemos suficiente información para saber si será o no será significativo.

d. El coeficiente de determinación es lo suficientemente grande como para hacer predicciones sin error.

7. En una muestra donde sabemos que la desviación estándar es 1:

a. El índice de Gini será 0.

b. El índice de Gini ya queda determinado por este valor de desviación estándar.

c. El índice de Gini será muy próximo a 0 porque hay muy poca desviación estándar.

d. El índice de Gini puede ser grande, intermedio o pequeño, dependiendo de la suma total de los valores de la variable en la muestra.

8. El Box-Plot siguiente:

IMG_0265

corresponde a la muestra:

a. (1, 2, 3, 12)

b. (1, 3, 3, 12)

c. (1, 2, 7.5, 12)

d. (1, 3, 7.5, 12)

9. El Box-Plot del apartado anterior:

a. Únicamente puede tener esta muestra que queda dibujada por ese Box-Plot.

b. Hay infinitas muestras que pueden ser dibujadas por ese Box-Plot.

c. Sólo hay 4 muestras que puedan ser dibujadas por ese Box-Plot.

d. Hay 1000 muestras que pueden ser dibujadas por ese Box-Plot.

10. Si entre dos variables no hay correlación significativa:

a. Podemos hacer una Regresión si el coeficiente de determinación es mayor del 50%.

b. Podemos hacer una Regresión si la correlación es positiva.

c. No podemos hacer una Regresión porque el paso previo a una Regresión es una correlación signficativa.

d. Podemos hacer una Regresión si la correlación es mayor que 0.9.

Artículo 4: Principal component analysis of socioeconomic factors and their association with malaria in children from the Ashanti Region, Ghana

Este interesante artículo fue publicado en la revista Malaria Journal en el 2010.

El Abstract es el siguiente:

IMG_0247

La región donde se realiza el estudio es la siguiente:

IMG_0248

He elegido el artículo para comentar por el uso que hace de un análisis estadístico muy interesante: el Análisis de componentes principales. Es una técnica multivariante que combina las variables originales creando unas macrovariables (Componentes) que son diferentes combinaciones, con distintos pesos, de esas variables originales, y que explican (las primeras de esas componentes: por eso se llaman principales) la mayor parte de la variabilidad que hay entre los datos que tenemos.

Observemos, a través de la redacción de los métodos, cuáles han sido las variables utilizadas en el análisis, en este estudio. Como podemos ver variables socioeconómicas, como nos indica el título del artículo:

IMG_0249

El Análisis de componentes principales que realizan a una muestra de tamaño 1496, da los siguientes resultados básicos:

IMG_0250

La primera componente no explica mucho. Pero es la que explica más varianza. Explica el 20% de la variabilidad. Observemos que se ha trabajado con 11 variables originales y se obtiene 11 componentes. Lo que sucede es que son 11 componentes (11 combinaciones distintas de las variables originales) con una capacidad muy desigual de explicar la variabilidad intrínseca en los datos, como puede verse en la columna donde está la proporción de la varianza explicada por cada componente (las denomina “factores”).

Ellos han trabajado con esta primera componente, que es la que explica más varianza y que, además, tiene gran interés para lo que persigue el estudio. Suma todas las variables originales. Con pesos un poco diferentes, es cierto, pero siempre con el coeficiente positivo. Lo que nos separa las personas con buen o con mas nivel socioeconómico evaluado por esas 11 variables originales. Quien tiene más comunidades de las enunciadas en las diferentes variables es el que puntúa más en la componente. Por lo tanto, esta componente evalúa el nivel socioeconómico pesando mediante esos coeficientes las 11 variables originales.

La utilización de las componentes a partir de un estudio así puede tener muchas direcciones. Ellos exponen el uso que le han dado a la principal de esas componentes, a la primera:

IMG_0251

Es interesante ver ese uso. Están haciendo una Regresión logística relacionando esa primera componente principal con el tener o no malaria y obtienen esas Odds ratio.

Artículo 3: Survival and long-term outcomes following bioprosthetic vs mechanical aortic valve replacement in patients aged 50 to 69 years

Este es un artículo del JAMA de 2014 donde se comparan dos tipos de próstesis de válvulas aórticas: biológicas y mecánicas, en pacientes de una edad intermedia donde hay controversia acerca de cuál de las dos es la mejor opción.

El estudio es interesante, desde el punto de vista estadístico, como un ejemplo de Propensity Score Analysis.

El Abstract del estudio es el siguiente:

IMG_0228

En la siguiente tabla se muestra una descriptiva y un análisis comparativo de los dos grupos observacionales que se quiere comparar. Tenemos también el valor de diferencia estandarizada en tanto por ciento. Esto es interesante para hacer una visión unitaria de las diferencias entres ambos grupos. Pensemos que cada variable tiene escalas diferentes. Estandarizando igualamos las escalas y por lo tanto podemos ver en qué variables relativamente encontramos más o menos diferencias entre los dos grupos.

IMG_0229

 Como puede observarse entre los dos grupos hay importantes diferencias. Diferencias que podrían generar confusión a la hora de interpretar las variables resultado. Por eso se aplica un Propensity Score Analysis. Para ver el mecanismo de esta interesante técnica puede leerse el Tema 24: Análisis de propensiones (Propensity Score Analysis).

Observemos la significación de la diferencia en primer lugar, y, después, el peso de esta diferencia, observando la diferencia estandarizada. En la edad y en la distribución por años de cirugía es donde se produce más diferencias.

Después de hacer el Propensity la tabla obtenida ahora es, con la estadística descriptiva, el p-valor de la comparación y la diferencia estandarizada es bien diferente:

IMG_0231

Observemos ahora la enorme homogeneidad que hay entre los dos grupos a comparar. La muestra se ha reducido. Es verdad. Esto es habitual en el Propensity Score Analysis. Suele fijarse un mínimo de semejanza para incluirse y esto provoca que algunos casos no tengan un control lo suficientemente próximo.

Un aspecto técnico a destacar en esta comparación entre los dos grupos es que estos autores han llevado al extremos máximo posible la idea de matching, la idea de apareamiento, del Propensity Score Analysis, porque las dos muestras obtenidas de tamaño 1001 no las trabajan como muestras independientes sino como muestras apareadas, como si en lugar de tener 2002 individuos tuviéramos 1001 a los que se les ha puesto dos prótesis al mismo tiempo. Esto es discutible. En principio este análisis sirve para homogeneizar grupos pero no para hacer este salto metodológico tan importante.

Una vez se tiene esos dos grupos ahora ya es cuestión de compararlos. Con toda la tecnología habitual en este tipo de estudios en Medicina: Curvas de supervivencia. Número de incidencias. Etc. Como puede verse a continuación:

IMG_0226IMG_0227

 

Como puede verse en estos gráficos y en las conclusiones del estudio en 15 años de seguimiento de estos pacientes no hay diferencias en la mortalidad ni el la incidencia de ictus y la única diferencia es que las prótesis biológicas tienen una mayor incidencia de reoperaciones y las mecánicas una mayor incidencia de hemorragias mayores.

Artículo 2: Duodenal infusion of donor feces for recurrent Clostridium difficile

Este es un artículo importante publicado en el New England Journal of Medicine.

El Abstract es el siguiente:

IMG_0242

Interesa destacarlo por la técnica adecuada al caso que utilizan para analizar los datos.

Como puede verse el objetivo es ensayar un nuevo y revolucionario método para enfrentarse a la infección digestiva de Clostridium difficile: mediante infusiones duodenales de donantes con infección cronificada por esa especie bacteriana.

Una descriptiva de los grupos a comparar es la siguiente:

IMG_0243

Los tamaños de muestra empleados son bajos, ciertamente. Sin embargo, los resultados son muy espectaculares, como puede verse a continuación:

IMG_0244

 

La técnica adecuada al caso, en este estudio, como puede verse en el cuadro del Tema 14, es el Test exacto de Fisher. Son dos poblaciones, porque las comparaciones se hacen dos a dos, como puede observarse, la variable estudiada es dicotómica (Hay o no curación sin recaída) y el tamaño de muestra por grupo es menor de 30 en todos los casos. En el cuadro importante comentado en el Tema 14 podrá verse que siguiendo estos pasos llegamos al Test exacto de Fisher. Es la técnica adecuada al caso, la que optimiza la decisión de si rechazar la Hipótesis nula de Igualdad de proporciones o, por el contrario, rechazarla y pasar a la Hipótesis alternativa que afirma que hay diferencia entre las proporciones.

El gráfico anterior nos muestra cuáles son las diferencias significativas, nos marca los p-valores que son menores que 0.05 y a través de los cuales, por lo tanto, podemos decir que las diferencias de proporciones muestrales obtenidas son diferencias significativas; o sea, son diferencias que pueden generalizarse a nivel poblacional. En este caso, esta generalización poblacional es de futuro. Se está diciendo, en realidad, que si se aplicara entonces los pacientes tratados con esas infusiones conseguirían índices de curación sin recaída superiores a los obtenidos con el tratamiento antibiótico convencional, con una probabilidad de equivocarse menor del 5%.

Artículo 5: Outcomes of patients with human immunodeficiency virus infection undergoing cardiovascular surgery in the United States

Este es un artículo muy interesante para ver una aplicación del Propensity Score Analysis en Medicina.

En este artículo se comparan los resultados obtenidos por cirugías cardiovasculares en pacientes HIV respecto a pacientes no HIV.

Comparaciones de este tipo constituyen retos muy habituales en Medicina. Se trata de estudios llamados observacionales, estudios donde se comparan dos grupos que han sido configurados de forma natural y espontánea, previamente al análisis estadístico que se efectúa. No se trata, por lo tanto, de estudios experimentales donde, de una forma organizada, se van repartiendo tratamientos diferentes a un conjunto de pacientes, dentro de unos parámetros previamente prefijados.

Los estudios observacionales son mucho más sencillos de hacer porque representa aprovecharse del esfuerzo clínico previo de mucha gente. Los resultados los tienes ya, sólo hace falta ponerte a analizarlos. Sin embargo, son más débiles en cuanto a nivel de evidencia de las conclusiones que se obtienen de ellos. Son muchos los posibles factores que pueden estar enmascarando, confundiendo e introduciendo sesgos en los resultados obtenidos mediante este tipo de estudios.

Los llamados estudios de Casos y Controles son un tipo muy frecuente de estos estudios observacionales. De hecho, el estudio presentado en este artículo podría ser llamado perfectamente así, aunque no es un arquetipo de lo que sería un estudio de Casos y Controles en Medicina, evidentemente. En los estudios de Casos y Controles se estudia la asociación de esos dos resultados con diferentes factores, con diferentes exposiciones a un riesgo o a un factor de protección. En este estudio, de hecho, los Casos y los Controles son las variables resultado: mortalidad y diferentes complicaciones. Y, fundamentalmente, el ser HIV positivo o negativo es el factor de exposición estudiado. Se quiere ver si ser HIV positivo es un factor de riesgo en los pacientes que han sido sometidos a una intervención quirúrgica cardiovascular.

Además, en este estudio, como se verá a continuación, se intenta evitar todos estos problemas presentes habitualmente en los estudios observacionales mediante la aplicación del Propensity Score Analysis. Esta técnica trata de evitar confusiones externas homogeneizando lo más posible los dos grupos a comparar.

El Abstract del artículo es el siguiente:

IMG_0202

Suele ser habitual en este tipo de estudios que haya una elevada desproporción de Controles respecto a los Casos que se tienen registrados en la muestra. Es justo lo que sucede en la muestra con la que se trabaja inicialmente en este estudio, como puede apreciarse perfectamente en las tablas siguientes.

Veamos, en primer lugar, la comparación de los dos grupos del estudio en una serie de variables demográficas:

IMG_0203

Como puede verse hay enormes diferencias entre ambos grupos en cuanto a esas variables demográficas. Todas las variables excepto la Edad se comparan mediante un Test de la ji-cuadrado. La variable edad se compara con un Test de la t de Student de muestras independientes y varianzas iguales. Son las técnicas adecuadas al caso según puede verse a partir del cuadro comentado con detalle en el Tema 14: Comparación de dos poblaciones.

Sin embargo, observemos un error que hay en la variable Edad. Nos dicen que se da la media y la Desviación estándar (SD). Es como se suele presentar la descriptiva de una variable continua que se ajuste suficientemente bien a la distribución normal (Ver el artículo La Estadística descriptiva en Medicina).  Evidentemente no puede ser. Es imposible que se trate de la Desviación estándar. Las edades serían muy similares, demasiado similares, dentro de cada grupo. Pensemos que si hay ajuste a la normal sumar y restar dos veces la desviación estándar nos cubriría el 95% de los valores. En el caso de los No HIV deberían tener, prácticamente todos, los 5.621.817 de la muestra, 65 años. Podemos pensar, entonces, que se trata del Error estándar. Suele ser habitual confundir Desviación estándar con Error estándar. Pero, tampoco. Sabiendo el Error estándar y el tamaño de muestra podemos calcular la Desviación estándar, a partir de la relación que conocemos entre esos dos cálculos muestrales (Ver el Tema dedicado a los Intervalos de confianza):

IMG_0232

El Error estándar (EE) es igual a la Desviación estándar (DE) dividido por la raíz cuadrada del tamaño de muestra n. El Error estándar es la Desviación estándar de una predicción. La Desviación estándar es una medida de dispersión de las variables y el Error estándar es una medida de dispersión de predicciones.

En todo caso, lo que es también claro es que estas desviaciones estándar de las variable Edad en el grupo HIV y en el grupo No HIV tampoco pueden ser. Serían excesivas. Bueno, pues, se les ha colado un error aquí. A nosotros nos es útil, en este contexto, para aprender.

Bueno, a efectos del estudio, lo que parece evidente, y es lógico que sea así, es que hay una enorme diferencia en cuanto a edades de los dos grupos que estamos comparando.

En la tabla siguiente se analizan más diferencias entre ambos grupos. Ahora son variables que evalúan las comorbilidades que presentan ambos grupos de pacientes:

IMG_0204

Diferencias muy importantes, pues, en cuanto a las comorbilidades. Se trata, pues, como es lógico, de perfiles de pacientes muy diferentes, en cuanto a la clínica, los que estamos comparando en este estudio.

Más diferencias, aún, nos muestran los autores de este artículo. Ahora en cuanto al tipo de cirugías cardiovasculares practicadas en ambos grupos:

IMG_0205

Por lo tanto, comparar el éxito o fracaso de la cirugía cardiovascular, en ambos grupos, puede quedar perfectamente confundido por algunas de esas variables que presentan estas enormes diferencias entre ambos grupos. Este es un problema evidente en este tipo de estudios.

No podríamos ahora dedicarnos a evaluar variables resultado, variables que evalúen los resultados de las cirugías cardiovasculares entre estos dos grupos porque son dos grupos, tal como los tenemos ahora, y como lo hemos podido apreciar perfectamente en las tablas anteriores, muy diferentes y difícilmente comparables. Las diferencias que viéramos podrían ser atribuibles no al elemento que queremos comparar (ser o no HIV) sino a otros elementos que harían sesgar nuestras conclusiones.

Observemos una comparación de unas variables resultado en estos dos grupos tal cual, sin intervenir tratando de homogeneizarlos:

IMG_0208-2

Estas diferencias pueden ser, repito, explicadas no únicamente por el hecho de ser o no HIV los pacientes, sino por la gran diferencia que hay en otras variables que actuarían confundiéndose con las variables resultado y, por lo tanto, confundiéndonos, haciéndonos pensar que las diferencias son por ser pacientes con y sin HIV y, en realidad, ser atribuibles a otras causas. Este es el significado que habitualmente damos a las llamadas variables confusoras en un estudio.

Pues bien, necesitamos intervenir para evitar estas confusiones. El Propensity Score Analysis es una técnica que intenta evitar este problema. Trata de igualar los grupos a comparar. Y lo hace generando lo que se llama un Propensity Score a cada paciente del estudio. Tanto a los casos como a los controles. Este Score se calcula mediante una Regresión logística múltiple. Una Regresión logística donde la variable dependiente dicotómica es la variable ser Caso o ser Control. Por lo tanto, como en toda Regresión logística se obtiene una probabilidad de ser Caso o de ser Control en función de unos valores de las variables independientes utilizadas. La técnica lo que hace entonces es asociar puntos por Score próximo (Lo que suele denominarse un Matching, un apareamiento). Puede fijarse una ventana, un umbral a no superar. Los Casos que no tengan un Control lo suficientemente cercano serán rechazados para el estudio. Paciente con un Propensity Score próximo será porque serán próximos los valores de las variables que habremos utilizado como variables independientes. Esta es la forma automatizada de buscar pacientes que aunque son de los dos grupos presentan perfiles muy similares de las variables elegidas para la homogeneización.

El gráfico que aportan los autores de este estudio y que a continuación se muestra es genial. Observemos una medida, variable por variable contemplada en el Propensity Score Analysis, de una diferencia estandarizada, entre ambos grupos, antes y después del Propensity.

¿Qué es y por qué se usa una diferencia estandarizada? Se hace para evitar deformaciones posibles debidas a la escala. No es lo mismo trabajar, por ejemplo, con hematíes que con creatinina. De forma absoluta no son comparables las diferencias de medias de ambas variables en ambos grupos. Lo mismo sucede al comparar porcentajes. Estandarizar una variable en Estadística significa transformarla para que tenga media 0 y desviación estándar 1. Así todas las variables estandarizadas son comparables. En nuestro caso, si la diferencia de medias o de porcentajes entre los dos grupos lo dividimos por la desviación estándar que tenemos también lo estamos estandarizando. Que es lo que, en realidad, se hace aquí. Así todas las variables son más comparables en cuanto a la diferencia que hay entre los dos grupos:

IMG_0209-2

Veamos un ejemplo de esto que acabamos de ver. Tomemos las dos primeras variables de la Tabla 2: La hipertensión y el fallo cardíaco: Si restamos los porcentajes vemos que en la hipertensión tenemos una diferencia de un 15% entre ambos grupos (Un 42% en HIV y un 57% en No HIV). En fallo cardíaco la diferencia es sólo de un 5.1% (Un 6.5% en HIV y un 1.4% en No HIV). Es obvio que un 15% es mucho mayor, en valor absoluto, a 5.1%, pero si lo relativizamos respecto a la dispersión que tenemos al movernos en torno a un porcentaje de 42 al 57% o respecto a la dispersión que tenemos en torno al 6.5% y el 1.4%, la cosa cambia. Hay mucha más dispersión en una variable que está próxima al 50% que en una que está próxima al 4%. Hay más saltos de un valor a otro en la primera y, por el contrario, más monotonía en la segunda. Esto debe ponderarse. Miremos cómo quedaría:

IMG_0235

En valor absoluto tenemos una diferencia del 15% en hipertensión y un 5.1% en fallo cardíaco. Sin embargo, al estandarizar la diferencia, estamos hablando de un 30% y un 26%, valores mucho más igualados.

En el gráfico anterior podemos ver cómo han cambiado las diferencias estandarizadas entre ambos grupos al realizar el Propensity Score Analysis. Nunca había visto hasta ahora un gráfico que lo ilustrara tan bien. Antes del Propensity hay grandes diferencias, a veces a favor de un grupo, a veces en contra. Después del Propensity se ha conseguido homogeneizar los grupos. Se están comparando grupos más homogéneos, se está eliminando confusión, sesgos.

Una vez se han encontrado los dos grupos ahora se trata, pues, de compararlos.

Observemos, no obstante, antes, que los dos grupos son de 1633. No están todos los HIV. Seguramente porque ha habido muchos casos que no han tenido un buen control apareado lo suficientemente próximo.

En las tablas siguientes se comparan esos dos grupos, ahora ya homogeneizados. Se ha seleccionado, pues, entre los No HIV un grupo homogéneo al grupo HIV. Y esto nos permite ver que en cuanto a las variables resultado estudiadas estos dos grupos homogenizados ya no presentan diferencias significativas, excepto en cuanto a la necesidad de transfusiones, donde hay un leve aumento de riesgo en los pacientes HIV, como se comenta en las conclusiones del Abstract.

IMG_0210-2

En la siguiente tabla se calculan las Odds ratio ajustadas (Ajustadas por la homogeneización que supone el Propensity) para unas variables resultado donde se mide la cantidad de asociación, si es que la hay significativa, con el ser o no HIV:

IMG_0212

En la tabla siguiente también aportada por los autores de este artículo se aprovecha la información de todos los casos que se tiene de pacientes con HIV operados para analizar factores asociados con la mortalidad:

IMG_0211-2

Finalmente el estudio nos aporta un gráfico de la evolución a lo largo del tiempo de una serie de variables de interés (Mortalidad, Complicaciones y Endocarditis) detectando si hay una pendiente estadísticamente significativa. Como puede verse, y el p-valor así lo certifica, hay una pendiente significativa y negativa en la Mortalidad, significativa y positiva en las Complicaciones y no hay pendiente significativa en la incidencia de Endocarditis.

IMG_0240