Archivo de la categoría: TEMAS

Tema 30: Ampliación de ANOVA: ANOVA de medidas repetidas, ANCOVA, MANOVA y MANCOVA

1. En el Tema dedicado a la introducción al ANOVA (el Tema 15) vimos que hay una serie de conceptos que caracterizan el lenguaje de esta técnica de técnicas que es el ANOVA. Es tan técnica de técnicas el mundo ANOVA que las que vamos a presentar aquí (ANOVA de medidas repetidas, ANCOVA, MANOVA y MANCOVA) se pueden considerar, perfectamente, de hecho, parte de ese complejo y amplísimo mundo que es el ANOVA. Por eso, uso en este Tema la noción de ampliación de ANOVA, porque son variantes de esa técnica madre, porque podríamos decir que son técnicas derivadas del ANOVA.

2. Al hablar de conceptos que caracterizan el lenguaje ANOVA me estoy refiriendo a los conceptos de factor, nivel, factor fijo/factor aleatorio, factor cruzado/factor anidado, interacción o comparaciones múltiples. Estos conceptos también forman parte del ANOVA de medidas repetidas, del ANCOVA, del MANOVA o del MANCOVA, lo que sucede es que estas técnicas precisan de unas variantes conceptuales que vamos a ver a continuación y que no vimos en el tema introductoria del ANOVA.

3. Una ampliación de este lenguaje nos lleva a tener que introducir los siguientes conceptos siguientes conceptos no vistos en la introducción al mundo ANOVA:

a. Medidas repetidas.

b. Covariables.

c. Vector de variables respuesta.

4. Cada uno de estas tres conceptos nos llevan a una técnica distinta y que supone un paso hacia una mayor complejidad. Pero complejidad en muchas ocasiones necesaria porque la realidad estudiada no obliga a ello.

5. Las medidas repetidas nos llevan al ANOVA de medidas repetidas.

6. Las covariables nos llevan al ANCOVA (donde se añade la C de covariable).

7. El vector de variables respuesta nos lleva al MANOVA (de ANOVA multivariante, por eso la M).

8. Además, si a esta última técnica le añadimos la noción de covariable, llegamos entonces al MANCOVA (añadiendo la C de covariable).

9. Importante tener en cuenta (lo repito) que en estas variantes de ANOVA o técnicas derivadas del ANOVA, se usa todo lo que hemos visto en la introducción: factor, nivel, factor fijo/factor aleatorio, factor cruzado/factor anidado, interacción, comparaciones múltiples.

10. Veamos una a una las peculiaridades de esas técnicas que en realidad son derivadas del ANOVA porque, de hecho, amplian lo realizado allí a situaciones progresivamente más complejas.

11. En primer lugar veamos el ANOVA de medidas repetidas. En el punto 63 del Tema 15 introducía unos datos que podían analizarse con un modelo denominado de Bloques aleatorizados. En realidad, en ese ejemplo está el germen de lo que es el ANOVA de medidas repetidas. Recordémoslo.

12. El aquel punto del tema 15 hablaba de unos pacientes que son sometidos a cuatro condiciones que se quieren comparar. Todos los pacientes pasan por todas las condiciones. Lo que se quiere es estudiar si hay diferencias entre esas cuatro condiciones. No entre los pacientes. Los datos son los siguientes:

IMG_4866

13. El factor condición, con cuatro niveles, en realidad, son medidas repetidas realizadas a cinco pacientes. Cada paciente es sometido a las cuatro condiciones a comparar. Si este estudio se hubiera hecho con 20 personas distintas, y a 5 de ellas se los sometiera a la primera condición, a otros 5 a la segunda condición, etc., estaríamos hablando de un ANOVA de un factor a efectos fijos, pero como no es así lo debemos enfocar de otra forma.

14. En el Tema 15 vimos que esta situación planteada puede analizarse como Bloques aleatorizados pero esta opción queda limitada. No da más de sí. No se puede ampliar introduciendo más factores. Sin embargo, enfocarlo desde el mundo ANOVA de medidas repetidas nos abre un mundo de muchas posibilidades porque nos permite introducir mucha más complejidad, como veremos a continuación.

15. Supongamos que queramos no sólo comparar un grupo de pacientes, como es lo que hemos vistos antes, sino diferentes grupos de pacientes tratados de forma distinta, o recogidos en condiciones distintas.

16. Veamos los siguientes datos:

IMG_0748

17. Si se observa bien los grupos del nivel 1 del Factor añadido en la primera columna son los datos del ejemplo anterior. Sin embargo, ahora se ha añadido un segundo nivel que quiere también compararse con el primero. O sea, no sólo queremos ver si hay diferencias entre las distintas condiciones (que son medidas repetidas, medidas hechas a los mismos pacientes) sino también entre los distintos tratamientos (1 y 2, del Factor) o distintos tipos de pacientes que queremos también comparar para detectar diferencias entre ellos.

18. En estas situtaciones suele distinguirse entre INTERSUJETOS e INTRASUJETOS. Observemos que cuando comparamos las cuatro condiciones estamos analizando un factor INTRASUJETOS, estamos analizando cambios que ocurren dentro de un sujeto, estudiamos el perfil de los valores que tiene cada sujeto. Sin embargo, cuando analizamos los dos niveles del Factor de la primera columna estamos analizando un factor INTERSUJETOS, estamos comparando si hay diferencias entre los pacientes del grupo 1 y 2 en cuanto al conjunto de perfiles que tienen de las diferentes condiciones repetidas analizadas.

19. Si hacemos una mirada intrasujetos podemos ver que hay valores grandes, medianos y pequeños en cada sujeto pero hay una regularidad muy clara: En la Condición 3 (C3) cada individuo obtiene los valores más altos y la Condición 4 (C4) tenemos los valores más bajos. Hay una regularidad clara a ese nivel. Esto la técnica estadística lo captará como algo significativo porque es muy regular.

20. Esto que acabo de decir se ve tanto en los datos del punto 12 anterior donde sólo había un grupo de sujetos, como en los dos casos del punto 16 donde ahora hay dos grupos de sujetos a comparar. El intrasujetos es, por lo tanto, significativo en los tres casos. Si no se viera esa regulariadad la estadística nos diría que no hay diferencias significativas en el factor intrasujetos. Es lo que sucedería en los datos que se muestran a continuación:

IMG_0750

21. Observemos que son los mismos números de la tabla del punto 12 pero con otra disposición. Ahora no hay la regularidad que se veía allí. No hay significación en el factor intrasujetos. No hay diferencias entre las cuatro condiciones.

22. En los datos del punto 12 ó en estos últimos vistos, no hay nada más que hacer. Únicamente es posible analizar la influencia de ese factor intrasujetos. Pero en los datos del punto 16 sí es posible hacer más, puesto que tenemos, además, un factor intersujetos.

23. Si se observan los datos del punto 16 en los primeros parece que hay un ligero aumento del nivel 2 del factor columna, del factor intersujetos, pero que dada la enorme variación que tenemos la estadística no lo captará como significativo. Sin embargo, en los segundos datos el nivel 2 presenta valores mucho más elevados. Esa diferencias sí las captará, la técnica estadística, como significativa.

24. Este es, pues, el nivel introducido en el ANOVA de medidas repetidas: la posibilidad de hacer un ANOVA con uno o más factores, cruzados, anidados, fijos o aleatorios, pero con un factor cuyos niveles se evalúan a todos los individuos del estudio: es la variable que introduce las medidas repetidas y es la que tiene la particularidad de ser intrasujetos, porque se mide a todos sujetos. En el ANOVA no existía este tipo de situación, todo era, digamos, intersujetos. Cada sujeto se media la variable una única vez.

25. Los diferentes softwares estadísticos que tienen incorporada la técnica ANOVA de medidas repetidas pide cuál es el factor intrasujetos y cuál o cuáles los factores intersujetos. Si sólo hay factor intrasujetos (el caso del punto 12) no se introducen factores intersujetos y, por lo tanto, únicamente nos aportará la significación o no de ese factor intrasujetos. Si hay uno o más factores intersujetos se deberán especificar y tendremos también significación de esos factores.

26. Veamos ahora el ANCOVA. Ahora tenemos un ANOVA con uno, dos, etc, factores. Como siempre tenemos una variable respuesta a estudiar pero, la peculiaridad es que, ahora, además, tenemos medida otra variable cuantitativa a cada sujeto del estudio que puede ser responsable de la variación vista en la variable respuesta. O sea, además de la influencia de los factores estudiados tenemos una variable cuantitativa que puede estar explicando también las variaciones que vemos. A esta variable la denominamos Covariable.

27. Veamos un ejemplo: Supongamos los siguientes datos:

IMG_0751

28. Tenemos un caso de ANOVA de un factor con tres niveles y una variable respuesta. El ANOVA nos va a permitir detectar si hay diferencias entre esos tres niveles. Si hacemos un ANOVA tenemos los siguientes resultados:

IMG_0752

29. Como puede verse el p-valor es superior a 0.05. Es verdad que la media muestral del grupo 3 es superior a la del grupo 2 y ésta superior a la del grupo 1. Pero, hay mucha dispersión. Además, el tamaño muestral es pequeño, claro. Pero la dispersión es enorme.

30. Supongamos que tenemos una variable que medida individuo a individuo, al mismo tiempo que medimos la variable respuesta del estudio, vemos que presenta correlación con la variable respuesta que es la variable que queremos realmente analizar. Esa variable puede ser que explique la dispersión de resultados. Entonces, si la introducimos como covariable, esta variable va a explicar dispersión y va a poder comparar las diferencias entre los tres grupos descontando el efecto que cada individuo sufre como consecuencia de la acción de esa variable.

31. Veamos los resultados que obtenemos si introducimos esta covariable:

IMG_0753

32. Ahora sí que es un factor significativo. Observemos que el p-valor es 0.0069. Y eso es gracias a que la dispersión que antes nos impedía ver diferencias entre los grupos ahora la vemos explicada por esa covariable y, por lo tanto, la comparación entre los tres niveles se hace mirando de descontar el efecto perturbador y confusor que introduce esa covariable.

33. Detectar covariables, como detectar otros factores que influyan introduciendo variación es fundamental a la hora de diseñar un ANOVA más eficaz, un ANOVA que acabe comparando de la forma lo más pura posible los tratamientos o las condiciones que realmente queremos comparar.

34. Veamos ahora el MANOVA. Se trata de un ANOVA pero con la peculiaridad de que en lugar de una variable respuesta tenemos un vector respuesta. O sea, dos o más variables respuesta, al mismo tiempo. Y queremos ver el efecto, o los efectos, del factor, o de los factores, que estamos estudiando no para una variable sino para un grupo de variables al unísono, al mismo tiempo. Queremos detectar igualdad o diferencia no de valores de una variable sino de valores de punto definidos por muchas variables.

35. Hay algo que puede ayudar a ver cómo actúa el MANOVA y por qué es necesario muchas veces. Veamos el siguiente dibujo:

IMG_0754

36. Tenemos aquí dos muestras de dos grupos que han podido ser tratados de forma diferente y que queremos comparar. Tenemos medidas de dos variables respuesta: la variable x y la variable y. Si hacemos un ANOVA con esos dos grupos para la variable x y otro ANOVA para la variable y, veremos que los dos grupos se ven desde esas variables muy solapados, lo que nos llevará a no ver diferencias significativas en ninguna de las dos variables:

IMG_0755

37. Observemos que en los ejes están dibujadas las proyecciones, que es lo que en realidad veríamos si analizáramos x e y por separado. Puede verse perfectamente que ambos grupos se ven muy solapados. Sin embargo, los dos grupos, vistos conjuntamente mediante las dos variables x e y, al mismo tiempo, se ve claro que están separados, que ocupan posiciones significativamente distintas en el plano.

38. Si se entiende esto se ve perfectamente que no es lo mismo hacer tantos análisis ANOVA como variables respuesta tengamos que hacer un MANOVA de todas las variables respuesta al unísono, viéndolas conjuntamente.

39. Todo lo demás, es igual, factores, niveles, etc. Lo importante es ver que el MANOVA trabaja con dos o más variables respuesta al mismo tiempo, pero todo lo demás es exactamente igual.

40. Y evidentemente el MANOVA puede incorporar también una o más covariables, siendo entonces un MANCOVA lo que estamos aplicando.

41. En el fichero Un estudio para aplicar ANOVA, ANCOVA, ANOVA de medidas repetidas, Regresión simple y Regresión múltiple, puede verse un ejemplo de aplicación de estas técnicas.

Anuncios

Tema 29: METAANÁLISIS

1. Es muy frecuente en estudios estadísticos encontrarnos con las dos situaciones siguientes:

a. Que no se aprecien diferencias estadísticamente significativas entre los grupos comparados o que no se pueda hablar de una asociación, también estadísticamente significativa, entre dos variables, debido a un tamaño de muestra pequeño.

b. Que se hayan hecho muchos estudios relativamente similares y que sea difícil acabar de perfilar una conclusión global por la falta de sintonía entre los diferentes resultados.

2. Para enfrentarse a estas situaciones suele hablarse de dos soluciones posibles: Los estudios multicéntricos o el metaanálisis. En los estudios multicéntricos el objetivo es unificar criterios de diferentes grupos para realizar un estudio conjunto. En los estudios de metaanálisis el objetivo es aprovecharse de la información de diferentes estudios hechos con la misma intención por grupos diferentes buscando una unificación de toda esa información.

3. En los estudios multicéntricos y en los metaanálisis el objetivo es siempre aumentar la mirada, aumentar el tamaño de muestra. Sin embargo, la calidad no es la misma. El grado de unificación es muy superior en los estudios multicéntricos, sin lugar a dudas.

4. En ocasiones no es posible la organización de un estudio multicéntrico y, al mismo tiempor se dispone de muchos estudios, en cierta forma análogos, hechos por diferentes grupos. En estas situaciones es interesante tratar de sintetizar la información que se tiene en esos diferentes estudios. Por esto ha tenido y tiene mucho éxito este tipo de estudios.

5. En muchas ocasiones un metaanálisis ha sido la antesala de un posterior estudio multicéntrico. Es obtener ciertas conclusiones en la particular ampliación del tamaño de muestra que representa un metaanálisis ha llevado en muchas ocasiones a la realización de estudios multicéntricos que han acabado demostrando o no, mediante un estudio de más calidad metedológica, lo que apuntaba el metaanálisis.

6. Lo primero que hay que hacer en un metaanálisis es reunir una serie de estudios que hayan hecho lo mismo. Que hayan estudiado lo mismo. Evidentemente con una muestra distinta tomado en una zona diferente. Puede que con algunos aspectos metodológicos diferentes, pero lo fundamental es que se haya buscado lo mismo: la relación que hay entre la exposición a un riesgo y una determinada enfermedad, la comparación de un tratamiento determinado respecto a un placebo, etc.

7. Un elemento presente en un metaanálisis es siempre la tabla resumen de los diferentes resultados obtenidos en los diferentes estudios. Veamos un ejemplo de estas tablas resumen en un estudio donde se analiza el riesgo de enfermedad coronaria en fumadores pasivos:

20140309-195325.jpg

20140309-195336.jpg

8. Los gráficos son muy importantes en metaanálisis. Se han diseñado muchos tipos de gráficos. Posiblemente los más usados son los siguientes:

9. El denominado Forest plot, que es el que suele usarse más, resume digamos que sin voluntad de estructuración los diferentes estudios que tenemos. Es un orden incluso alfabético, no hay una ordenación estructurada como la hay en otros tipos de gráficos en metaanálisis. La estructura general es, pues, la siguiente:

IMG_8170

10. El Funnel plot resume la información con ya cierta estructuración. Lo hace según el peso estadístico que tiene cada uno de los estudios. Por el tamaño de muestra o por el error estándar. Por ejemplo, veamos cómo quedaría estructurado según el tamaño de muestra:

IMG_8171

11. Observemos que cada punto hace referencia al valor obtenido en un estudio incluido en el metaanálisis pero ahora están estructurados en función del tamaño muestral del estudio. Es interesante porque, de hecho, el peso del tamaño de muestra por estudio es un elemento muy importante. Suele darse, lógicamente, una estructuración en forma de triángulo isósceles con base en la zona de tamaño muestral reducido y con vértice en la parte de mayor tamaño muestral.

12. El Abbé plot es la creación de dos territorios diferentes: uno donde va mejor un tratamiento y otro donde va mejor el otro. Se trata, entonces, de ver dónde caen mayoritariamente, los diferentes estudios.

13. A la hora de juntar todos los valores buscando por lo tanto la unificación y el aumento del tamaño de muestra es muy importante tener en cuenta la heterogeneidad de los estudios. Este es el gran caballo de batalla del metaanálisis, sin lugar a dudas.

14. Un elemento para evaluar esta heterogeneidad es el llamado Test de heterogeneidad. Es un contraste de hipótesis con la Hipótesis nula: Homogeneidad (igualdad entre los estudios) e Hipótesis alternativa: Heterogeneidad (diferencia significativa entre los estudios). Es un Test de la ji-cuadrado, como veremos después.

15. Otro elemento que evalúa la heterogeneidad entre estudios incluidos en el metaanálisis es el denominado coeficiente de heterogeneidad que se suele simbolizar con una I2. El cálculo de este coeficiente es el siguiente:

IMG_8172

16. El valor, como puede verse, se calcula mediante el valor de la ji-cuadrado y el número de grado de libertad, que será el número de estudios menos 1.

17. Veamos, a continuación, dos ejemplos diferentes donde veremos aplicar tanto el Test de heterogeneidad como el cálculo del coeficiente de heterogeneidad.

18. Vamos a ver el primero paso a paso. Supongamos un metaanálisis en pequeño para entenderlo mejor:

IMG_8173

19. Ahora hacemos el total; o sea, sumamos los tres estudios:

IMG_8173

20.  Ahora tenemos una probabilidad total, con la que construiremos un Test de la ji-cuadrado (Ver el Tema 8: Relación entre variables cualitativas. El test de la ji-cuadrado): o sea, el observado, que es lo que tenemos, y el esperado, que es lo que tendrían los tres estudios si la probabilidad fuera única:

IMG_8173

21. A partir de aquí podemos aplicar el Test de la ji-cuadrado y el coeficiente de heterogeneidad para obtener:

IMG_8175

22. El coeficiente como es negativo se hace 0% que es el valor más bajo posible.

23. El otro ejemplo, ahora con todos los datos de golpe y donde se puede ver una importante heterogeneidad entre los estudios:

IMG_8176

24. El coeficiente de heterogeneidad servirá para rectificar los intervalos de confianza y los contrastes de hipótesis que se realicen con los datos del metaanálisis agrupados. Un coeficiente de heterogeneidad elevado penalizará las decisiones finales, hará que el tamaño de muestra alcanzado sumando estudios no sea tan trascendente.

25. La variabilidad en los estudios de metaanálisis debe verse en dos componentes. Una es la variabilidad intraestudio y otra la variabilidad interestudios, que queda evaluada mediante el coeficientes de heterogeneidad o mediante el Test de heterogeneidad. En los intervalos de confianza de un pronóstico o en un contraste de hipótesis siempre está presente la noción de Error estándar que hemos visto en el Tema 3: Intervalos de confianza:

IMG_6927

26. La magnitud del coeficiente de heterogeneidad modifica el numerador. Lo amplía. Por lo tanto, un mismo metaanálisis, con un mismo tamaño de muestra total proporcionará intervalos de confianza distintos según el grado de heterogeneidad. Cuanta más heterogeneidad más grande se hace el numerador.

27. Supongamos un nuevo ejemplo sencillo y simplificado que nos ayudará a valorar esto que estamos diciendo. Lo vemos en un tema que trata de estudiar la media de colesterol en una población. Cuatro estudios presentan los siguientes valores:

IMG_8194

28. Si ahora calculamos la media de los cuatro estudios es 205, pero hay una cierta heterogeneidad que nos debe penalizar a la hora de construir un intervalo de confianza de la media juntando los cuatro estudios.

29. Calcularemos la varianza dentro de los estudios, marcada con un subíndice D, y la varianza entre los estudios, marcada con el subíndice E. Vemos también a continuación una alternativa forma de cálculo del coeficiente de heterogeneidad a partir de estas dos varianzas. Y calcularemos también la varianza global y la DE global a partir de la suma de estas dos varianzas:

IMG_8196

30. Si ahora incorporamos los valores totales en la tabla anterior y el valor de esta DE global ello nos permite calcular el Error estándar (EE) y ver cómo queda penalizado por la varianza entre estudios o heterogeneidad:

IMG_8194

31. Observemos que al final el EE es 1.13 y no 1, como sería sin esta penalización. Si tuviéramos más heterogeneidad tendríamos más penalización.

32. Finalmente una tabla donde se expresan los resultados finales del metaanálisis mostrado anteriormente del estudio del riesgo de enfermedad coronaria en fumadores pasivo:

20140309-195345.jpg

Tema 28: REGRESIÓN DE POISSON

1. La Regresión de Poisson es un tipo especial de Regresión donde la particularidad es que la variable dependiente se ajusta bien a una distribución Poisson para cualquier combinación de valores de la variable independiente (en una Regresión de Poisson simple) o de las variables independientes (en una Regresión de Poisson múltiple).

2. Existen múltiples tipos de Regresión. La Regresión de Poisson es un caso más entre el amplísimo ámbitos de tipos de Regresión que se han definido. A lo largo del tiempo se han ido ajustando nuevos modelos de Regresión con la finalidad de conseguir representar mejor determinadas relaciones entre las cosas. Este tipo de Regresión es un ejemplo de este progreso de construcción de modelos matemáticos cada vez más ajustados a la realidad.

3. La distribución de Poisson es una distribución que modeliza bien situaciones de conteo. Por ejemplo: números de accidentes, número de personas que tienen un infarto, número de personas que llaman a una centralita de teléfono, etc, siempre todo esto evaluado en unidad de tiempo determinada.

4. La distribución de Poisson tiene un único parámetro, la lambda, que coincide con la Esperanza y la Varianza de la distribución. O sea, es una distribución que cuanto más grande es el valor esperado más dispersión tienen los valores que puede tomar la variable que se distribuya así.

5. La distribución de Poisson toma, pues, valores enteros no negativos: 0, 1, 2, 3, 4, … Una peculiaridad especial de esta distribución es, como he dicho en el apartado anterior, que su esperanza y su varianza es la misma. Este es un buen criterio, pues, para comprobar si unos datos se ajustan a una distribución Poisson. Por ejemplo, la muestra (2, 4, 3, 4, 4, 5, 3, 4, 1, 4, 3, 5) se ajusta bien porque tiene la media muestral y la varianza muestral muy similares. Sin embargo, la muestra (1, 1, 2, 3, 50, 4, 55, 3) no se ajusta porque tiene una media muestral mucho más pequeña que la varianza muestral.

6. En el artículo Funciones de distribución pueden verse algunas peculiaridades de esta función de distribución: la función matemática, la forma que tiene, algunas peculiaridades y algunas aplicaciones. Ahora lo que sí nos puede ser útil, para poder entender lo que pretendemos captar y representar, mediante la Regresión de Poisson, es mostrar el siguiente dibujo de los cambios que se visualizan en la distribución Poisson cuando el valor de su parámetro, la lambda va aumentando:

IMG_5817

7. La lambda puede ser cualquier valor real positivo. Observemos cómo al ir aumentando el valor de la lambda los valores con más probabilidad se van desplazando hacia la derecha y, al mismo tiempo, los valores posibles se van diversificando.

8. Si recordamos regresiones vistas en otros temas podremos situar mejor ésta. En la Regresión lineal la variable dependiente, la que solemos representar por una “y”, es una variable continua, una variable que potencialmente puede tomar cualquier valor real dentro de un intervalo. En la Regresión logística hemos visto que esa variable dependiente era dicotómica: era una variable que tomaba dos valores posibles que normalmente codificamos como 0 y 1. Pues, ahora, con la Regresión de Poisson tenemos una situación en cierta forma intermedia: Potencialmente son infinitos los valores posibles de la variable dependiente pero con limitaciones. Son enteros no negativos, porque son recuentos, y los valores tienen la peculiaridad de tener media muestral y varianza muestral similar.

9. Veamos en el siguiente gráfico el dibujo de los tres tipos de regresión comentados, para situarnos:

IMG_5819

10. Y observemos ahora más en concreto lo que pretende representar la Regresión de Poisson. Observemos que se trata de, a partir de unos datos como podrían ser los del tercer esquema del gráfico anterior, construir un modelo como podría ser el siguiente:

IMG_5818

11. Para poder evitar el problema de dar valores negativos en este tipo de regresión se realiza una transformación de los datos que nos evita estos problemas: una transformación logarítmica.

12. El modelo básico con una única variable independiente es el siguiente:

IMG_5497

13. El modelo para varias variables independientes es:

IMG_5498

14. Veamos tres ejemplos de cómo sería una Regresión de Poisson con una única variable independiente. En el primer caso no funciona el modelo porque el coeficiente “a” no es significativo. Pensemos que el coeficiente “a” es el que multiplica a la variable independiente x, por lo tanto, si su valor es cero significa que no hay relación entre la variable “y” y la la variable “x”, como se puede ver visualizando el gráfico de valores:

IMG_5544

15. En el segundo caso:

IMG_5545

16. En el tercer caso:

IMG_5546

17. En Regresión de Poisson se puede trabajar con los valores brutos (valores absolutos) o con tasas (valores relativos).

18. Como puede observarse se trata de un caso un tanto especial, por las peculiaridades del tipo de variables y de relaciones entre ellas, pero estamos hablando de conceptos que ya han ido saliendo en temas anteriores: conceptos de Regresión, conceptos que preparan el terreno para el establecimiento de un modelo matemático de la relación entre variables.

Tema 27: ANÁLISIS DE CORRESPONDENCIAS

1. El Análisis de correspondencias es una técnica de reducción de dimensiones, una técnica para visualizar una nube de puntos multidimensional en dos dimensiones. Consiste, como las demás técnicas de reducción de dimensiones, en un procedimiento de traslado de una nube de puntos definida en un espacio de muchas dimensiones a un espacio de dos dimensiones donde poder visualizar la posición relativa de unos puntos. Este traslado se hará respetando al máximo las posiciones relativas de los puntos en la nube de puntos original.

2. Se trata, pues, en definitiva, como sucede con las demás técnicas de reducción de dimensiones (Análisis de componentes principales, Análisis factorial o Análisis discriminante) de una técnica que trata de hacer una fotografía, en dos dimensiones, de una realidad multidimensional.

3. El Análisis de correspondencias es, en realidad, un análisis equivalente al Análisis de componentes principales y al Análisis factorial pero con variables cualitativas.

4. Cuando estudiamos dos o más variables cualitativas cada una de ellas tiene una serie de valores posibles, de valores que en realidad son categorías, son valores nominales (es por esto que a las variables cualitativas se les denomina también categóricas o nominales). Por ejemplo, la variable sexo: Hombre y Mujer, la variable fumar: Fuma y No fuma, etc.

5. El objetivo del Análisis de correspondencias crear un mapa de la posición relativa de las variables cualitativas estudiadas con cada uno de sus valores posibles. Una posición que refelje el grado de asociación entre ellas. Es una técnica que, aunque está basada en unos métodos algebraicos complejos, es muy intuitiva, como se verá a continuación. Básicamente el objetivo es representar cada uno de los valores posibles de cada una de las variables estudiadas en un plano donde la posición relativa de los puntos refleje el grado de asociación entre cada uno de los conceptos representados.

6. Se distingue habitualmente el Análisis de correspondencias simples del Análisis de correspondencias múltiples, según sean dos variables cualitativas estudiadas (Análisis de correspondencias simple) o más de dos (Análisis de correspondencias múltiple).

7. El procedimiento del análisis es muy similar al del Análisis de componentes principales. Se trata de buscar qué combinaciones de los valores nominales de las variables cualitativas originales permiten una representación más fiel, en dos dimensiones, de la nube de puntos original que es en más dimensiones.

8. Aparecerán, como en el Análisis de componentes principales, unos valores propios (cantidad de varianza explicada) y unos coeficientes asociados a cada valor de cada variable cuatitativa que representan el peso que cada uno de ellos tiene en esa nueva dimensión que me permitirá una representación en menos dimensiones.

9. Habrá, por lo tanto, una proporción de varianza explicada por las dos dimensiones de la nueva representación que nos dará la fiabilidad, que nos dará el grado de aproximación que hay entre lo que vemos, que es una aproximación, y la verdadera realidad que pretendemos representar. Observemos que la forma de hablar en este tema es paralelo a la forma empleada en el tema dedicado al Análisis de componentes principales.

10. Veamos un ejemplo que puede ilustrar lo que estamos diciendo: Tomamos 100 seguidores del Barça, del R. Madrid, del At. Madrid, del At. Bilbao y del Valencia. Y les pedimos que elijan de entre esos cinco equipos dos preferentes. Uno, evidentemente será el propio equipo del que es seguidor pero el segundo debe ser el que más les simpático les caiga o el que por el que menos antipatía sientan. Esto nos permitirá analizar la posición relativa de  los seguidores de esos equipos respecto a esos equipos.

11. Observemos que tenemos dos variables cualitativas. El equipo del que es seguidor y la elección de los dos equipos preferidos. Al final el cuadro de resultados es el siguiente:

IMG_6073

12. Observemos que es un ejemplo muy claro. Vemos unas proximidades y unas lejanías que todos los aficionados al fútbol conocemos. Veamos que de los 100 seguidores del Barça los 100 eligen al Barça pero como deben también elegir a otro equipo 30 eligen al At. Madrid, 60 al At. Bilbao y 10 al Valencia. De los 100 seguidores del R. Madrid los 100 eligen al propio R. Madrid pero la segunda opción se reparte distinto: 20 para el At. Bilbao y 80 para el Valencia. Y así sucesivamente.

13. El primer cuadro de resultados fundamental de este análisis es el siguiente:

IMG_6074

14. Observemos que aquí lo que nos marca es la calidad de la representación que veremos luego. Fijémonos especialmente en la llamada Proporción de la Incercia explicada. Vemos que la primera dimensión, el primer eje (podríamos decir la primera componente principal, en términos del Análisis de componentes principales) explica el 0.663 por uno o el 66.3% de la inercia. La inercia es un sinónimo de varianza. Este análisis está muy ligado a la tradición estadística francesa donde a la varianza se le denomina inercia. La segunda dimensión explica el 22%. En total con las dos dimensiones que veremos explicamos el 88.3%. Está muy bien.

15. El siguiente paso son cuales son las coordenadas. El análisis siempre da unas coordenadas de los puntos fila y unas coordenadas de los puntos columna:

IMG_6075

IMG_6076

16. Esto es porque, en realidad, los que hace la técnica es hacer dos análisis de reducción de dimensiones: uno según filas y otro según columnas y luego los solapa. Solapa los puntos, solapa las dos representaciones. En realidad, se hacen dos Análisis de componentes principales a la matriz de datos mostrada anteriormente: una en la que las filas son variables y las columnas individuos y otra en la que las filas son los individuos y las columnas variables. Esta es, en sí, la esencia de la técnica.

17. Finalmente el gráfico es el siguiente:

 IMG_6077

18. Como puede observarse el punto que hace referencia a los seguidores está muy cerca, en todos los casos, del punto de las preferencias. Pero observemos más cosas: Los seguidores del Barça eligen con frecuencia al At. Bilbao, y lo mismo al revés. Son equipos próximos. Tanto Barça respecto al R. Madrid como el At. Madrid respecto al R. Madrid están muy alejados. El Valencia está más próximo al R. Madrid, pero en realidad está bastante en el centro del gráfico, lo que significa que las distancias con todos los equipos está bastante repartida. Si se observa con detenimiento este gráfico y los datos de la matriz de resultados, de la tabla de correspondencias, vemos que ese gráfico es una representación gráfica fiel de lo que se desprende de aquellos datos.

19. Cuando tenemos más de dos variables cualitativas lo que hace la técnica es construir una matriz de doble entrada donde va añadiendo en las filas todas las categorías de cada una de las variables cualitativas del estudio y en las columnas hace lo mismo. Es la llamada Matriz de Hurt. En el interior de la matriz, como en el caso de dos variables cualitativas, tenemos las frecuencias de cada uno de los cruces. A partir de ella es donde se realiza el análisis de reducción de dimensiones y la representación en un plano de todas las categorías respetando la posición relativa de unos conceptos respecto a los otros.

20. Veamos un ejemplo de Análisis de correspondencias múltiples. Supongamos que estamos analizando las variables sexo (hombre, mujer), edad (joven, adulto) y fumar (sí, no).

21. En el siguiente gráfico muestro unos datos que tal vez podrían encajar con lo que sucedía hace 40 años y el plano resultado del análisis:

IMG_6083

22. Y veamos ahora otro gráfico con otros datos y con otro análisis que tal vez encaja más con datos de hace unos pocos años:

IMG_6081

23. Es muy importante comparar ambas matrices de datos y, en cada caso, en cada estudio, comparar los datos con el diseño del plano con los valores de las tres variables cualitativas que nos proporciona el análisis.

24. En el primer caso el fumar o no fumar está más próximo a Hombre o Mujer, respectivamente y, también en este caso, el perfil de jóvenes y adultos es muy distinto y más o menos equidistante de fumar o no.

25. En cambio, en el segundo caso, el fumar o no fumar está más ligado a Joven o Adulto y el perfil de Hombre y mujer están alejados y equidistantes más o menos de fumar o no fumar aunque un poco más cerca Hombre de fumar y Mujer de no fumar.

26. Sin lugar a dudas que si se practica un poco interpretando las dos matrices de datos y los dos gráficos de salida del Análisis de correspondencias múltiple se captará la esencia de esta técnica: la búsqueda de una representación bidimensional que refleje la posición relativa de las asociaciones entre las diferentes opciones nominales de las variables cualitativas incluidas en el análisis.

27. Hemos comentado antes que el Análisis de correspondencias múltiples trabaja con la llamada Matriz de Hurt. Esta matriz se obtiene a partir de las frecuencias para cada caso y consiste en un recuento de las frecuencias de los cruces de todos los valores nominales posibles de las diferentes variables cualitativas analizadas.

28. A partir de los datos del segundo de los casos analizados anteriormente podemos ver, a continuación, cuál sería la Matriz de Hurt:

IMG_6082

29. El Análsis de correspondendias, por lo tanto, lo que hace es aproximar lo próximo, los perfiles próximos, busca las asociaciones, trata de dibujarnos las relaciones entre los valores de las variables cualitativas.

30. Un último ejemplo, basado en unos datos y un análisis hecho por Bernat Llopis: son datos de un estudio de algunas características evaluadas en diferentes dragones de la literatura universal. La tabla de datos recoge cuatro variables: La naturaleza (Malvada, Salvaje o Bondadosa), el mundo al que pertenece (Fantástico o Real), si habla o no y si exhala fuego o no.

31. Una vez hecho el análisis de correspondencias tenemos las siguientes asociaciones de las variables categóricas estudiadas:

IMG_0819

32. Hay una tendencia a asociarse, en un dragón, el hablar, la naturaleza bondadosa, el exhalar fuego y el pertenecer a un mundo fantástico. Por el contrario, el no hablar, el pertenecer a un mundo real, el ser de naturaleza malvada y el no exhalar fuego también parecen asociados, aunque no tan intensamente como el otro grupo de características.

33. Los datos en los que se basa este estudio son los siguientes:

Nombre propio Naturaleza Mundo Habla ExhalarFuego
Smaug Malvada Fantástico Si Si
Drogon Salvaje Fantástico No Si
Xèron Bondadosa Real Si No
Saphira Bondadosa Fantástico Si Si
Yandrak Bondadosa Fantástico No Si
Sin nombre Bondadosa Real No No
Sin nombre Salvaje Fantástico No Si
Fújur Bondadosa Fantástico Si No
Sin nombre Salvaje Real No Si
Sin nombre Malvada Real No Si
Kalecgos Bondadosa Fantástico Si No
Ferno Bondadosa Fantástico No Si
Sin nombre Malvada Real No no
Fafnir Malvada Real Si No
Lung Bondadosa Real Si Si
Sin nombre Malvada Real No Si
Kai Bondadosa Fantástico Si Si
Glaedr Bondadosa Fantástico Si Si
Shruikan Malvada Fantástico Si Si
(Sin nombre. Se le denomina
“Dragón Dorado” o “Emperador Dragón”)
Malvada Fantástico Si Si
Norberto Salvaje Real No Si

Tema 26: ANÁLISIS ESTADÍSTICO DE VARIABLES CONFUSORAS

1. En diferentes temas de este curso hemos tratado de la relación entre variables. La Estadística ha creado diferentes mecanismos para detectar (ver si la hay o no, significativamente) y cuantificar la relación entre variables. También hemos visto diferentes técnicas de comparación entre poblaciones. Técnicas que tratan de valorar si las diferencias de medias, de porcentajes o de otro valor, que vemos entre muestras son estadísticamente significativas; o sea generalizables a las poblaciones que estamos comparando.

2. Cuando se valora la relación entre dos variables, sean las dos cuantitativas, cualitativas las dos o cualitativa una y cuantitativa la otra, nos podemos encontrar que la relación que estemos detectando sea confundida por una tercera variable. O por varias terceras variables. Lo mismo sucede en una comparación entre poblaciones: puede ser que las diferencias que veamos o que no veamos sean atribuibles al efecto producido por terceras variables.

3. El ejemplo típico que se plantea para ejemplificar esta situación es el siguiente: si se relaciona o compara la mortalidad anual en Florida y Boston, hay más mortalidad, significativa, en Florida. ¿Significa esto que en Florida la gente se muere más? Pues, no, significa que tenemos una variable confusora. Una variable que nos confunde, que hace que veamos una relación que, en realidad, no existe. Sucede que en Florida la edad media es mucho mayor porque mucha gente en EEUU al jubilarse se va a vivir allí y, por lo tanto, es lógico que esa zona acabará teniendo más mortalidad anual superior a otras zonas, como sucede con Boston.

4. En este tema vamos a abordar mecanismos de detección de esas variables confusoras y mecanismos de evitación la influencia de esas variables. Veremos, también, mecanismos que controlan esa confusión al mismo tiempo que la detectan.

5. Una evidencia es que en la naturaleza las variables van juntas. Las variables se relacionan, interfieren unas a otras, se influyen mutuamente. Lo cierto es que el análisis de la relación entre variables es mucho más complejo de lo que parecería a primera vista. A veces detectamos una relación entre dos variables que debería ser atribuible, en realidad, a una tercera variable y a veces, también, no vemos una relación por culpa de una tercera variable que nos está interfiriendo y confundiendo.

6. El Test estadístico más usado para comprobar la posible confusión que puede generar una tercera variable en la relación entre dos variables cualitativas es el Test de Cochran-Mantel-Haenszel.

7. El Test de Cochran-Mantel-Haenszel es un contraste de hipótesis para evaluar la igualdad de Odds ratio entre k tablas de contingencia 2×2. Es una forma de evaluar la posible influencia que pueda tener, sobre la relación entre esas variables cualitativas dicotómicas, una tercera variable también cualitativa con k valores posibles. El Test consiste en ir calculando las Odds ratio de las dos variables originales en tantas tablas de contingencias como valores diferentes tengamos de la tercera variable que pretendemos evaludar si es o no confusora.

8. En este Test si se mantiene la Hipótesis nula que afirma que las Odds ratio son iguales en todas las tablas de contingencias desplegadas, la tercera variable no será contemplada como confusora; si, por el contrario, se rechaza la Hipótesis nula y se acepta la Hipótesis alternativa, significa que esa tercera variable, a través de la cual hemos construido las diferentes tablas de contingencias, está influyendo en la relación entre las dos primeras variables. Es, pues, una variable confusora. Es un Test, por lo tanto, importante, que conviene aplicar cuando se quiere detectar variables confusoras a ese nivel de estudios.

9. El Análisis de propensiones (Propensity score analysis) es una importante técnica estadística para evitar la confusión de variables. En el tema dedicado a esa técnica podemos ver cómo se trata de una técnica que trata de evitar la confusión a través de igualar los individuos a comparar.

10. El Análisis de propensiones es especialmente usado cuando lo que se pretende es comparar grupos en estudios observacionales, estudios donde, por sus peculiaridades en el procedimiento de toma de muestras, es muy frecuente encontrarse con perfiles muy distintos entre los individuos de los grupos a comparar.

11. En estas situaciones muchas de las diferencias estadísticamente significativas que veamos entre los grupos son atribuibles a variables confusoras más que a los elementos característicos que delimitan los grupos a comparar. Por ejemplo, supongamos que queremos comparar la respuesta a dos tipos de cirugía y se ha hecho mediante un estudio observacional, no mediante un estudio randomizado. Muy posiblemente las edades medias, la proporción de sexos, la asociación con ciertas comorbilidades serán muy distintas entre los dos grupos. Y no sabemos si las diferencias que vemos son atribuibles a las dos cirugías o a la presencia en ambos grupos de individuos bien distintos en cuanto a diferentes variables.

12. El Análisis de propensiones, el Propensity score analysis, trata de evitar esto mediante un original mecanismo de reestructuración de los grupos, que se puede ver explicado con detalle en el Tema dedicado a ello: Tema 24: Análisis de propensiones (Propensity score analysis).

13. Es obligatorio hablar del la Regresión logística al abordar el tema de las variables confusoras. La Regresión logística es una técnica para detectar relaciones entre una variable dependiente dicotómica y una o variables variables independientes, pero la Regresión logística en sí, también, como veremos ahora, un mecanismo de control de la confusión. El hecho de introducir diferentes variables en el modelo supone, como veremos a continuación, un control de la confusión. Veámoslo con un ejemplo con valores ficticios.

14. Planteemos la situación del ejemplo clásico de confusión que planteábamos al comienzo de este tema. Supongamos que hemos aplicado una Regresión logística comparando la mortalidad (variable dependiente) con vivir en Florida y en Boston (variable independiente) y tenemos una Odds ratio, por ejemplo, de 3, significativa, indicando que existe una relación significativa entre la mortalidad y la zona donde se vive; o sea, que hay más posibilidades de morir en Florida que en Boston. Diríamos, entonces, que vivir en Florida es un factor de riesgo.

15. Pero supongamos ahora que analizamos las edades de la gente que vive en Florida y en Boston y, supongamos, que tenemos la siguiente distribución de edades:

IMG_5502

16. Observemos que en Florida hay más gente mayor que en Boston, relativamente. La distribución de edades es distinta.

17. Si hacemos ahora una Regresión logística entre mueren o no mueren durante, por ejemplo, un año, en esta muestra elegida, los datos que podríamos tener serían los siguientes:

IMG_5503

18. Observemos que ahora no sólo compararemos los que mueren o no respecto a ser de Florida o de Boston, cosa que nos daba antes una relación significativa a favor de morir en Florida. Ahora esta relación la hacemos introduciendo en el modelo de Regresión logística una tercera variable, la variable edad. Las cosas ahora cambian. Ahora la Regresión calculará dos curvas de probabilidad de morir, y lo interesante es que ahora esas curvas de de probabilidad de morir serán similares. Veámoslo:

IMG_5505

19. Observemos que son curvas muy similares. Porque ahora lo que se valora no es cuántos mueren o no en Florida y Boston, sino cuántos mueren en esas dos zonas pero en función de la edad. La probabilidad de morir ahora se estima relativizando respecto a la edad, y respecto a la edad las probabilidades de morir son las mismas, vivas en Florida o vivas en Boston. Tenemos en ambos casos la misma curva:

IMG_5506

20. Esta es la curva que nos construiría tanto para Florida como para Boston el modelo de Regresión logística. He preparado un ejemplo numérico donde se refleja esta realidad y vamos a ver a continuación la salida de ordenador que da un software estadístico, con la opción de Regresión logística, para las curvas de probabilidad de morir Boston y de Florida, según la edad. Son las siguientes:

IMG_5501

21. Como puede apreciarse se trata de dos curvas muy similares. No son distintas significativamente. Ahora la Odds ratio entre la variable dicotómica muere o no muere y zona (Florida o Boston) no es distinta significativamente de 1, lo que significa que no hay relación. Y es 1 y no 3, como lo era antes, por la entrada de la edad en el modelo, en la Regresión logística. Antes el 3 era consecuencia de la variable confusora edad; ahora, al entrar la edad en el modelo de Regresión logística hemos controlado esa confusión.

22. Es muy importante entender bien esto. Observemos que, ahora, al entrar la edad se evita que ella actúe como confusora. Por lo tanto, la Regresión logística múltiple, con variables independientes, consigue que las variables que entran en el modelo sean eliminadas como variables confusoras. Tenemos, pues, así, que la Regresión logística nos permite establecer relaciones entre una variable dependiente dicotómica y diversas variables independientes controlando la confusión entre ellas.

Tema 25: ANÁLISIS DE SERIES TEMPORALES

1. El Análisis de series temporales es el estudio estadístico de muestras de variables recogidas secuencialmente a lo largo del tiempo.

2. Obviamente el material básico de este Análisis es un serie temporal. Una posible muestra de una serie temporal podría ser la siguiente:

IMG_5269

3. Un concepto básico a tener en cuenta al introducirse en el Análisis de series temporales es que se trata de muestras con valores dependientes, no independientes. Generalmente cuando tenemos una muestra tenemos n valores independientes obtenidos en una población. Ahora no sucede esto. Ahora tenemos un tipo de muestra distinto. Tenemos una muestra donde cada valor sucesivo depende de valores anteriores. Este es un elemento distintivo que estará presente evidentemente en todo nuestro recorrido por este tipo de técnicas estadíticas.

4. Como sucede con toda muestra los objetivos básicos serán, en primer lugar, describir lo que tenemos y, en segundo lugar, hacer inferencias; o sea, ir más allá de la muestra concreta que tenemos, de la serie temporal, para hacer predicciones. También, en este ámbitos, se crean modelos matemáticos que dibujen esa relación de una variable con el tiempo. Relacionar esa serie temporal con otras y establecer, así, dependencias, influencias, etc, también será un objetivo del Análisis de series temporales.

5. Hay tres elementos básicos a tener en cuenta, en primer lugar, a la hora de abordar una serie temporal: la tendencia, la estacionariedad y la aleatoriedad. Podemos decir, de hecho, que el valor de variable a estudiar a lo largo del tiempo es una función de estos tres elementos. Escrito quedaría así:

IMG_5270

6. La variable X simboliza la variable que estamos estudiando a lo largo del tiempo (el valor de un activo en la Bolsa, el número de neumonías diagnosticadas en urgencias, el número de muertos en las carreteras, etc.), la T simboliza la tendencia, la E la estacionariedad y la A la aleatoriedad. Todas ellas se expresan con el subíndice t porque en series temporales todo es temporal. De hecho, el tiempo siempre ocupa el eje de las abscisas, como hemos visto antes.

7. La Tendencia mide si temporalmente los valores tienen una direccionalidad hacia arriba o hacia abajo. En definitiva, capta una pendiente general de los valores. Una pendiente que puede ser positiva, si es de subida, o negativa, si es de bajada.

8. La Estacionariedad mide la presencia de ciclos, de subidas y bajadas realizas con una determinada regularidad.

9. La Aleatoriedad mide desvíos respecto de estos dos elementos vistos anteriormente, pequeños alejamientos de la tendencia o de la estacionariedad que se atribuirán a elementos no controlados en el modelo, a elementos incluso idiosincráticos, propios del individuo o los individuos evaluados en aquel momento.

10. Veamos en el siguiente gráfico ocho situaciones posibles, ocho series temporales distintas, para ver qué significa cada uno de estos elementos:

IMG_5271

11. Supongo que se van viendo en cada una de estas series dibujadas el papel de cada uno de estos tres conceptos anunciados antes. Pero lo resumo a continuación:

En A: No hay ni T, ni E, ni A.

En B: Sólo hay T. No hay ni E ni A.

En C: Sólo hay E. No hay ni T ni A.

En D: Hay T y E. No parece haber A.

En E: Sólo hay A. No hay T ni parece haber E.

En F: Hay T y A. No parece haber E.

En G: Hay E y A. No hay T.

En H: Hay T, E y A.

12. La Tendencia de una serie se podrá evaluar mediante una Regresión lineal simple, a través del modelo: X=at+b, donde “a” es la pendiente de la recta y “b” la llamada “ordenada en el origen”. Ver el artículo dedicado a la Regresión lineal simple. Se trata, pues, de ver si, en su conjunto, entre los datos de la variable X estudiada y los valores temporales se podría ajustar una recta de regresión significativa. Evidentemente, esa Regresión lineal no nos servirá para crear una modelo general de la serie temporal pero sí para detectar y caracterizar una tendencia.

13. La Tendencia evidentemente no siempre será lineal. Por lo tanto, en ocasiones, hará falta adaptar una función no lineal para detectar una tendencia, por ejemplo, exponencial, logarítmica, etc.

14. La Estacionariedad se evalúa mediante el llamado Correlograma. El correlograma consiste en un cálculo de correlaciones entre la misma muestra pero con diferentes desfases temporales. Es un original método de captar estacionariedad. Por ejemplo, si en datos mensuales se detecta una importante correlación entre los valores de cada mes con los del año siguiente hablaremos de una estacionariedad anual o de cada 12 meses.

15. A partir de toda esta información se trata de ajustar un modelo matemático, a los datos muestrales que tengamos de una serie temporal. Existen distintos modelos. Me centraré en comentar brevemente cuatro tipos que son los más importantes: AR, MA, ARMA y ARIMA. Se trata de modelos que no son independientes. Son mecanos hechos de piezas que se van reuniendo para explicar situaciones progresivamente más complejas.

15. Modelos AR: Son modelos donde el valor de la variable X se puede poner en función de valores de la misma X pero anteriores en la serie. Escrito sería lo siguiente:

IMG_5443

16. Suele escribirse AR(p) para simbolizar el número de valores anteriores de la variable estudiada X que en la serie influyen a un momento temporal concreto. Observemos que estamos escribiento el valor de la variable X en un momento temporal t como función de los valores de los p valores temporales anteriores de X, ya dados, por lo tanto. Y también, como función de un valor que denominamos épsilon y que es el residuo, aquel elemento que no controlamos y que nos desvía el valor del valor esperado.

17. Modelos MA: Son modelos donde el valor de la variable X se puede poner en función no de valores anteriores de la variable X sino de los errores introducidos y descontrolados que se suelen simbolizar en estadística con el símbolo epsilon. Escrito sería así:

IMG_5444

18. Suele escribirse MA(q) para simbolizar el número de errores anteriores que en la serie influyen en el valor que tenemos de la variable X en un momento determinado. Observemos que ahora estamos escribiento el valor de la variable X en un momento temporal t como función de los valores de los p errores, o residuos, temporales anteriores, valores ya dados, por lo tanto. Y también, por supuesto, como función de un valor de error, de residuo, nuevo, el del nuevo tiempor t.

19. Modelos ARMA: Son modelos donde conviene juntar un modelo AR con un modelo MA. Escrito sería así:

IMG_5445

20. Suele escribirse ARMA(p, q) para simbolizar el número de valores anteriores de la variable X y el número de errores anteriores que en la serie influyen en el valor que tenemos de la variable X en una etapa temporal concreta. Observemos que es un híbrido de los dos modelos anteriores.

21. Modelos ARIMA: Son modelos no estacionarios, que tienen una tendencia y que conviene explicar esa tendencia. Son la fusión de un modelo ARMA con una modelización de la tendencia a través de un proceso de diferenciación. Escrito sería así:

IMG_5446

22. Suele escribirse ARIMA(p, d, q) para simbolizar el modelo ARMA(p, q) empleado y el grado de diferenciación empleado para volver estacionario un proceso que no lo es.

23. Observemos que estos modelos que he ido describiendo progresivamente iban incorporando a los anteriores. Por lo tanto, un modelo ARIMA reúne a todos los anteriores. Así, un ARIMA(1, 0, 0) es un AR(1) y un ARIMA(1, 0, 1) es un ARMA(1, 1), etc. Esta modelización ha quedado, pues, así, elegante desde el punto de vista matemático. Un signo de elegancia matemática es encontrar formas unificadas de integrar elementos que anteriormente estaban dispersos.

24. Actualmente los software estadísticos ante una muestra concreta proponen el modelo ARIMA(p, d, q) más ajustado a esos datos. Estima los parámetros y, por lo tanto, proporciona elementos para el pronóstico a corto y medio plazo.

25. Por lo tanto, ante una serie concreta nos podemos encontrar que el modelo que mejor se ajusta a esos datos es un ARIMA(1, 1, 1), por ejemplo.

26. Los software que incorporan un módulo de series temporales suelen tener la posibilidad de ajustar el mejor modelo de serie temporal ARIMA(p, d, q) a una muestra seriada.

27. Vamos a ver, a continuación, muy intuitivamente, ante una serie temporal qué características van asociadas con diferentes valores de p, d y q en el modelo ARIMA más ajustado.

28. La parte AR valora qué influencia tienen los estadios temporales anteriores en un momento temporal concreto. El valor de p del modelo indica el número de etapas temporales anteriores que influyen en el presente. Cuanto más grande sea el valor de p más etapas del pasado influyen en los valores del futuro.

29. La parte MA valora la influencia que tienen errores anteriores, residuos anteriores, en el valor presente. El valor de q indica cuántos errores anteriores influyen en el presente.

30. La parte I del modelo ARIMA, el valor d, indica de alguna forma la tendencia que hay en el modelo. Representa las veces que hace falta derivar para conseguir eliminar esa tendencia. Irá en función de la inclinación de la tendencia.

31. Un tema también interesante en series temporales es ver la conexión que pueda haber entre diferentes series. En definitiva, ver si una variable influye a otra pero con un desfase temporal. El procedimiento principal para detectar estadísticamente este tipo de relaciones es el llamado correlograma con retardos. Se trata de dijar una variable fija y la otra irla retardando etapa temporal a etapa temporal e ir calculando la correlación entre ambas series retardo a retardo. De esta forma vemos si hay alguna relación estadística significativa entre esas series y si la hay cuál es el retardo temporal en el que se produce.

Tema 24: ANÁLISIS DE PROPENSIONES (PROPENSITY SCORE ANALYSIS)

1. El Análisis de propensiones, más conocido por su nombre en inglés: Propensity analysis o, también, como Propensity score analysis, es una importante técnica estadística con una importancia creciente, especialmente en Medicina.

2. Cuando se comparan tratamientos distintos en estudios controlados, en estudios randomizados, donde se aleatoriza a los participantes en el estudio, la llamada Ley de los grandes números va generando grupos que, si el tamaño de muestra es grande, son grupos claramente homogéneos.

3. Como hemos comentado en el artículo La Estadística descriptiva en Medicina, en la sección de Complemento de este Curso de Estadística, una de los principales usos de la Estadística descriptiva en Medicina es comparar los grupos que van a recibir un tratamiento distinto, en el punto de partida, en la línea de partida, en el “baseline”. Observemos, por ejemplo, en la tabla siguiente, uno de los ejemplos que allí hemos comentado:

IMG_5174

4. Se trata de un estudio aleatorizado donde se comparan tres grupos: uno de pacientes siguiendo una dieta mediterránea con el añadido de Aceite virgen de oliva (EVOO), otro siguiendo una dieta mediterránea con el añadido de nueces y, finalmente, otro, siguiendo una dieta control. Observemos que los valores descriptivos de las variables que se evalúan, en cada uno de estos grupos, son muy similares. Esto es muy importante para poder evaluar los resultados que se obtengan, finalmente, en el estudio. Para que las diferencias en las variables resultado (Outcome events), se puedan atribuir a estas distintas dietas estudiadas y no a otros factores ocultos.

5. Otros ejemplos de estos estudios controlados aleatorizados: Pacientes que cumplen unas determinadas condiciones son elegidos para una cirugía u otra, o para un tratamiento farmacológico u otro, según un sistema aleatorio. El objetivo es partir de grupos homogéneos. Después de un tiempo del tratamiento asignado a cada uno de los grupos se analiza, siempre, un repertorio de variables resultado (Outcome events), ahora sí buscando diferencias, y tratándolas de atribuir a las distintas condiciones experimentales estudiadas.

6. Asignando al azar a pacientes si el tamaño de muestra es grande acabamos siempre teniendo grupos muy equilibrados. Este es el objetivo fundamental cuando se comparan grupos: que las únicas diferencias sean las del factor que se quiere comparar y que los otros factores que puedan influir estén en igualdad de condiciones. Y en los estudios aleatorizados, gracias a la propia forma de proceder, se consiguen grupos homogéneos sin dificultad.

7. En los estudios clínicos no aleatorizados y, especialmente, en los estudios observacionales, sin embargo, donde la elección de los grupos no viene dado por un proceso aleatorio sino que se hace en función de criterios fuera de control, casi siempre se acaba trabajando con grupos que no son homogéneos respecto a un buen número de variables. Y, entonces, nos encontramos ante el problema de delimitar hasta qué punto lo que vemos en las variables resultado (Outcome events) es efecto de las condiciones distintas estudias o de estas diferencias entre esas variables incontroladas.

8. Ejemplos de estudios observacionales: tenemos dos grupos de pacientes, los que han estado durante un tiempo sometidos a un cierto riesgo (por ejemplo, fumar más de cierta cantidad de tabaco, vivir más de cierto tiempo a menos de 20 Km de una central nuclear, estar embarazada y haber tomado cierto fármaco) y los que no lo han estado de sometidos a este riesgo. En uno y otro grupo podemos entonces analizar un repertorio de variables resultado (Outcome events).

9. En estos estudios observacionales la propia forma de generar los grupos lleva a que muy posiblemente tengamos variables importantes con diferencias considerables, diferencias que podrían ser la causa de las diferencias que vemos, entre los grupos, a nivel de variables resultado.

10. En los estudios observacionales esta no homogeneidad de los grupos comparados permite, pues, dudar de hasta qué punto las diferencias que se aprecian en las variables resultados que se estudian son debidas al tratamiento distintos, a las condiciones distintas comparadas, o lo son debido a que estamos trabajando con grupos con características diferentes para una serie de variables que no hemos controlado y que están latentes allá detrás.

11. Por ejemplo, y ahora voy a caricaturizar la situación, no tendría sentido comparar un fármaco respecto a un placebo donde el fármaco se aplicara a hombres y el placebo a mujeres. O donde el fármaco se aplicara a mayores de 50 años y el placebo a menores de 50 años. Si viéramos diferencias no sabríamos qué proporción de diferencias atribuirlas al fármaco y cuáles a las diferencias evidentes entre los grupos comparados.

12. Las diferencias entre los grupos, en la realidad de estos estudios no randomizados o en estudios observacionales, no son tan grandes como las apuntadas en el ejemplo anterior, pueden ser sutiles, pero puede producirse en varias variables, y puede ocurrir perfectamente que estas diferencias estén detrás justificando unas diferencias que vemos en las variables resultado. Y, muchas veces, el observador, que ignora esas no homogeneidades entre grupos, atribuye las diferencias que ve al factor de riesgo estudiado cuando tal vez esa no sea esa la principal causa de lo que está viendo.

13. El Propensity score trata de evitar este problema aportándonos herramientas para igualar los grupos para un repertorio de variables que queramos contemplar.

14. Una intuitiva introducción: Supongamos que vamos a comparar dos grupos de individuos tratados de forma diferente y que respecto a dos variables X1 y X2 estos dos grupos tengan los valores siguientes:

IMG_5187

15. Un grupo está señalado de color rojo y el otro de color azul. Las muestras son pequeñas pero ahora esto no es lo importante. Lo trascendental es entender el concepto. Un grupo, el rojo, es más grande que el otro, el azul. Ya sucede esto con frecuencia en los estudios observacionales. El grupo control, el grupo no sometido a un riesgo a estudiar, suele ser mucho más grande que el grupo sometido a un determinado tipo de riesgo.

16. Observemos que estos dos grupos no son homogéneos para estas dos variables s X1 y X2. Si comparamos ciertas variables resultado en estos dos grupos podemos dudar si las diferencias son atribuibles al efecto de un posible factor de riesgo o debido a que, intrínsecamente, son dos grupos diferentes, dos grupos no comparables.

17. Supongamos que hacemos la siguiente operación. Nos quedamos con los tres valores azules pero de rojos no los cogemos todos sino que cogemos únicamente los más cercanos a la esfera de los azules. En definitiva, que acabamos trabajando únicamente con los situados dentro del círculo dibujado en la siguiente figura:

IMG_5188

18. Si ahora trabajamos únicamente con los tres rojos y los tres azules remarcados las diferencias que veamos en las variables resultado no podremos pensar que son debidas a que estamos trabajando con dos grupos que respecto a las variables X1 y X2 son muy diferentes. Ahora estamos realmente comparando dos grupos que, respecto a estas dos variables, son homogéneos. Esta es, en definitiva, la idea del Análisis de propensiones: detectar estas situaciones mediante unos mecanismos estadísticos y aportar unas posibles soluciones que nos permitan reconducir comparaciones entre grupos heterogéneos a comparaciones entre grupos homogéneos. En términos populares: Se trata no de comparar manzanas con naranjas, sino manzanas con manzanas.

19. El índice de propensión, el Propensity score, se formula, habitualmente, en forma de probabilidad condicionada (Ver en el apartado de Complementos el artículo Probabilidad y Probabilidad condicionada). Es una forma de expresar, con conceptos matemáticos, probabilísticos, si el reparto entre grupos se ha hecho homogéneamente o no respecto a una serie de variables que podrían confundirnos a la hora de interpretar los resultados finales. Porque es posible que, de no ser así, parte de lo que le estuviéramos atribuyendo al factor estudiado lo deberíamos atribuir, en realidad, a estas diferencias entre las variables confusoras.

20. Con el Propensity score se trata de evaluar y contrastar dos probabilidades. Por un lado:

P(Ser sometido a una determinada condición/Ciertos valores concretos de las variables consideradas).

Y, por el otro:

P(Ser sometido a una determinada condición).

Si estas dos probabilidades son iguales significa que valores concretos de esas variables, potencialmente contaminadoras, no están repartidos heterogéneamente entre los grupos sometidos de forma diferente a la condición que se quiere estudiar. Y si estas dos probabilidades son distintas significa que sí que hay un reparto heterogéneo y, por lo tanto, debería reconducirse la muestra que tenemos para conseguir una homogeneidad que no tenemos.

21. Veamos cómo se trabajaría con esta probabilidad condicionada. Si se ha seleccionado para un estudio la misma proporción de hombres que de mujeres y a los hombres, a todos, se les ha dado un tratamiento y a las mujeres, también a todas, un placebo. Entonces:

P(Ser sometido al tratamiento/Hombre)=1>0.5=P(Ser sometido al tratamiento).

P(Ser sometido al tratamiento/Mujer)=0<0.5=P(Ser sometido al tratamiento).

Cuando eres hombre hay mayor propensión a ser sometido al tratamiento y cuando eres mujer menor propensión.

22. Si, ahora, en el caso anterior, de nuevo con la misma proporción de hombres que de mujeres, el 90% de hombres se trataran y sólo el 10% de mujeres, ahora tendríamos:

P(Ser sometido al tratamiento/Hombre)=0.9>0.5=P(Ser sometido al tratamiento).

P(Ser sometido al tratamiento/Mujer)=0.1<0.5=P(Ser sometido al tratamiento).

De nuevo cuando eres hombre hay mayor propensión, aunque no tanta como antes, a ser sometido al tratamiento y cuando eres mujer menos propensión, aunque no tan poca como antes.

23. Sin embargo, si el 50% de hombres y mujeres fueran tratados, entonces:

P(Ser sometido al tratamiento/Hombre)=0.5=0.5=P(Ser sometido al tratamiento).

P(Ser sometido al tratamiento/Mujer)=0.5=0.5=P(Ser sometido al tratamiento).

Y ahora el ser hombre o mujer no cambia la propensión a ser sometido al tratamiento.

24. Esto último es lo que se busca. Esta es la situación a la que se pretende llegar. Para igualar las condiciones, para que ninguna variable nos confunda. Para que la comparación entre un tratamiento u otro, entre la presencia o no de un riesgo, etc., sea lo más pura posible.

25. Por lo tanto, con el Análisis de propensiones se busca que el ser sometido a una determinada condición, a un determinado riesgo, no dependa del valor de unas variables que pudieran influir en la respuesta que se quiere valorar.

26. Esta es la esencia del Análisis de propensiones, del Propensity analysis. Ahora de lo que se trata es de ver de qué formas se hace esta homogeneización, de qué formas se consigue reconducir una, muchas veces, muy amplia muestra para conseguir estar en una situación de homogeneidad. Saber todo lo que hemos visto hasta ahora nos ayudará a entender los mecanismos que tenemos para esta reconducción de la información. Porque se trata de esto, de focalizar en una parte de lo que tenemos en busca de una situación que nos permita eliminar todo aquello que nos confunda de lo que es nuestro objetivo. En realidad, siempre vamos a girar en torno a las ideas expresadas en los dos gráficos anteriores.

27. El Análisis de propensiones trata de buscar esas propensiones, si es que las hay, esas desigualdades, esas heterogeneidades con la finalidad de igualar, con la finalidad de buscar grupos homogéneos. Busca, pues, que las diferencias entre los grupos estudiados, entre los factores de riesgo estudiados se puedan atribuir a ellos y no a otros efectos.

28. Y pensemos, evidentemente, que son muchas las potenciales variables que nos pueden hacer pensar que las diferencias que vemos entre los grupos a comparar sean debidas no al factor de riesgo estudiado sino a unas distintas distribuciones de valores de estas variables entre esos grupos.

29. Por lo tanto, esta técnica, como veremos ahora, es una técnica, en realidad, multivariante, porque el problema es realmente multivariante. Cuantas más variables contemplemos en el análisis más capacidad de homogeneizar tendremos.

30. Pensemos que no porque tengamos, por ejemplo, la misma proporción de hombres y mujeres en los dos grupos a comparar, por eso debamos ya pensar que estamos ante grupos homogéneos. En realidad, la búsqueda de la homogeneidad es potencialmente infinita, siempre podríamos continuar definiendo variables a controlar. En algún punto nos debemos quedar.

31. La elección de las variables a usar en el análisis no es un problema estadístico. Debe ser una elección del experto: del médico si se trata de un estudio médico. Él debe delimitar cuáles son las variables que deben igualarse, porque, de no ser así, podrían enmascarar la interpretación final de los resultados.

32. Hay tres modalidades básicas de técnicas para realizar este Análisis de propensiones. Vamos a ver cada una de ellas.

33. La primera modalidad es el Matching, que podríamos traducir algo así como: Apareamiento. Consiste en hacer una selección entre los grupos en función del posicionamiento de los puntos en el espacio de tantas dimensiones como variables queramos contemplar en el estudio.

34. Se trata de elegir, para cada elemento de un grupo, por ejemplo, el grupo expuesto a un riesgo, otro del otro grupo, el más próximo en el espacio de las variables que estemos considerando. Este sería un sistema de elección 1:1. Si el grupo de los no expuestos al riesgo es bastante más grande que el de los expuestos se puede elegir por cada uno de los expuestos un determinado número de no expuestos. Por ejemplo, en una relación 1:4, u otra combinación.

35. Por eso es un Matching, un apareamiento, porque se trata de elegir en la muestra en base a proximidades, se trata de aparear. Las formas de cómo establecer esas proximidades pueden ser muchas. En realidad, si repasamos el tema dedicado al Análisis clúster podemos ver que se hablaba de diferentes distancias entre puntos. La distancia de Mahalanobis, vista y comentada allí, es muy usada en este contexto.

36. Sigamos el criterio de distancia que sigamos, la idea básica del Matching es para cada valor del grupo más pequeño elegir un número determinado del grupo más grande y elegir siempre los más próximos. Veamos que en el gráfico siguiente, para cada uno del grupo de los expuestos (en azul) elegimos cuatro de los no expuestos (en rojo), por lo tanto estamos hablando de una relación 1:4.

IMG_5189

37. Observemos que serán los individuos enmarcados los que se extraerán y constituirán los elementos de los dos grupos a comparar finalmente con las variables resultado a estudiar. Serán dos grupos homogéneos para las variables consideradas. En este caso estamos dibujando el ejemplo con dos variables, pero hay que pensar que esto se hará con muchas más variables.

38. Observemos en la siguiente tabla extraída de un estudio donde se analizaba, en un estudio observacional, enfermos de cáncer que tomaban estatinas y enfermos que no las tomaban. Se quería analizar el efecto de la exposición, a este tipo de fármaco, sobre el tiempo de vida de esos pacientes. Observemos cómo a la izquierda tenemos los valores totales y a la izquierda los valores después de hacer un Matching:

IMG_5190

39. Puede observarse que no todos los tratados con estatinas son seleccionados finalmente y mucho menos todos los controles. Se ha seguido un sistema 1:3, por cada sometido a estatinas tres no sometidos a ellas.

40. Muchas veces se eliminan individuos del grupo de expuestos por no tener ningún individuo del grupo control lo suficientemente cerca. Puede establecerse una distancia mínima para ser incluido, etc.

41. El Matching viene a ser, pues, en estos términos, visto como un elegir individuos, de ambos grupos, con las mismas posiciones en el espacio de muchas variables. Esto evita que un tipo de individuos dentro de ese espacio tenga más propensión que otro a ser incluido en un grupo u otro de los que se pretende comparar.

42. Como puede observarse es una forma de reordenar la información que se tiene, las muestras que se tienen, con la finalidad de crear grupos homogéneos, grupos con el mismo repertorio de valores de esas variables que podrían influir en las variables resultado, para poder focalizar, así, en el factor que se quiere estudiar, en el efecto del factor de riesgo estudiado.

43. La segunda modalidad de Propensity score es la Estratificación. Consiste en focalizar en el conjunto global de individuos de los grupos a comparar, respecto a las variables que se pretende homogeneizar, y crear subconjuntos en cada uno de los grupos (expuestos o no expuestos al factor de riesgo estudiado) que sean homogéneos entre sí. A estos grupos homogéneos les llamamos estratos. Al final acabamos mezclando estos estratos y dejando fuera a los que no encajen en esos estratos.

44. Mediante un Análisis clúster (Ver el tema 19: Análisis clúster) se pueden construir esos estratos. Se trata de elegir estratos generados a través del dendrograma, estratos homogéneos que tengan representantes de los dos grupos que queramos comparar y que tendrán, al estar cerca en el dendrograma, propensiones similares.

45. La tercera modalidad de Propensity score es la Regresión logística. Consiste en hacer una Regresión logística con la siguiente variable dicotómica: ser del grupo de riesgo o del grupo control y como variables independientes se toma las variables que se pretende igualar. Y se trata, entonces, de ver cómo se comportan los coeficientes de esa Regresión. Se trata de ver si esos coeficientes son o no estadísticamente significativos.

46. Se trata de buscar, mediante este mecanismo, submuestras de la muestra para los que los coeficientes de esas variables independientes, en la Regresión, sean no estadísticamente significativos, lo que implicará que estamos ante grupos homogéneos. Si se trata de dos grupos homogéneos significa que los dos grupos de individuos están en hiperplanos paralelos con valores solapados paralelamente.

47. Recordemos (Ver el tema 11: Regresión logística) que en una Regresión logística podemos imaginar cómo están distribuidos los puntos en los dos planos en situaciones distintas posibles y visualizar cómo son los coeficientes del modelo de Regresión. Dos planos porque la respuesta es dicotómica. En nuestro caso: expuestos o no al riesgo estudiado, si es que se trata de un estudio observacional.

48. Recordemos el modelo de Regresión logística en dos variables. Evidentemente el número de variables que nos interesarán en un Análisis de propensiones será mucho mayor, pero planteo la situación con dos variables para poder visualizar cómo son las cosas:

IMG_3945

49. Este modelo con dos variables independientes nos proporciona, según sean los valores de estos coeficientes, los siguientes dibujos en el gráfico ya visto y comentado en el tema dedicado a la Regresión logística:

IMG_4401

50. La situación que se busca es la situación de arriba y a la izquierda. Si los puntos están en paralelo significa que estamos ante grupos homogéneos. Y los coeficientes serán los dos cero, o no estadísticamente distintos de cero.

51. Si algún o algunos coeficientes son significativamente distintos de cero, los valores no están en paralelo, como ocurre en nuestro dibujo en los otros tres casos. El repertorio de coeficientes significativos nos ayudarán a ver cuál o cuáles son las variables que nos están rompiendo la homogeneidad en el reparto de ambos grupos. Por lo tanto, los coeficientes nos ayudarán a diagnosticar dónde se produce la pérdida de homogeneidad. Y, por lo tanto, a partir de esta información se podrá producir una mejor selección de individuos.

52. La Regresión logística nos puede servir, como he comentado en el apartado anterior, para retocar los grupos, basándonos en la información de las variables que rompen la homogeneidad, y comprobar, sucesivamente, si hemos elegido bien y así, secuencialmente, llegar a generar grupos homogéneos. Sin embargo, la Regresión logística suele usarse, más frecuentemente, de otra forma.

53. Este otro uso más frecuente de la Regresión logística en Análisis de propensiones es el siguiente: se trata de asignar, mediante la Regresión, un valor, un score, un Propensity score. Este Propensity score, como ya hemos definido antes, es la probabilidad de ser asignado a un grupo en función de unos valores concretos de unas variables independientes. Una vez se tienen estos scores para todos los individuos de un grupo y del otro que se quieren comparar, se procede a hacer un Matching, como hemos visto antes, mediante la elección de individuos de ambos grupos con scores similares.

54. Voy a intentar explicar, mediante unos dibujos, esto que estoy comentando. Supongamos que en el dibujo siguiente en el eje simbolizado con una “x” contemplamos un conjunto amplio de variables independientes. Al hacer una Regresión logística lo que construimos es una función que se mueve entre 0 y 1. Si se mueve como el siguiente gráfico estamos ante variables independientes que generan grupos homogéneos. Los Propensity scores de los diferentes individuos son todos iguales prácticamente. Tendríamos que todos los individuos tienen el mismo valor, por esto se vería esta función constante:

IMG_5232

55. En cambio, en el gráfico siguiente tenemos que hay una clara diferencia de Propensity scores según el individuo:

IMG_5234

55. En una situación como ésta, que es la que suele darse al analizar estudios observacionales, para solventar el problema lo que se hace es hacer un Matching: un apareamiento de individuos de los dos grupos con valores iguales en esta curva. Es una forma de igualar, de homogeneizar.

56. Veámoslo con unos datos posibles. Supongamos que tenemos en un estudio una serie de individuos que pertenecen al grupo en contacto con un factor de riesgo (los que están sobre la línea del 1) y los que no han estado en contacto con ese factor de riesgo (los individuos que están sobre la línea del 0):

IMG_5243

57. Los individuos, tanto los del grupo de riesgo como los del grupo que no ha estado en contacto con el factor de riesgo estudiado, están más a la izquierda o más a la derecha respecto a los valores de x según sea el valor de las variables independientes. Si suponemos que sólo estamos contemplando una variable independiente, por ejemplo: la edad, estaríamos ante una situación en la que los del grupo en contacto con el riesgo son mayores y los del grupo que no ha estado en contacto con el riesgo son más jóvenes.

58. Pues bien, al aplicar una Regresión logística donde la variable dependiente, expresada como 0 y 1, según el individuo no haya estado en contacto con el factor de riesgo o sí, obtenemos una curva de este tipo. El valor que cada individuo tiene en esta curva es el llamado Índice de propensión (Propensity score). Agrupar, entonces, por índice de propensión sería reestructurar el estudio únicamente con individuos emparejados (en una relación 1:1 ó con cualquier otra, como hemos visto al plantear el Matching). En el caso anterior elegiríamos las parejas marcada por las flechas:

IMG_5244

59. Reducimos el tamaño de la muestra final pero conseguimos tener grupos homogéneos respecto a la variables independientes de interés. Observemos que si la variable independiente x contemplada fuera únicamente la variable edad acabaríamos teniendo los dos grupos (los que han estado en contacto con el factor de riesgo y los que no lo han estado) sin diferencias en cuanto a la variable edad. Por lo tanto, la variable edad no nos podría estar confundiendo en cuanto a cómo el contacto con el factor de riesgo influye en las variables resultado, en los Outcome events estudiados.