Archivos Mensuales: abril 2013

Tema 26: ANÁLISIS ESTADÍSTICO DE VARIABLES CONFUSORAS

1. En diferentes temas de este curso hemos tratado de la relación entre variables. La Estadística ha creado diferentes mecanismos para detectar (ver si la hay o no, significativamente) y cuantificar la relación entre variables. También hemos visto diferentes técnicas de comparación entre poblaciones. Técnicas que tratan de valorar si las diferencias de medias, de porcentajes o de otro valor, que vemos entre muestras son estadísticamente significativas; o sea generalizables a las poblaciones que estamos comparando.

2. Cuando se valora la relación entre dos variables, sean las dos cuantitativas, cualitativas las dos o cualitativa una y cuantitativa la otra, nos podemos encontrar que la relación que estemos detectando sea confundida por una tercera variable. O por varias terceras variables. Lo mismo sucede en una comparación entre poblaciones: puede ser que las diferencias que veamos o que no veamos sean atribuibles al efecto producido por terceras variables.

3. El ejemplo típico que se plantea para ejemplificar esta situación es el siguiente: si se relaciona o compara la mortalidad anual en Florida y Boston, hay más mortalidad, significativa, en Florida. ¿Significa esto que en Florida la gente se muere más? Pues, no, significa que tenemos una variable confusora. Una variable que nos confunde, que hace que veamos una relación que, en realidad, no existe. Sucede que en Florida la edad media es mucho mayor porque mucha gente en EEUU al jubilarse se va a vivir allí y, por lo tanto, es lógico que esa zona acabará teniendo más mortalidad anual superior a otras zonas, como sucede con Boston.

4. En este tema vamos a abordar mecanismos de detección de esas variables confusoras y mecanismos de evitación la influencia de esas variables. Veremos, también, mecanismos que controlan esa confusión al mismo tiempo que la detectan.

5. Una evidencia es que en la naturaleza las variables van juntas. Las variables se relacionan, interfieren unas a otras, se influyen mutuamente. Lo cierto es que el análisis de la relación entre variables es mucho más complejo de lo que parecería a primera vista. A veces detectamos una relación entre dos variables que debería ser atribuible, en realidad, a una tercera variable y a veces, también, no vemos una relación por culpa de una tercera variable que nos está interfiriendo y confundiendo.

6. El Test estadístico más usado para comprobar la posible confusión que puede generar una tercera variable en la relación entre dos variables cualitativas es el Test de Cochran-Mantel-Haenszel.

7. El Test de Cochran-Mantel-Haenszel es un contraste de hipótesis para evaluar la igualdad de Odds ratio entre k tablas de contingencia 2×2. Es una forma de evaluar la posible influencia que pueda tener, sobre la relación entre esas variables cualitativas dicotómicas, una tercera variable también cualitativa con k valores posibles. El Test consiste en ir calculando las Odds ratio de las dos variables originales en tantas tablas de contingencias como valores diferentes tengamos de la tercera variable que pretendemos evaludar si es o no confusora.

8. En este Test si se mantiene la Hipótesis nula que afirma que las Odds ratio son iguales en todas las tablas de contingencias desplegadas, la tercera variable no será contemplada como confusora; si, por el contrario, se rechaza la Hipótesis nula y se acepta la Hipótesis alternativa, significa que esa tercera variable, a través de la cual hemos construido las diferentes tablas de contingencias, está influyendo en la relación entre las dos primeras variables. Es, pues, una variable confusora. Es un Test, por lo tanto, importante, que conviene aplicar cuando se quiere detectar variables confusoras a ese nivel de estudios.

9. El Análisis de propensiones (Propensity score analysis) es una importante técnica estadística para evitar la confusión de variables. En el tema dedicado a esa técnica podemos ver cómo se trata de una técnica que trata de evitar la confusión a través de igualar los individuos a comparar.

10. El Análisis de propensiones es especialmente usado cuando lo que se pretende es comparar grupos en estudios observacionales, estudios donde, por sus peculiaridades en el procedimiento de toma de muestras, es muy frecuente encontrarse con perfiles muy distintos entre los individuos de los grupos a comparar.

11. En estas situaciones muchas de las diferencias estadísticamente significativas que veamos entre los grupos son atribuibles a variables confusoras más que a los elementos característicos que delimitan los grupos a comparar. Por ejemplo, supongamos que queremos comparar la respuesta a dos tipos de cirugía y se ha hecho mediante un estudio observacional, no mediante un estudio randomizado. Muy posiblemente las edades medias, la proporción de sexos, la asociación con ciertas comorbilidades serán muy distintas entre los dos grupos. Y no sabemos si las diferencias que vemos son atribuibles a las dos cirugías o a la presencia en ambos grupos de individuos bien distintos en cuanto a diferentes variables.

12. El Análisis de propensiones, el Propensity score analysis, trata de evitar esto mediante un original mecanismo de reestructuración de los grupos, que se puede ver explicado con detalle en el Tema dedicado a ello: Tema 24: Análisis de propensiones (Propensity score analysis).

13. Es obligatorio hablar del la Regresión logística al abordar el tema de las variables confusoras. La Regresión logística es una técnica para detectar relaciones entre una variable dependiente dicotómica y una o variables variables independientes, pero la Regresión logística en sí, también, como veremos ahora, un mecanismo de control de la confusión. El hecho de introducir diferentes variables en el modelo supone, como veremos a continuación, un control de la confusión. Veámoslo con un ejemplo con valores ficticios.

14. Planteemos la situación del ejemplo clásico de confusión que planteábamos al comienzo de este tema. Supongamos que hemos aplicado una Regresión logística comparando la mortalidad (variable dependiente) con vivir en Florida y en Boston (variable independiente) y tenemos una Odds ratio, por ejemplo, de 3, significativa, indicando que existe una relación significativa entre la mortalidad y la zona donde se vive; o sea, que hay más posibilidades de morir en Florida que en Boston. Diríamos, entonces, que vivir en Florida es un factor de riesgo.

15. Pero supongamos ahora que analizamos las edades de la gente que vive en Florida y en Boston y, supongamos, que tenemos la siguiente distribución de edades:

IMG_5502

16. Observemos que en Florida hay más gente mayor que en Boston, relativamente. La distribución de edades es distinta.

17. Si hacemos ahora una Regresión logística entre mueren o no mueren durante, por ejemplo, un año, en esta muestra elegida, los datos que podríamos tener serían los siguientes:

IMG_5503

18. Observemos que ahora no sólo compararemos los que mueren o no respecto a ser de Florida o de Boston, cosa que nos daba antes una relación significativa a favor de morir en Florida. Ahora esta relación la hacemos introduciendo en el modelo de Regresión logística una tercera variable, la variable edad. Las cosas ahora cambian. Ahora la Regresión calculará dos curvas de probabilidad de morir, y lo interesante es que ahora esas curvas de de probabilidad de morir serán similares. Veámoslo:

IMG_5505

19. Observemos que son curvas muy similares. Porque ahora lo que se valora no es cuántos mueren o no en Florida y Boston, sino cuántos mueren en esas dos zonas pero en función de la edad. La probabilidad de morir ahora se estima relativizando respecto a la edad, y respecto a la edad las probabilidades de morir son las mismas, vivas en Florida o vivas en Boston. Tenemos en ambos casos la misma curva:

IMG_5506

20. Esta es la curva que nos construiría tanto para Florida como para Boston el modelo de Regresión logística. He preparado un ejemplo numérico donde se refleja esta realidad y vamos a ver a continuación la salida de ordenador que da un software estadístico, con la opción de Regresión logística, para las curvas de probabilidad de morir Boston y de Florida, según la edad. Son las siguientes:

IMG_5501

21. Como puede apreciarse se trata de dos curvas muy similares. No son distintas significativamente. Ahora la Odds ratio entre la variable dicotómica muere o no muere y zona (Florida o Boston) no es distinta significativamente de 1, lo que significa que no hay relación. Y es 1 y no 3, como lo era antes, por la entrada de la edad en el modelo, en la Regresión logística. Antes el 3 era consecuencia de la variable confusora edad; ahora, al entrar la edad en el modelo de Regresión logística hemos controlado esa confusión.

22. Es muy importante entender bien esto. Observemos que, ahora, al entrar la edad se evita que ella actúe como confusora. Por lo tanto, la Regresión logística múltiple, con variables independientes, consigue que las variables que entran en el modelo sean eliminadas como variables confusoras. Tenemos, pues, así, que la Regresión logística nos permite establecer relaciones entre una variable dependiente dicotómica y diversas variables independientes controlando la confusión entre ellas.

Tema 25: ANÁLISIS DE SERIES TEMPORALES

1. El Análisis de series temporales es el estudio estadístico de muestras de variables recogidas secuencialmente a lo largo del tiempo.

2. Obviamente el material básico de este Análisis es un serie temporal. Una posible muestra de una serie temporal podría ser la siguiente:

IMG_5269

3. Un concepto básico a tener en cuenta al introducirse en el Análisis de series temporales es que se trata de muestras con valores dependientes, no independientes. Generalmente cuando tenemos una muestra tenemos n valores independientes obtenidos en una población. Ahora no sucede esto. Ahora tenemos un tipo de muestra distinto. Tenemos una muestra donde cada valor sucesivo depende de valores anteriores. Este es un elemento distintivo que estará presente evidentemente en todo nuestro recorrido por este tipo de técnicas estadíticas.

4. Como sucede con toda muestra los objetivos básicos serán, en primer lugar, describir lo que tenemos y, en segundo lugar, hacer inferencias; o sea, ir más allá de la muestra concreta que tenemos, de la serie temporal, para hacer predicciones. También, en este ámbitos, se crean modelos matemáticos que dibujen esa relación de una variable con el tiempo. Relacionar esa serie temporal con otras y establecer, así, dependencias, influencias, etc, también será un objetivo del Análisis de series temporales.

5. Hay tres elementos básicos a tener en cuenta, en primer lugar, a la hora de abordar una serie temporal: la tendencia, la estacionariedad y la aleatoriedad. Podemos decir, de hecho, que el valor de variable a estudiar a lo largo del tiempo es una función de estos tres elementos. Escrito quedaría así:

IMG_5270

6. La variable X simboliza la variable que estamos estudiando a lo largo del tiempo (el valor de un activo en la Bolsa, el número de neumonías diagnosticadas en urgencias, el número de muertos en las carreteras, etc.), la T simboliza la tendencia, la E la estacionariedad y la A la aleatoriedad. Todas ellas se expresan con el subíndice t porque en series temporales todo es temporal. De hecho, el tiempo siempre ocupa el eje de las abscisas, como hemos visto antes.

7. La Tendencia mide si temporalmente los valores tienen una direccionalidad hacia arriba o hacia abajo. En definitiva, capta una pendiente general de los valores. Una pendiente que puede ser positiva, si es de subida, o negativa, si es de bajada.

8. La Estacionariedad mide la presencia de ciclos, de subidas y bajadas realizas con una determinada regularidad.

9. La Aleatoriedad mide desvíos respecto de estos dos elementos vistos anteriormente, pequeños alejamientos de la tendencia o de la estacionariedad que se atribuirán a elementos no controlados en el modelo, a elementos incluso idiosincráticos, propios del individuo o los individuos evaluados en aquel momento.

10. Veamos en el siguiente gráfico ocho situaciones posibles, ocho series temporales distintas, para ver qué significa cada uno de estos elementos:

IMG_5271

11. Supongo que se van viendo en cada una de estas series dibujadas el papel de cada uno de estos tres conceptos anunciados antes. Pero lo resumo a continuación:

En A: No hay ni T, ni E, ni A.

En B: Sólo hay T. No hay ni E ni A.

En C: Sólo hay E. No hay ni T ni A.

En D: Hay T y E. No parece haber A.

En E: Sólo hay A. No hay T ni parece haber E.

En F: Hay T y A. No parece haber E.

En G: Hay E y A. No hay T.

En H: Hay T, E y A.

12. La Tendencia de una serie se podrá evaluar mediante una Regresión lineal simple, a través del modelo: X=at+b, donde “a” es la pendiente de la recta y “b” la llamada “ordenada en el origen”. Ver el artículo dedicado a la Regresión lineal simple. Se trata, pues, de ver si, en su conjunto, entre los datos de la variable X estudiada y los valores temporales se podría ajustar una recta de regresión significativa. Evidentemente, esa Regresión lineal no nos servirá para crear una modelo general de la serie temporal pero sí para detectar y caracterizar una tendencia.

13. La Tendencia evidentemente no siempre será lineal. Por lo tanto, en ocasiones, hará falta adaptar una función no lineal para detectar una tendencia, por ejemplo, exponencial, logarítmica, etc.

14. La Estacionariedad se evalúa mediante el llamado Correlograma. El correlograma consiste en un cálculo de correlaciones entre la misma muestra pero con diferentes desfases temporales. Es un original método de captar estacionariedad. Por ejemplo, si en datos mensuales se detecta una importante correlación entre los valores de cada mes con los del año siguiente hablaremos de una estacionariedad anual o de cada 12 meses.

15. A partir de toda esta información se trata de ajustar un modelo matemático, a los datos muestrales que tengamos de una serie temporal. Existen distintos modelos. Me centraré en comentar brevemente cuatro tipos que son los más importantes: AR, MA, ARMA y ARIMA. Se trata de modelos que no son independientes. Son mecanos hechos de piezas que se van reuniendo para explicar situaciones progresivamente más complejas.

15. Modelos AR: Son modelos donde el valor de la variable X se puede poner en función de valores de la misma X pero anteriores en la serie. Escrito sería lo siguiente:

IMG_5443

16. Suele escribirse AR(p) para simbolizar el número de valores anteriores de la variable estudiada X que en la serie influyen a un momento temporal concreto. Observemos que estamos escribiento el valor de la variable X en un momento temporal t como función de los valores de los p valores temporales anteriores de X, ya dados, por lo tanto. Y también, como función de un valor que denominamos épsilon y que es el residuo, aquel elemento que no controlamos y que nos desvía el valor del valor esperado.

17. Modelos MA: Son modelos donde el valor de la variable X se puede poner en función no de valores anteriores de la variable X sino de los errores introducidos y descontrolados que se suelen simbolizar en estadística con el símbolo epsilon. Escrito sería así:

IMG_5444

18. Suele escribirse MA(q) para simbolizar el número de errores anteriores que en la serie influyen en el valor que tenemos de la variable X en un momento determinado. Observemos que ahora estamos escribiento el valor de la variable X en un momento temporal t como función de los valores de los p errores, o residuos, temporales anteriores, valores ya dados, por lo tanto. Y también, por supuesto, como función de un valor de error, de residuo, nuevo, el del nuevo tiempor t.

19. Modelos ARMA: Son modelos donde conviene juntar un modelo AR con un modelo MA. Escrito sería así:

IMG_5445

20. Suele escribirse ARMA(p, q) para simbolizar el número de valores anteriores de la variable X y el número de errores anteriores que en la serie influyen en el valor que tenemos de la variable X en una etapa temporal concreta. Observemos que es un híbrido de los dos modelos anteriores.

21. Modelos ARIMA: Son modelos no estacionarios, que tienen una tendencia y que conviene explicar esa tendencia. Son la fusión de un modelo ARMA con una modelización de la tendencia a través de un proceso de diferenciación. Escrito sería así:

IMG_5446

22. Suele escribirse ARIMA(p, d, q) para simbolizar el modelo ARMA(p, q) empleado y el grado de diferenciación empleado para volver estacionario un proceso que no lo es.

23. Observemos que estos modelos que he ido describiendo progresivamente iban incorporando a los anteriores. Por lo tanto, un modelo ARIMA reúne a todos los anteriores. Así, un ARIMA(1, 0, 0) es un AR(1) y un ARIMA(1, 0, 1) es un ARMA(1, 1), etc. Esta modelización ha quedado, pues, así, elegante desde el punto de vista matemático. Un signo de elegancia matemática es encontrar formas unificadas de integrar elementos que anteriormente estaban dispersos.

24. Actualmente los software estadísticos ante una muestra concreta proponen el modelo ARIMA(p, d, q) más ajustado a esos datos. Estima los parámetros y, por lo tanto, proporciona elementos para el pronóstico a corto y medio plazo.

25. Por lo tanto, ante una serie concreta nos podemos encontrar que el modelo que mejor se ajusta a esos datos es un ARIMA(1, 1, 1), por ejemplo.

26. Los software que incorporan un módulo de series temporales suelen tener la posibilidad de ajustar el mejor modelo de serie temporal ARIMA(p, d, q) a una muestra seriada.

27. Vamos a ver, a continuación, muy intuitivamente, ante una serie temporal qué características van asociadas con diferentes valores de p, d y q en el modelo ARIMA más ajustado.

28. La parte AR valora qué influencia tienen los estadios temporales anteriores en un momento temporal concreto. El valor de p del modelo indica el número de etapas temporales anteriores que influyen en el presente. Cuanto más grande sea el valor de p más etapas del pasado influyen en los valores del futuro.

29. La parte MA valora la influencia que tienen errores anteriores, residuos anteriores, en el valor presente. El valor de q indica cuántos errores anteriores influyen en el presente.

30. La parte I del modelo ARIMA, el valor d, indica de alguna forma la tendencia que hay en el modelo. Representa las veces que hace falta derivar para conseguir eliminar esa tendencia. Irá en función de la inclinación de la tendencia.

31. Un tema también interesante en series temporales es ver la conexión que pueda haber entre diferentes series. En definitiva, ver si una variable influye a otra pero con un desfase temporal. El procedimiento principal para detectar estadísticamente este tipo de relaciones es el llamado correlograma con retardos. Se trata de dijar una variable fija y la otra irla retardando etapa temporal a etapa temporal e ir calculando la correlación entre ambas series retardo a retardo. De esta forma vemos si hay alguna relación estadística significativa entre esas series y si la hay cuál es el retardo temporal en el que se produce.

Test de Wald

El Test de Wald es un contraste de hipótesis donde se trata de ver la coherencia de afirmar un valor concreto de un parámetro de un modelo probabilístico una vez tenemos ya un modelo previamente seleccionado y ajustado.

Se trata de un Test generalista, aplicable en muchos ámbitos. Esta es su característica principal.

Se aplica siempre tras elegir un modelo (una distribución cualquiera, una regresión simple, una regresión logística, etc) y a continuación se hace algún contraste de hipótesis sobre uno o varios parámetros: Por ejemplo, la media de la normal es 5, la pendiente de la recta es 0, el coeficiente principal de una regresión logística es 0, etc.

La fórmula del contraste es muy sencilla:

IMG_5500

En realidad, si se mira con detalle se observa que no deja de ser un valorar la distancia entre Observado y Esperado. Esta idea de distancia entre Observado y Esperado es nuclear en Estadística. Siempre en un contraste de hipótesis estamos valorando si lo que vemos es o no muy distante de lo que esperamos, en el caso de ser cierta la hipótesis nula.

Es un contraste que se usa mucho en la mayor parte de softwares.

Suele usarse especialmente para contrastar si es cero o no un determinado coeficiente que multiplica a una variable independiente en una regresión. Si el p-valor, como siempre, es menor que 0.05, se rechaza esa hipótesis nula que afirma que ese coeficiente es cero, y se entiende entonces que ese coeficiente no es cero y que, por lo tanto, el modelo es útil para representar una determinada relación. Si, por el contrario, el p-valor es mayor que 0.05 eso significa que el valor del coeficiente podría ser perfectamente cero y estar viendo lo que vemos, por lo tanto, esa variable no influye a la hora de determinar la variable dependiente (o también denominada, a veces, variable respuesta) del modelo de regresión.

Ejemplo de inferencia de dos muestras relacionadas

Se ha realizado un estudio para ver el efecto del ejercicio físico sobre el nivel de colesterol en sangre. Han participado 11 individuos en el estudio. Se analizó el nivel de colesterol de cada uno de ellos antes y después de ser sometidos, durante un tiempo, a un reglado proceso de ejercicios físicos.

Los datos obtenidos antes y después han sido los siguientes:

1 182 198

2 232 210

3 191 194

4 200 220

5 148 138

6 249 220

7 276 219

8 213 161

9 241 210

10 480 313

11 262 226

¿Podemos aceptar, con un nivel de significación del 5%, que el programa de ejercicios ha conseguido disminuir el nivel de colesterol?

Solución:

IMG_5439

IMG_5440

Ejemplo de inferencia en dos muestras independientes

Se ha medido el pH del cordón umbilical de 22 recién nacidos de mujeres normales y de mujeres con preeclampsia, obteniéndose los siguientes valores:

Recién nacios de mujeres normales:

7.28 7.31 7.34 7.34 7.32 7.23 7.31 7.32 7.29 7.35 7.32 7.34 7.35 7.26 7.18 7.34 7.27 7.34 7.29 7.26 7.32 7.26

Recién nacidos de mujeres con preeclampsia:

7.26 7.27 7.27 7.35 7.29 7.28 7.31 7.29 7.34 7.21 7.39 7.28 7.30 7.24 7.20 7.28 7.30 7.35 7.31 7.32 7.37 7.26

Con un nivel de significación del 0.05, ¿existe diferencia significativa entre el pH de los recién nacidos de las dos poblaciones de mujeres?

Solución:

IMG_5434

IMG_5442

Ejemplo de inferencia en una población

Veamos en el siguiente ejemplo un problema donde se ve al mismo tiempo la construcción de un intervalo de confianza, el contraste de hipótesis y la determinación del tamaño de muestra:

Las autoridades sanitarias fijan la cantidad de 14 UFP/100mL (UFP = unidades formadoras de placas) como la concentración máxima de un determinado virus entérico en aguas residuales de cualquier punto del estado. Se realiza un control en aguas depuradas de 10 granjas que generan purines.  La variable cantidad de UFP/100mL por granja supongamos que se ajusta bien a una distribución Normal. Por otro lado, las granjas están suficientemente alejadas para asumir que los resultados individuales son mutuamente independientes.

La muestra de valores obtenidos ha sido:

(14.3, 15.3, 13.8, 15.4, 15.5, 14.6, 13.9, 15.0, 14.6, 13.8)

1. Calcular un intervalo de confianza del 95% de la concentración media del virus en las aguas que vierten a las granjas.

2. Interpretar el resultado en función del valor fijado por la administración.

3. Con un nivel de significación α = 0.05, ¿se puede aceptar que la concentración del virus supera las 14 UFP/100mL?

4. Con un nivel de significación α = 0.05, ¿se puede aceptar que la desviación estándar de la concentración del virus es de 0.7?

5. ¿Cuáles son los cambios en las diferentes cantidades que intervienen en el problema (media y desviación estándar muestral, estadístico de test, p-valor) si se mide la concentración en litros en lugar de 100ml?

6. Si la muestra se interpreta como un ensayo piloto, qué tamaño de muestra sería necesario para garantizar un nivel de significación del 5%, una potencia del 90% y una diferencia mínima significativa respecto de la media (o una diferencia mínima a detectar) de 0.5 unidades?.

Veamos ahora la solución paso a paso:

IMG_5425

IMG_5426

IMG_5821

Para calcular el tamaño de muestra utilizamos la fórmula expuesta en el tema de dedicado a la Determinación del tamaño de muestra.

Observemos que la determinación de este tamaño de muestra está hecho como si fuera el test bilateral. Si el test es unilateral, que es como parece que debe plantearse este problema, en realidad, la solución sería la siguiente:

IMG_8917

Es interesante ver la comparación entre estos dos procedimientos para ver cómo se aplicaría la fórmula para un test bilateral y para un test unilateral.