Archivo de la categoría: ESTADÍSTICA Y MEDICINA

Ensayos clínicos aleatorizados basados en registros

Es bien sabido y aceptado que los ensayos clínicos de mayor nivel de evidencia son los aleatorizados. El azar acaba generando dos grupos homogéneos gracias a uno de lo teoremas matemáticos más importantes (la Ley de los grandes números). La finalidad de este procedimiento es que no existan variables confusoras (ver el Tema 26: Análisis estadístico de variables confusoras); o sea, de variables que puedan explicar parcialmente los resultados obtenidos y que, por lo tanto, cuestionen si los efectos observados sean atribuibles al tratamiento ensayado.

En los últimos años ha impactado en la literatura médica una nueva variante de estos ensayos: los llamados ensayos aleatorizados basados en registros (Randomized Registry Trials).

Voy a explicar brevemente qué variante aporta esta nueva metodología.

En un ensayo aleatorizado se especifican unos criterios de inclusión y un mecanismo de aleatorización digamos que a ciegas. Sin una base de datos viva que vaya estableciendo un mecanismo de asignación que no sea el puro azar. Algo muy importante es que los criterios de inclusión suelen ser bastante restrictivos, lo que lleva a unos grupos que se suelen alejar bastante de la realidad.

En un ensayo aleatorizado basado en un registro esta aleatorización puede hacerse de una forma más inteligente. Potencialmente el azar se puede controlar para que sea más azar. Esta afirmación aparentemente es contradictoria. Pero no olvidemos una famosa frase de Einstein: “Dios no juega a los dados”. Dios nos podría proporcionar una muestra perfectamente representativa en todo momento porque él lo sabe todo. Por lo tanto, cuanto más conocemos una realidad más capaces somos de conseguir muestras representativas de esa realidad. Esa idea es clave para entender esta variante de los ensayos aleatorizados. En esta variante toda la información se computa “on line” y esto facilita mucho las cosas, permite aumentar el tamaño de muestra y, eso mismo, permite trabajar con criterios de inclusión menos estrictos lo que hace que el experimento se aproxime más a la realidad, permite controlar más el proceso de asignación, permite digamos un “mejor azar” porque sabemos más y eso nos permite restringir menos los criterios de inclusión.

Es interesante, a la hora de valorar lo que aporta esta nueva metodología, compararla con lo que aporta el Análisis de propensiones (Propensity Score Analysis) a los estudios observacionales y, además, verlo gráficamente:

IMG_2213

Observemos a la izquierda una poblaciones de pacientes sin ninguna diferenciación que lo representamos como punto de partida. A continuación vemos una bifurcación. Un camino va hacia los estudios observacionales y otro hacia los ensayos aleatorizados.

En los estudios observacionales separamos dos grupos de pacientes según un resultado o según un tratamiento distinto pero que es el resultado no de un ensayo, no de un experimento. Esto nos lleva, como ya vimos en el Tema 24: Análisis de propensiones, a una situación habitual de dos grupos de muy distinto tamaño y no homogéneos. Es lo que suele suceder con los estudios de casos y controles. A continuación vemos una mejora de la calidad de estos estudios, mediante este Análisis de propensiones, que nos lleva a una situación que suele denominarse de cuasiensayo aleatorio (cuasirandomizado). Observemos que el esquema de arriba a la derecha es similar al de abajo a la izquierda.

En los ensayos aleatorizados realizamos mediante el azar una homogeneización de los dos grupos a comparar. Sin embargo, los tamaños no suelen ser enormes. Para conseguir poder decir cosas, ver diferencias significativas, con tamaños de muestra no muy grandes, teniendo en cuenta que las diferencias entre los tratamientos no son enormes, debemos conseguir poca dispersión dentro de ambos grupos. Esto genera la necesidad de unos criterios de inclusión bastante exigentes que permitan mucha igualdad en la respuesta. Por eso el dibujo muestra dos grupos un tanto alejados de la globalidad. Esta es la crítica más habitual que reciben los ensayos aleatorizados: que los pacientes no son un reflejo de la realidad, que hay bastante distancia entre lo experimentado y la realidad clínica del día a día. Que se trabaja (exagerando bastante) casi con cobayas.

La flecha que a través de los ensayos aleatorizados basados en registros nos lleva al gráfico de la derecha y de abajo nos permite visualizar una situación mejorada. Como podemos ver, se mantiene la homogeneidad de ambos grupos (los puntos de ambos colores están muy cercanos) y al mismo tiempo conseguimos establecer dos grupos a comparar mucho más cercanos a la realidad que tenemos. Se trabaja, así, con pacientes más próximos a la realidad clínica del día a día. Esto se logra con unos criterios de selección menos rígidos que pueden actuar gracias a que al informatizar la recogida de datos y el proceso de aleatorización conseguimos muchos más consentimientos; o sea, tamaños de muestra mucho más grandes. Además, el control del azar posible que hemos comentado antes nos permite una mayor homogeneización a pesar de la ampliación de esos criterios de inclusión.

Conseguimos llegar, así, a una situación experimental mejor. Esto tiene sus problemas, también. Una es que se necesita trabajar en ámbitos con una informatización global de mucha calidad. Y otra crítica habitual es que el elevar los criterios de inclusión mezcla situaciones muy diversas sin precisar si las cosas serían diferentes según los estratos considerados.

Anuncios

La Endocarditis infecciosa y su profilaxis: Una mirada desde la Estadística

La Endocarditis infecciosa es una infección, habitualmente bacteriana, del endocardio (el tejido interno del corazón), especialmente a nivel de las válvulas cardíacas. Esta enfermedad ha tenido tres momentos completamente distintos en cuanto a su pronóstico: Hasta la aparición, entre los años 30 y 40 del siglo XX, de los primeros fármacos antimicrobianos la enfermedad era prácticamente mortal en el 100% de casos. A partir de aquel momento se apreció el primer salto hacia un cierto control de esa enfermedad. Hacia los años 70 se produjo un nuevo salto: la cirugía valvular. Desde entonces se ha estabilizado la situación y, aunque el perfil de tipos de endocarditis ha cambiado en los últimos años, se mantiene un nivel de mortalidad intrahospitalaria del 20-25% y de una mortalidad al año del 30-35%.

El International Collaboration on Endocarditis (ICE) publicó el año 2009 un importante artículo que mostraba cuál era la situación actual, a nivel mundial, de esta infección. El abstract de ese artículo es el siguiente:

IMG_0718

Los valores de variables basales de los pacientes de esa cohorte, en el total y distribuidos según distintas zonas en el mundo, son los siguientes:

IMG_0699

Los principales signos que presentan estos pacientes son los siguientes:

IMG_0700

La etiología bacteriana muestra la siguiente distribución por zonas:

IMG_0714

La distribución de la etiología microbiana según el tipo de Endocarditis infecciosa es el siguiente:

IMG_0715

En cuanto a la distribución de las válvulas afectadas por vegetaciones, las complicaciones, el tratamiento y las variables resultado, tenemos la siguiente distribución por zonas:

IMG_0716

En cuanto a las variables que tienen una asociación con la mortalidad intrahospitalaria la tabla nos muestra las significativas y la magnitud de esa significación:

IMG_0717

Como puede observarse mediante la Odds ratio: la edad, el que sea una endocarditis sobre prótesis valvular, la presencia de edema pulmonar, la infección por Staphylococcus aureus, la infección por Staphylococcus coagulasa negativos, la presencia de vegetaciones en la válvula mitral y las complicaciones paravalvulares (abscesos, fístulas), son factores que incrementan la probabilidad de muerte intrahospitalaria; o sea, muerte durante el ingreso. Sin embargo, una elevada velocidad de sedimentación eritrocitaria, una infección por Streptococcus del grupo viridans, o la cirugía, son factores que disminuyen la probabilidad de muerte introhospitalaria.

Recordemos que una Odds ratio para ver si es significativa hay que ver si su p-valor es inferior a 0.05 ó que su intervalo de confianza no contenga al 1. Si es significativa y mayor que 1 es un factor que aumenta la asociación con lo que estamos evaluando; en nuestro caso con la muerte intrahospitalaria (es, pues, un factor de riesgo). Si es significativa y menor que 1 es un factor que disminuye esa asociación (es, pues, en este caso, un factor de protección).

Desde hace muchos años se ha venido realizado profilaxis antibiótica ante procedimientos invasivos que supongan riesgo de bacteriemia (presencia bacteriana en sangre) y, por lo tanto, riesgo de Endocarditis infecciosa. Sin embargo, en los últimos años distintos organismos médicos de diferentes países, muy importantes sanitariamente, han realizado cambios en la profilaxis antibiótica ante esos procedimientos invasivos. En unos países se ha suprimido completamente esa profilaxis y, en otros, se ha mantenido únicamente para ciertos pacientes con mayor riesgo (portadores de prótesis valvular, pacientes que habían tenido una Endocarditis previa, pacientes con alguna cardiopatía congénita, etc.).

En buena parte los cambios vinieron por trabajos como el siguiente:



Con unos datos muy explícitos, como los siguientes:





Después de estos cambios en el nivel de exigencia profiláctica se han hecho diversos estudios evaluando la incidencia de los cambios. Recojo a continuación cuatro estudios distintos que evalúan estos cambios.

El primero viene de Francia. El abstract es:

IMG_0712

Fundamentalmente los datos aportados por este estudio se sintetizan en el siguiente gráfico:

IMG_0713

Otro estudio es en Inglaterra. El abstract es:

IMG_0707

En este artículo se exponen diversos gráficos muy ilustrativos. Uno es el cambio de consumo de antibióticos a nivel porfiláxico:

IMG_0708

Y el otro es el cambio en la incidencia de endocarditis en la población:

IMG_0709

Respecto a las medidas de cambios realizadas en EEUU tenemos dos estudios. El primero tiene como abstract:

IMG_0701

Se exponen los siguientes gráficos y tablas:

IMG_0702

IMG_0703

El otro estudio es el siguiente:

IMG_0704

Con los siguientes gráficos ocupando un punto central del estudio:

IMG_0705

IMG_0706

Como puede apreciarse el único estudio que detecta un cierto aumento de la incidencia de Endocarditis infecciosa tras el cambio de estrategia es el de Inglaterra, curiosamente el único lugar donde el cambio fue completamente radical.

La modelización matemática en Medicina: Validación, Ajuste, Discriminación, Calibración, Precisión, Reproductibidad, Transportabilidad

La modelización matemática es utilizada con mucha frecuencia en Medicina. Es especialmente usada en Medicina preventiva donde es muy frecuente construir modelos de predicción, modelos para evaluar y cuantificar grados de riesgo.

En todas las revistas médicas vemos con mucha frecuencia modelos matemáticos predictivos. En el día a día, en Medicina, usamos muchos de estos modelos. Por citar sólo unos ejemplos: El Framingham risk score, el EuroSCORE, el APACHE, etc.

Una buena parte de estos modelos, en Medicina, son modelos de Regresión logística. La Regresión logística es, digamos, un modelo matemático extraordinariamente ligado a la Medicina. En Medicina con mucha frecuencia nos preocupa el valor de una variable dicotómica: Muere al año de ser operado el paciente o no. Tiene metástasis a los 5 años o no. Ha tenido un infarto o no. Tiene la presión por encima de 140 ó no. Tiene diabetes o no, etc. Y esta variable dicotómica, digamos variable resultado (en terminología Estadística la solemos denominar “variable dependiente”), queremos ver qué relación, qué asociación tiene con otra u otras variables (variables que en Estadística solemos denominar “variables independientes”).

Relacionar cualquiera de estas variables dicotómicas con alguna o algunas variables es, digamos, consustancial a la labor de la Medicina. Es por esto que el modelo matemático y estadístico más usado en Medicina, de largo, es el de la Regresión logística y los principales usuarios de este tipo de modelos son, evidentemente, también, los médicos.

Ahora bien, un modelo es una maqueta matemática de una realidad. Y como maqueta que es puede ser más o menos próxima a la realidad. Hay buenas modelizaciones y malas modelizaciones. Y, por supuesto, toda una inmensa escala de situaciones intermedias que conviene saber distinguir, evaluar y pesar.

Hay todo un amplio repertorio de conceptos que se manejan habitualmente en la modelización. La intención de este artículo es aclarar un poco este bosque inmenso de conceptos para ver qué significa cada uno de ellos. Nos vamos a centrar, en concreto, a la hora de manejar ejemplos, en la modelización mediante Regresión logística, por ser la más habitual en Medicina, pero todos los conceptos que vamos a ver son extrapolables a la modelización usando cualquier otro modelo y en cualquier campo del conocimiento, evidentemente.

Validación, Validación interna, Validación externa, Ajuste, Discriminación, Calibración, Reproductividad, Transportabilidad son conceptos que aparecen habitualmente en este ámbito generando este bosque conceptual por el que es ciertamente difícil moverse.

Todos estos conceptos conllevan, en definitiva, procedimientos matemáticos y estadísticos distintos con los que evaluar la calidad de una modelización. Vamos a internar ir delimitando, poco a poco, cada uno de estos importantes conceptos.

Como vamos a ver cada uno de estos criterios en un modelo de Regresión logística es importante, en primer lugar, recordar un poco lo que es y representa la modelización mediante este especial tipo de Regresión.

Un modelo de Regresión logística es importante, en primer lugar, que se vea dibujado. Si únicamente tenemos una variable independiente el modelo se dibuja así:

IMG_5243

Observemos que se trata de una variable dependiente codificada con 0 y 1 y una variable independiente x. Los puntos representan los valores concretos de una muestra: lo pacientes. Como la variable dependiente es dicotómica (codificada con 0 y 1), los valores únicamente pueden estar a nivel del 0 ó a nivel del 1.

El modelo construye una curva que se adapte lo más fielmente posible a los datos, que en el dibujo anterior es la curva dibujada en color rojo. Para más detalles puede consultarse, en este blog, el Tema 11: Regresión logística.

Vayamos con los conceptos.

Validación: La validación significa evaluar lo válido, lo correcto, lo firme que es un procedimiento. En el ámbito de la modelización, como estamos dibujando una realidad con materiales tomados de otra realidad (en nuestro caso hablamos de evaluar riesgos en la vida real mediante herramientas tomadas del mundo de las funciones matemáticas), la validación evalúa lo estrecha que es esta representación, lo próximo que es ese dibujo matemático a la realidad que trata de representar.

Validación es, pues, un término muy genérico porque esta evaluación se puede hacer mediante criterios diferentes y mediante procedimientos también muy diferentes. Por lo tanto, como vamos a ver a continuación, la noción de validación va abriéndose a distintos conceptos.

Suele diferenciarse entre Validación interna y Validación externa. Veamos esa importante  distinción:

Validación interna: Cuando esa evaluación se hace con los propios datos de la realidad que te han servido o que has usado para construir el modelo. Se trata, por lo tanto, de ver el grado de conexión que hay entre lo que nos dice el modelo matemático creado y los propios datos usados para construir ese modelo. Por eso se le denomina “interna”, porque es respecto a los propios datos usados.

Validación externa: Cuando esa evaluación se hace no con los propios datos usados para construir el modelo sino con otros datos, con otra muestra. Se trata, pues, de una generalización. Aquí no se trata, pues, de evaluar la proximidad del modelo con los datos usados para construirlo, sino, por el contrario, se trata de ensayar, de poner a prueba el modelo para ver si explican también otros valores, si explican una realidad análoga a la representada pero de la que no hemos usado datos a partir de los cuales construir el modelo.

En realidad, estos dos conceptos es en torno a los cuales gira todo lo que estamos explicando aquí, puesto que ahora se trata de ir perfilando los diferentes conceptos que van concretando aspectos diferentes de ese proceso de validación tanto interna como externa.

Ajuste: La noción muy utilizada de Ajuste significa la evaluación de la proximidad de un modelo a una determinada realidad. Por lo tanto, todas las técnicas que evalúan el ajuste de unos datos a un modelo son, en realidad, técnicas de validación. Hemos visto en este blog muchos casos de técnicas de ajuste. Lo hemos visto en distintos momentos y tenemos diferentes ejemplos en el Herbario de técnicas de ese tipo de análisis estadísticos.

Ajustar es ver hasta qué punto hay proximidad entre la realidad y un modelo propuesto. Existen casos en los que basta una técnica de ajuste para poder decir que en gran parte se agota la evaluación de la validez, la evaluación de la proximidad. Esto sucede, por ejemplo, en el ajuste de unos datos a una determinada distribución. Cualquier test de bondad de ajuste a una distribución agota la validación. Al menos la validación interna. El ajuste de la distribución a esos datos. La representatividad, por ejemplo, de la campana de Gauss, como modelo poblacional, a unos datos muestrales concretos, se agota en la misma comprobación. Tiene poca complicación por la sencillez de la situación.

Sin embargo, en modelo más complejos, como el de la Regresión logística, u otro modelo de Regresión en general, la validación, el ajuste, puede evaluarse desde perspectivas distintas. Digamos que existen bastantes dimensiones desde las que abordar el nivel de validez del modelo. Y es aquí, precisamente, donde van surgiendo los diferentes conceptos que vamos a comentar a continuación. Porque una realidad compleja, como la de la modelización de unos datos a un modelo de Regresión logística, puede evaluarse desde perspectivas diferentes, desde ángulos diferentes. Son muchas, por lo tanto, las posibles miradas a hacer.

Tenemos técnicas para evaluar el ajuste. Técnicas como la razón de verosimilitud, el método Wald, etc. Son, éstas, técnicas genéricas, técnicas “todo terreno”, que valen para situaciones muy distintas.

Estos métodos de ajuste genéricos son poco finos. Hacen una valoración global. Hacen, digamos, una mirada demasiado desde arriba, desde lejos. Entran poco en detalles. Por eso se han desarrollado nuevos instrumentos en este ámbito que nos han llevado a tener que matizar la noción de Ajuste. En este contexto surgen nociones como las de Discriminación, Calibración y Precisión.

Discriminación: Es una valoración de un aspecto del ajuste. El objetivo básico de una Regresión logística es establecer, dado el valor de una variable independiente, una probabilidad de si aquel individuo tendrá o no tendrá la enfermedad estudiada. Se trata de hacer una previsión en base a la asociación vista en unos datos muestrales.

Veamos las dos situaciones extremas siguientes:

20140408-155126.jpg

El modelo de la izquierda nos permite discriminar muy bien. Sin embargo, el modelo de la derecha no nos permite una buena discriminación. En el caso de la izquierda saber el valor de la variable “x” nos permite hacer una buena predicción de la variable dependiente. Ese valor discrimina. En el caso de la derecha el saber el valor de la variable “x” no nos informa. No discrimina.

Es muy habitual evaluar la Discriminación de un modelo de Regresión logística mediante curvas ROC y mediante el Área bajo la curva. Ver el Tema 23: Análisis ROC.

Calibración: Es otra valoración de un aspecto del ajuste. Se trata de evaluar que no haya saltos importantes entre valores observados y valores esperados, entre probabilidades observadas y probabilidades esperadas. Se trata de ver si hay paralelismos entre valores observados y valores esperados en distintos tramos de la variable independiente. Una forma habitual de evaluación de la calibración en Regresión logística es el Test de Hosmer-Lemeshow. Este Test evalúa el equilibrio entre los valores observados y los valores esperados por tramos del modelo. Si en estos diferentes intervalos se mantiene un equilibrio entre el observado y el esperado es que el modelo está calibrado.

Es importante distinguir entre Discriminación y Calibración. Porque podemos tener un modelo con buena calibración pero mala discriminación y podemos tener, también, por el contrario, un modelo con bastante buena discriminación y muy mala calibración. Veamos las dos siguientes situaciones:

20140408-160245.jpg

En el caso de la izquierda tenemos una muy buena calibración. Los esperados y los esperados van a coincidir perfectamente, pero la discriminación es inexistente. En el caso de la derecha sucede justo lo contrario: tenemos una aceptable discriminación pero la calibración es mala. En distintas zonas de la variable independiente los valores observados y los esperados van a tener amplias diferencias. Lo que indica que el modelo no está bien calibrado.

La Calibración tiene este problema. Que valora digamos el equilibrio en la disposición por un lado de las probabilidades según el modelo y los valores reales, que serán, evidentemente, ó 1 ó 0. La realidad, sólo da esos valores, el modelo da probabilidades. Para penetrar mejor en el ajuste, para mirar con más precisión, con una lente más potente, hay que introducir la noción de Precisión.

Precisión: Es una cuantificación del grado de aproximación de estos observados y esperados en un modelo. Es, de hecho, un complemento a la Calibración ofrecida de forma original por el Test de Hosmer-Lemeshow. El Score de Brier es uno de esos cuantificadores de la Precisión. Es un cálculo que evalúa, no por sectores, por intervalos, sino valor a valor, la distancia entre los valores observados (1 ó 0, evidentemente) y la probabilidad asignada por el modelo. Este Score, por lo tanto, no evalúa el equilibrio de observados y esperados por sectores, por intervalos, sino que evalúa distancias entre valores observados y probabilidades esperadas bajo el modelo.

El Score de Brier es el siguiente cálculo:

20140409-175330.jpg

En cada uno de los n valores muestrales se resta cada observado (0 ó 1) del valor esperado que es el valor de la función dibujada en rojo para cada punto.

Observemos cómo el cálculo de este Score de Brier nos dará valores bien distintos entre las dos siguientes modelizaciones:

20140409-175247.jpg

Estos dos modelos, si atendemos puramente a la Calibración evaluada mediante, por ejemplo, el Test de Hosmer-Lemeshow, son dos modelos calibrados. Porque si observamos diferentes intervalos de la variable independiente “x”, los valores observados y esperados están muy próximos. Sin embargo, para el Score de Brier los valores serían muy diferentes. En el caso de la izquierda todos los valores esperados serían 0.5 y los observados serían 0 ó 1, lo que daría restas muy grandes. Sin embargo, a la derecha veamos que las probabilidades de los puntos con valores bajos de la variable “x” darían probabilidades muy pequeñas (porque el valor de la curva roja, la curva de la Regresión logística, nos da probabilidades de ser 1) y como en este espacio los observados son 0 esas restas darán valores pequeños. Cuando la variable “x” tenga valores grandes las probabilidades serán próximas a 1 y los valores observados serán 1, lo que nos dará, de nuevo, restas pequeñas.

Por lo tanto, el Score de Brier nos mide la precisión, la proximidad entre los pronósticos y los valores reales evaluado puntualmente; o sea, valor a valor, no intervalo a intervalo como hace la Calibración.

La Discriminación, Calibración y Precisión son, como puede verse, distintos criterios de ajuste. Es bueno que se den las tres cosas: Que el modelo discrimine bien, que esté bien calibrado y que sea preciso. Por eso es necesario evaluar cosas diferentes. Con una única evaluación nos podríamos encontrar con una deficiente evaluación.

Cuando el Ajuste, la Discriminación, la Calibración o la Precisión la evaluamos con la propia muestra utilizada para construir el modelo estamos haciendo una Validación interna.

Cuando el Ajuste, la Discriminación, la Calibración o la Precisión la evaluamos con una muestra diferente a la utilizada para construir el modelo estamos haciendo una Validación externa. El grado de alejamiento de esta muestra diferente, respecto a la muestra original, nos lleva a dos ámbitos de la Validación externa que ahora vamos a delimitar: la Reproducibilidad y la Transportabilidad.

Reproducibilidad: Con este concepto evaluamos el grado de validez de un modelo a la hora de ser aplicados a una muestra que no es la tomada para construir el modelo. Pero, eso sí, se trata de una muestra tomada en un contexto análogo al de la muestra original. Supongamos, por ejemplo, que la muestra base ha sido tomada entre pacientes de un hospital de una determinada ciudad. Pues, si lo ensayamos con pacientes de otro hospital de un nivel análogo al anterior, y de la misma ciudad, estaremos evaluando el grado de Reproducibilidad de nuestro modelo.

Una forma habitual de Reproducibilidad es hacer lo que suele denominarse una Validación cruzada (Cross-Validation). Consiste en crear, en una muestra, un subgrupo para construir el modelo y otro subgrupo distinto para validar el modelo construido. Suele hacerse diversas veces este procedimiento, en una misma muestra. Suele, entonces, denominarse una Validación cruzada con k iteraciones (k-fold Cross-Validation). Este procedimiento consiste en dividir la muestra en k subgrupos. Entonces se realiza k veces esta operación de construir el modelo con un subgrupo y validarlo con otro subgrupo. Cada una de estas veces es uno de esos k grupos el usado como grupo de validación y el resto de valores de la muestra es usado para construir el modelo.

El bootstrap es una forma habitual de trabajar a este nivel. El bootstrap es un procedimiento que genera submuestras a partir de la muestra. Una muestra es transformada en población y de ella, aleatoriamente se toman muestras del tamaño deseado.

Observemos que en cualquiera de estos procedimientos comentados nos estamos moviendo dentro de un mismo ámbito. Estamos intentando ver si la modelización hechas con una muestra sigue siendo válido con una muestra distinta aunque tomada en el mismo contexto que la muestra con la que se ha construido el modelo.

Transportabilidad: Con este concepto evaluamos, ahora, el grado de validez, el grado de proximidad, de un modelo, con todas las dimensiones vistas (Ajuste, Discriminación, Calibración, Precisión), a la hora de ser aplicado a un grupo de individuos distinto al grupo base del estudio. Ahora es otro país, otro ámbito distinto, la fuente de la muestra. Es, pues, un grado superior de generalización que el ofrecido por la Reproducibilidad.

Ahora estamos buscando el grado de inferencia a distancia: una distancia que puede ser temporal, territorial, etc.

En la Reproducibilidad y la Transportabilidad hay grados diferentes. Es un continuo. Y es de elevada complejidad saber el nivel de generalización en el que podemos situar una determinada Validación externa.

El siguiente cuadro puede constituir un resumen de todo lo visto:

20140409-184404.jpg

Obsérvese que este esquema intenta plantear una visión global de todo lo visto.

Los siguientes puntos resumen, también, todo lo dicho:

1. La Validación es la búsqueda del grado de proximidad entre modelo y realidad.

2. La Validación puede ser interna (si se evalúa la proximidad entre el modelo construido y los propios datos empleados para construir el modelo) o externa (si se evalúa la proximidad entre el modelo y otros datos que no sean los usados para su construcción).

3. Ajuste, Discriminación, Calibración y Precisión son distintas miradas, distintas perspectivas desde donde evaluar la Validación. Por lo tanto, son herramientas con las que valorar el grado de proximidad entre modelo y realidad.

4. Ajuste, Discriminación, Calibración y Precisión son aplicables tanto en la Validación interna como en la Validación externa. La diferencia entre estos dos tipos de Validación está en qué datos son los usados para evaluar la proximidad, pero las técnicas para hacerlo son exactamente las mismas.

5. La Validación interna es una: la evaluación de la proximidad entre realidad y modelo sólo se realiza con la muestra que se ha usado para estimar el modelo. La Validación externa, por el contrario, es mucho más compleja y multidimensional: se han propuesto distintas formas para hacerla, según sea esa otra muestra usada para el ajuste. Es por eso que se habla de la Reproducibilidad y de la Transportabilidad, incluso de distintos tipos dentro de ellos, lo que le dota de un carácter más controvertido y complejo.

Aplicación del Test de Hosmer-Lemeshow en Medicina

La Regresión logística es uno de los modelos matemáticos más usuales en Medicina. Un modelo no puede aplicarse así, sin más, porque se suela hacer. Un modelo puede usarse siempre y cuando haya un buen ajuste. Usar un modelo sin ajustarlo previamente es actuar a ciegas y esto es grave en ciencia.

El Test de Hosmer y Lemeshow es un test de bondad de ajuste de unos datos a un modelo de Regresión logística. Y como la Regresión logística es muy usual en Medicina este Test es un muy importante Test en Medicina.

Un Test de bondad de ajuste, en general, lo que hace es comprobar si el modelo propuesto puede explicar lo que se observa. Es un Test donde se evalúa la distancia entre lo observado en los datos que tenemos de la realidad y lo esperado bajo el modelo. Para introducirse en la visión general de los tests estadísticos donde se evalúa la distancia entre observado y esperado ver el artículo Tema 8: Relación entre variables cualitativas: Test de la ji-cuadrado.

El Test básicamente consiste en dividir el recorrido de valores de la variable dependiente (0,1) en una serie de intervalos. Intervalos que contengan un número de observaciones suficientemente grande (5 ó más). Se trata, entonces, de contar intervalo por intervalo el esperado y el observado para cada uno de los dos resultados posibles de la variable dependiente dicotómica (tiene la enfermedad o no la tiene, es hombre o mujer, etc). El observado es lo que se tiene y el esperado es el valor esperado teórico calculado mediante el modelo construido. El estadístico es un estadístico de la ji-cuadrado, como el visto en el tema dedicado a la relación entre variables cualitativas.

Veamos un par de ejemplos donde podemos comprobar la aplicación del Test a un caso donde hay ajuste y a otro donde no lo hay. El ejemplo es con pocos datos, para que se entienda mejor, lo que fuerza a que el número de observaciones por intervalo sea muy bajo (menos de 5), lo que hace menos fiable el test. Los datos son los siguientes:

IMG_8389

Vemos la variable “y” que es la variable dependiente. Una variable codificada con 1 ó 0. Es la variable dicotómica estudiada: Enfermo-No enfermo, Muere-No muere, Metástasis-No metástasis, etc.

Las otras dos variables son las variables independientes. Haremos una Regresión logística con cada una de las dos variables independientes.

Empezemos con la primera, la variable x1. El dibujo de la Regesión logística es el siguiente:

IMG_8390

Como puede verse los valores aparecen bien segregados, los valores con variable dependiente 1 ó 0. La aplicación del Test de Hosmer-Lemeshow es la siguiente:

IMG_8392

Observemos que el p-valor es superior a 0.05. Aquí la Hipótesis nula es que el modelo se ajusta a la realidad. En un Test de bondad de ajuste siempre en la Hipótesis nula se afirma que el modelo propuesto se ajusta a lo observado. Por lo tanto, un p-valor superior a 0.05 implica que lo que observamos se ajusta suficientemente a lo que esperado bajo el modelo.

Observemos también que en la tabla de aplicación del Test, en la que se van calculando, en una serie de intervalos, los valores observados y esperados, hay mucha proximidad entre estos valores reales y teóricos. Esto es lo que permite pensar que usar este modelo y calcular predicciones con él es suficientemente correcto. Esto suele considerarse como una Calibración.

Veamos ahora lo mismo pero con la variable x2:

IMG_8391

Viendo estos datos vemos que los valores con 1 ó 0 ya no tienen una disposición que haga pensar en un buen ajuste. Veamos la aplicación del Test:

IMG_8393

Ahora el p-valor del Test es menor que 0.05, lo que implica que la Hipótesis nula no parece lógico mantenerla a la luz de lo que vemos en nuestros datos. Si observamos, también, la tabla de los valores observados y esperados, tanto entre los valores con 1 y con 0, vemos que hay mucha distancia entre los valores observados y los valores esperados.

En una situación como esta no sería recomendable el uso del modelo de Regresión logística.

Herramientas estadísticas en Medicina (Una hoja de ruta)

El objetivo de este artículo es confeccionar una hoja de ruta, un mapa, para moverse entre las principales técnicas estadísticas en Medicina. Con esa hoja de ruta pretendo orientar al usuario de la Estadística a moverse en el complejo bosque de esas técnicas analíticas, especialmente tal como suelen usarse en el ámbito de la Medicina.

El índice básico de esta hoja de ruta es el siguiente:

1. Estadística descriptiva.

2. Técnicas de comparación.

3. Técnicas de relación.

4. Determinación del tamaño de muestra.

En la gran mayoría de investigaciones en Medicina se usan, al mismo tiempo, estos cuatro tipos de técnicas. Veamos cada una de estas familias de técnicas. Veamos lo que analizan, cómo se usan habitualmente y veamos, también, sucesivos enlaces donde encontrar detalles más concretos para quien quiera ampliar información:

1. Estadística descriptiva

El objetivo fundamental de la Estadística descriptiva es cuantificar ciertas características a las variables con las que hemos trabajado (media, mediana, desviación estándar, rango intercuartílico, etc., en las variables cuantitativas, y frecuencia absoluta y frecuencia relativa en las variables cualitativas).

La decisión de cómo presentar, de cómo resumir, las variables cualitativas y, especialmente, las variables cuantitativas, en un estudio, en absoluto es un tema trivial y suelen cometerse importantes errores a este nivel.

Unas pautas para el resumen básico, según el tipo de variable, son las siguientes:

a. Variables cualitativas: Suelen resumirse sin demasiado problema mediante las frecuencias absolutas y la frecuencias relativas de los diferentes valores que esa variable puede tener.

b. Variables cuantitativas: Con la media y la desviación estándar, si la variable se ajusta a la distribución normal. Con la mediana y el rango intercuartílico, si la variable no se ajusta a la distribución normal.

Para más información consultar los artículos: La Estadística descriptiva en Medicina, para ver cómo suele presentarse la Estadística descriptiva en artículos de Medicina, y Media y desviación estándar o Mediana y rango intercuartílico para la explicación de cuándo resumir una variable cuantitativa mediante Media y desviación estándar o mediante Mediana y rango intercuartílico.

2. Técnicas de comparación

El objetivo de las Técnicas de comparación es comprobar si las diferencias apreciadas en los distintos grupos comparados son diferencias estadísticamente significativas. Esto nos lleva al que seguramente es el elemento nuclear de la Estadística: la noción de  “significación”. En Estadística “significativo” significa que estamos ante un resultado que es muy poco probable que sea debido al azar, que estamos ante un resultado fiable. Ver los artículos: La Estadística como ciencia de lo significativo o La Estadística es como un partido de baloncesto o Introducción a las técnicas de comparación.

Entre las técnicas de comparación suele distinguirse entre Técnicas de comparación de dos grupos y Técnicas de comparación de más de dos grupos:

a. Comparación de dos grupos: En el tema dedicado a la Comparación de dos poblaciones se puede seguir el protocolo de decisión de la técnica a aplicar en un caso concreto. Es importante saber que disponemos de técnicas adaptadas a manejar datos que tengan una estructura adecuada. Es importante aplicar, pues, en cada caso, la técnica adecuada al caso. De esta forma optimizamos la decisión. Un resumen, en forma de diagrama de flujo, de los pasos seguidos para la elección de la técnica de comparación de dos poblaciones es el siguiente:

20140325-133316.jpg

b. Comparación de más de dos grupos: Para la comparación de más de dos grupos debemos introducirnos en el mundo ANOVA.

Es importante distinguir que hay dos momentos diferentes en los que se suele usar cualquiera de las técnicas de comparación en Medicina:

a. Comparación en la búsqueda de igualdad: donde se busca la igualdad de unos grupos, respecto a una serie de variables-descriptoras. Grupos que respecto a un tratamiento o la exposición a un riesgo están en posiciones diferentes.

b. Comparación en la búsqueda de diferencia: donde se buscan diferencias en ciertas variables-resultado entre los grupos sometidos a condiciones diferentes.

La siguiente tabla nos resume todo lo visto en el apartado 1 y 2:

IMG_8279

Observemos que en esta tabla se sintetiza Estadística descriptiva y Técnicas de comparación. Se expresan las variables cualitativas en frecuencia absoluta y frecuencia relativa y las variables cuantitativas mediante la media y desviación estándar o mediante la mediana y el rango intercuartílico. En las dos primeras columnas vemos los dos grupos a comparar en la búsqueda de igualdad, con el p-valor respectivo de esa comparación, con la técnica apropiada, en la tercera columna. En las columnas cuarta y quinta están los dos grupos a comparar en la búsqueda, ahora, de diferencia, con el p-valor respectivo en la sexta columna. Los dos primeros grupos comparados son según el tratamiento, los dos últimos grupos han sido creados según el resultado (éxito/fracaso). Es lógica la búsqueda de igualdad en la primera comparación y la búsqueda de diferencia en la segunda.

3. Técnicas de relación

En las técnicas de relación el objetivo es establecer relaciones entre variables. En el ámbito de las técnicas estadísticas que analizan las relaciones entre variables es habitual diferenciar tres situaciones posibles:

a. Relaciones entre dos variables cuantitativas.

b. Relaciones entre dos variables cualitativas.

c. Relaciones entre una variable cualitativa y una cuantitativa.

La siguiente figura resume estas tres situaciones posibles:

Foto 20-10-12 17 58 17

Observemos que tenemos tres filas y tres columnas. Las tres filas indican los tres posibles tipos de relación entre dos tipos de variables: Dos cuantitativas, dos cualitativas y una cualitativa y una cuantitativa. Las tres columnas indican tres tipos de situaciones en cuanto a la relación. En la columna del medio no hay relación entre las variables. En las columnas de la izquierda y de la derecha hay relación. Y en ambos lados digamos que se trata de una relación de tipo, de signo distinto.

En cada uno de estos tres ámbitos el objetivo será triple:

a. Detectar si hay o no relación estadísticamente significativa.

b. Cuantificar esa relación.

c. Matematizar esa relación, crear una función que exprese, matemáticamente, esa relación.

De todos los conceptos que se manejan en el ámbito de la relación entre variables los que son más frecuentemente usados en el ámbito de la Medicina son los siguientes:

a. Para detectar relación y cuantificarla, entre variables cuantitativas: la correlación, en sus diferentes versiones: Pearson, Spearman y Kendall.

b. Para matematizar la relación entre variables cuantitativas: la Regresión lineal simple. Para más de dos variables: la Regresión múltiple.

c. Para detectar relación entre variables cualitativas: el Test de la ji-cuadrado.

d. Para cuantificar la relación entre variables cualitativas: la Odds ratio.

e. Para detectar, cuantificar y matematizar la relación entre variables cualitativas y cuantitativas: la Regresión logística.

f. Cuando una de las variables es el tiempo hasta que sucede un determinado acontecimiento tenemos: el Análisis de supervivencia y cuando esta supervivencia queremos explicarla matemáticamente mediante otra u otras variables tenemos: la Regresión de Cox. En este ámbito aparece una nueva cuantificación de la relación: el Hazard ratio, que, aunque guarde una estrecha relación con la Odds ratio se trata de dos medidas diferentes que es importante saber situar. Para esa distinción ver el artículo: Odds ratio versus Hazard ratio.

4. Determinación del tamaño de muestra

La muestra es el punto de partida del análisis estadístico. Sin embargo, la elección misma de la muestra ya supone un análisis estadístico previo bastante complejo. El tamaño de muestra depende de una serie de factores que es muy importante entender bien:

a. De los errores que se esté dispuesto a cometer (Error de tipo 1 y Error de tipo 2). Al de tipo 1 se le suele denominar Error alfa y al de tipo 2 Error beta. Al valor 1-Error de tipo 2 (1-beta), expresado en porcentaje, es lo que se suele denominar la potencia del test. Como se decide igualdad versus diferencia o no relación versus relación, según lo que estemos trabajando y que, por lo tanto, es una decisión entre dos opciones, podemos cometer dos tipos de errores. Por ejemplo, en el caso de igualdad versus diferencia podemos decir que hay diferencia siendo iguales (Error tipo 1) o podemos decir que hay igualdad siendo diferentes (Error tipo 2). Lo que interesa es que estos dos errores sean pequeños, especialmente el primero. Es habitual, por ejemplo, que el primero se fije en 0.05 i el segundo en 0.2 (lo que supondría una potencia del 80%).

b. De la dispersión de las variables analizadas, usualmente expresada mediante la desviación estándar. El grado de dispersión que es algo que nos viene impuesto por la realidad estudiada influye en el tamaño de muestra necesario para decir cosas en ciencia. A mayor dispersión necesitamos más tamaño muestral para saber cómo es aquella realidad.

c. De la diferencia mínima que queramos detectar o del nivel de relación mínimo que queramos detectar. Esto es importante y complejo de establecer, en muchas ocasiones. Se trata de fijar el mínimo que se entiende como significativo, médicamente. Diferencia por debajo de la cual aunque viéramos una diferencia estadísticamente significativa sería irrelevante clínicamente. Por lo tanto, se pretende encontrar la muestra que necesitamos para que si acabamos viendo aquella diferencia mínima o relación mínima, o más, teniendo la desviación estándar especificada y, con el nivel de error fijado, podamos hablar de que se trata de una diferencia estadísticamente significativa.

Observemos un caso de declaración de muestreo en un artículo:

IMG_6860

IMG_6857

En este tipo de información donde se especifica el tamaño de muestra usado siempre se acaba concretando que ha sido en función de estos dos tipos de error, de la dispersión que se tiene y de la diferencia mínima o el grado de relación mínimo a detectar. Esto es una constante que conviene entender y saber aplicar.

Tenemos afortunadamente extraordinarios calculadores del tamaño muestral. Todos ellos, evidentemente, nos pedirán estos elementos para determinar la muestra que necesitamos.

Para más información consultar los siguientes artículos: La maquinaria de un contraste de hipótesisLa noción de potencia estadística,  Determinación del tamaño de muestra y Un ejemplo de la determinación del tamaño de muestra en Medicina.

Siempre tenemos en una investigación en Medicina si no todos los elementos comentados aquí, sí prácticamente todos. Es muy importante saberlos situar e interpretar. El análisis será mucho más ajustado y preciso si la mirada estadística es la adecuada.

Y, finalmente, ligado, por un lado, a la necesidad de aumentar el tamaño de muestra en Medicina y ligado también a la necesidad de evaluar la coherencia entre diferentes estudios análogos hecho por grupos de investigación distintos se ha desarrollado todo un nuevo repertorio de técnicas: el Metaanálisis.

Artículos de Psiquiatría-Psicología y la Estadística

Vamos a ver una serie de artículos que nos sirvan de iniciación a la Estadística para estudiantes de Psiquiatría y Psicología. He elegido unos cuantos artículos de Psiquiatría y de Psicología que me parecen interesantes para iniciarse en la conexión entre estos campos del conocimiento y la Estadística.

1. Veamos el primero. Se trata de un estudio sobre la Esquizofrenia, una de las enfermedades psiquiátricas más estudiadas, más graves y más complejas.

En este estudio se está comparando, como sucede con frecuencia en este tipo de trastornos, un grupo de pacientes con esquizofrenia y un grupo de pacientes controles. Observemos cómo se comparan las concentraciones de un determinado receptor a nivel neuronal en estos dos grupos de pacientes: esquizofrénicos y un grupo control:

20140130-172704.jpg

20140130-172715.jpg

20140130-172724.jpg

2. Otro ámbito interesante en Psiquiatría y Psicología es la Anorexia nerviosa. Se ha considerado muchas veces que esos pacientes, debido al bajo aporte de nutrientes, debían de incrementar la permeabilidad a nivel digestivo, con la finalidad de optimizar los recursos disponibles. Pues, parece que no. Que es más bien todo lo contrario. Que llueve sobre mojado. Que estos pacientes, que evitan la comida, tienen alterados los mecanismos de permeabilidad pero en el sentido de una reducción de permeabilidad respecto al nivel normal.

Observemos las curvas de eliminación de ciertas sustancias en estudios controlados comparando pacientes con Anorexia nerviosa con personas sin esa patología:

20140130-172731.jpg

20140130-172740.jpg

3. Este es un interesante artículo que trata de estimar la prevalencia del TDAH en una determinada población. Los estudios de prevalencia tienen una trascendencia especial en el mundo sanitario, evidentemente. Conocer el alcance de una patología es un elemento importantísimo a nivel social.

20140130-172803.jpg

4. A continuación otro estudio de prevalencia, aunque distinto. Se trata de conocer una realidad social compleja. Este artículo puede resultar interesante como iniciación a la importantísima noción de Odds ratio en el ámbito sanitario:

20140130-172810.jpg

5. El sistema inmunitario es nuestro ejército interno que nos protege de lo externo que nos llega y de lo interno que se deteriora y nos puede perjudicar. Es fundamental su equilibrio y su eficacia.

Este artículo es un estudio muy interesante que evalúa una de las dimensiones fisiopatológicas por donde transitan las consecuencias de la Anorexia nerviosa: una alteración del sistema inmunitario que transforma en más vulnerable a esos pacientes:

20140130-172816.jpg

20140130-172823.jpg

6. A continuación un interesante estudio que compara las dimensiones del afrontamiento al estrés entre hombres y mujeres universitarios:

20140130-172829.jpg

20140130-172835.jpg

7. Muchas enfermedades psiquiátricas tienen una explicación a nivel de receptores de neurotransmisores. Todo lo más trascendente a nivel del tejido nervioso sucede en las sinapsis. Parece, pues, lógico, que, alteraciones a ese nivel, deben originar cuadros patológicos. En el trastorno bipolar parece claro que los receptores de la serotonina se ven alterados. En este artículo se reúnen diferentes estudios, orientados todos ellos en la misma dirección, que tratan de mostrar cuantitativamente esta realidad. Estos estudios que combinan diferentes estudios hechos en la misma dirección abundan mucho en ciencia. Es una forma de comparar, de unificar y de aumentar, de alguna forma, el tamaño de muestra:

20140130-172749.jpg

20140130-172757.jpg

Introducción a la Odds ratio para estudiantes de ESO (2): Solución de la situación

Vamos a mostras cuáles son las cuatro tablas que obtenemos si valoramos las relaciones entre Fumador e Infarto, entre Colesterol e Infarto, entre Perímetro de cintura e Infarto y entre Deporte e Infarto. Y cuáles son, también las Odds ratio respectivas.

Fumador e Infarto:

IMG_7758

IMG_7767

Por lo tanto, fumar, en hombres, al nivel establecido en el estudio, proporciona un riesgo 2,03 veces superior al de no fumar.

Colesterol e Infarto:

IMG_7759

IMG_7766

Por lo tanto, el colesterol por encima de 240 mg/dL, en hombres, proporciona un riesgo 2,97 veces superior al tenerlo por debajo.

Perímetro de cintura e Infarto:

IMG_7760

IMG_7768

Por lo tanto, el perímetro de cintura por encima de 102 cm, en hombres, proporciona un riesgo 5,67 veces superior al tenerlo por debajo.

Deporte e Infarto:

IMG_7761

IMG_7769

Por lo tanto, según estos datos hacer deporte a ese nivel, en hombres, representa una protección de 3,7 veces superior a no hacerlo. El 3,7 sale de dividir 1 por 0,27, como hemos visto en el planteamiento del problema.