Archivo de la categoría: HERBARIO

Estimador de Mantel-Haenszel

Cuando se calcula una Odds ratio y se pretende evitar el problema de la confusión por otra variable el Estimador de Mantel-Haenszel es el más utilizado.

La variable confusora se divide en estratos y se estudia la tabla para cada uno de esos estratos.

Veamos cuál es la fórmula:

img_3290

Y veamos su aplicación a un caso concreto con una variable confusora en dos estratos:

img_3292

Anuncios

Test de una proporción

 

En ocasiones se requiere contrastar la hipótesis de que la proporción en una población, de una variable dicotómica, es un cierto valor concreto.

El Test de una proporción es el clásico test para esta situación. Es un test que se basa en la aproximación de una distribución binomial a una distribución normal.

El Test es el siguiente:

20140418-185639.jpg

 Veamos el siguiente ejemplo: Supongamos que queremos comprobar si una moneda tiene un desequilibrio. Aplicaríamos este contraste con po =0.5. Por lo tanto, la Hipótesis nula afirma que p=0.5. Supongamos que en un muestreo de 100 lanzamientos de esa moneda han salido 65 caras y 35 cruces. Si calculamos el valor del estadístico T es 3 ó -3 según miremos las caras o las cruces del muestreo. Como en una normal N(0, 1) la zona de rechazo de la hipótesis nula está a la derecha de 1.96 y a la izquierda de -1.96, para un nivel de significación del 0.05, podemos rechazar tal hipótesis. El p-valor es menor que 0.05. Debemos rechazar la hipótesis de equilibrio.

Si, por el contrario, en el muestreo salen 55 caras y 45 cruces el valor del estadístico T es 1 ó -1, lo que nos llevaría a no poder rechazar la hipótesis nula.

 

Test de Hosmer y Lemeshow

El Test de Hosmer y Lemeshow es un test muy utilizado en Regresión logística. Se trata de un   test de bondad de ajuste al modelo propuesto. Un Test de bondad de ajuste lo que hace es comprobar si el modelo propuesto puede explicar lo que se observa. Es un Test donde se evalúa la distancia entre un observado y un esperado.

El Test básicamente consiste en dividir el recorrido de valores de la variable dependiente (0,1) en una serie de intervalos. Intervalos que contengan un número de observaciones suficientemente grande (5 ó más). Se trata, entonces, de contar intervalo por intervalo el esperado y el observado para cada uno de los dos resultados posibles de la variable dependiente dicotómica (tiene la enfermedad o no la tiene, es hombre o mujer, etc). El observado es lo que se tiene y el esperado es el valor esperado teórico calculado mediante el modelo construido. El estadístico es un estadístico de la ji-cuadrado, como el visto en el tema dedicado a la relación entre variables cualitativas. De hecho, buena parte de los test de bondad de ajuste a un modelo parten de esta idea de comparar lo observado con lo esperado.

Para ver cómo se aplica este importante test ver el artículo Aplicación del Test de Hosmer-Lemeshow en Medicina.

Test de la Q de Cochran

El Test de la Q de Cochran es un test para comprobar la igualdad de varias muestras relacionadas en una variable dicotómica. Es un test equivalente al test de McNemar pero para más de dos poblaciones.

El contraste de hipótesis tiene como hipótesis nula la igualdad de proporciones.

El estadístico de test usado en este contraste de hipótesis es el siguiente:

 IMG_7167

Como puede apreciarse, para que el test funcione bien se necesita un determinado valor de tratamientos y de muestra.

Veamos dos casos de aplicación de este test.

La tabla de datos consta de cinco filas porque son cinco los individuos usados y de cuatro columnas, porque vamos a suponer que hemos ensayado cuatro tratamientos distintos a esos cinco individuos. En la tabla consta un 1 ó un 0 dependiendo si hay o no respuesta a la variable dicotómica que estamos estudiando.

Veamos, en primer lugar, un caso de no diferencias:

IMG_7168

En el siguiente caso, sí que hay diferencias entre los cuatro tratamientos:

IMG_7169

Observemos que en las condiciones de aplicación se pide que k sea mayor o igual a 4 (esto se cumple), pero también se pide que nk sea mayor o igual que 24 y en este ejemplo nk=20. Aquí la distribución ji-cuadrado supuesta es dudosa. Pero lo he hecho así para que sea más fácil entender los cálculos.

Test de Friedman

El Test de Friedman es un test para comprobar la igualdad de tratamientos en medidas repetidas. Es un test que no necesita de la normalidad de los datos. Es un test, pues, no paramétrico.

Supongamos que aplicamos a un grupo de n individuos k tratamientos diferentes, en distintos momentos. Y lo que queremos es contrastar la Hipótesis nula de igualdad entre esos tratamientos. Ahora la igualdad no será de medias, como en el ANOVA paramétrico, sino que será igualdad de medianas o de distribuciones.

El estadístico usado en este test de Fridman es el siguiente:

IMG_7166

Este test se usa,en ocasiones, para casos de dos factores cruzados donde no hay ajuste a las suposiciones habituales del ANOVA.

Algoritmo de Bennet-Franklin

En los diferentes modelos de Análisis de la varianza (ANOVA), uno de los principales niveles de complejidad, cuando trabajamos con más de un factor, es saber cuáles son las F-ratio; o sea, los cocientes entre cuadrados medios que hay que hacer para realizar los contrastes de hipótesis necesarios para resolver del modelo. Elegir los cocientes adecuados es clave para que la decisión esté bien fundamentada.

El Algoritmo de Bennet-Franklin es un clásico mecanismo para encontrar las esperanzas de los cuadrados medios y así diseñar los cocientes necesarios para la realización de esos contrastes de hipótesis.

Evidentemente es muy recomendable leer el tema Tema 15: ANOVA para situar las nociones de factor, de nivel de un factor, de factor fijo o aleatorio, de factores cruzados o anidados, que irán apareciendo a continuación. También es importante ver los distintos modelos ANOVA que están descritos en el apartado HERBARIO DE TÉCNICAS de este Blog.

El objetivo de este Algoritmo de Bennet-Franklin es, como digo, la obtención de las esperanzas de los cuadrados medios calculados en cualquier tabla ANOVA y, por lo tanto, localizar los cocientes oportunos. Muchos software hacen cocientes incorrectos o bien dejan abierta la opcionalidad de los cocientes. El cálculo analítico de estas esperanzas es matemáticamente complejo. Por esto este sencillo algoritmo tuvo mucho éxito en su momento y continúa aplicándose hoy en día.

Veamos cómo es este Algoritmo.

Cuando se tiene localizado el modelo se trata de crear, en primer lugar, una matriz con tantas filas como efectos (parámetros o combinaciones de los parámetros con subíndices) tenga el modelo y tantas columnas como subíndices utilizados en el modelo.

A continuación se siguen los siguientes pasos:

1. Se escribe 1 en toda la fila correspondiente al residuo.

2. En todo cruce de fila con columna donde coincida un subíndice se escribe un 0 si el subíndice corresponde a un factor fijo que no corresponda a un subíndice que jerarquice a algún factor anidado en él. Se escribe, por el contrario, un 1 si el subíndice corresponde a un factor aleatorio o si forma parte de un subíndice que jerarquiza a algún factor anidado en él.

3. Los espacios vacíos se rellenan con el número de valores de cada uno de los subíndices de las diferentes filas de la matriz creada.

Veamos un ejemplo en un caso de dos factores cruzados y con un factor fijo y el otro aleatorio. Se trata del ANOVA de dos factores a efectos mixtos:

Primero se construye la siguiente matriz:

IMG_7020

Una fila por efecto y una columna por cada índice implicado. A continuación se ponen siempre, como he dicho en el apartado primero 1 en la última fila, la del residuo:

IMG_7021

A continuación se mira cada fila por fila y cuando coincida un subíndice del efecto considerado en la fila con el subíndice de la columna se pone un 0 ó un 1 según el criterio especificado en el anterior punto 2. Lo repito: Se escribe un 0 si el subíndice corresponde a un factor fijo que no corresponda a un subíndice que jerarquice a algún factor anidado en él. Se escribe, por el contrario, un 1 si el subíndice corresponde a un factor aleatorio o si corresponde a un subíndice que jerarquiza a algún factor anidado en él.

Veámoslo en nuestro ejemplo:

IMG_7022

Ahora, siguiente el punto 3 anterior rellenamos las casillas vacías con los valores máximos de cada unos de los subíndices de las columnas:

IMG_7023

Una vez llegados aquí debemos proceder de la siguiente forma. Fila por fila (efecto por efecto) iremos calculando la esperanza de los cuadrados medios tachando siempre las columnas donde aparezcan individualmente cada uno de los subíndices implicados en el efecto y las filas que no contengan a todos los subíndices implicados en el efecto considerado en aquel momento. Veámoslo paso a paso en nuestro ejemplo inicial:

IMG_7025

Observemos que para evaluar la esperanza del primer efecto he tachado lo especificado: la primera columna, porque tiene la i y la segunda fila porque no contiene a la i. Al mismo tiempo he añadido los efectos en una columna a la derecha. Los efectos de un factor fijo pongo simplemente Efecto A o Efecto B o lo que sea (también pongo Ef.A como abreviación).

La esperanza del cuadrado medio consiste en ir multiplicando por filas lo que hay. Primera fila: bnEf.A, etc. Luego se suman estos productos por fila y acabas obteniendo la esperanza de aquel cuadrado medio.

Veamos la segunda esperanza:

IMG_7026

Observemos que ahora nos queda más simplificado porque en una de las filas hay un 0 y esto transforma el producto de toda la fila en 0.

Siguiente esperanza de cuadrado medio:

IMG_7028

Y, finalmente, la esperanza del cuadrado medio residual: este siempre lo podemos poner directamente como la sigma al cuadrado del modelo: la varianza residual, la varianza de las condiciones experimentales que siempre suponemos que es igual en todas las condiciones, por eso no tiene subíndice.

Pues ya lo tenemos. Podemos ver que coincide con las esperanzas de los cuadrados medios expuestos en el modelo ANOVA de dos factores a efectos mixtos.

Pues vamos ahora a practicar. Vamos a calcular mediante este Algoritmo las esperanzas de los cuadrados medios del modelo ANOVA de dos factores a efectos fijos:

La matriz sería:

IMG_7029

Y el cálculo de las esperanzas medias es:

IMG_7030

Vayamos ahora con otro caso, el modelo ANOVA de dos factores a efectos aleatorios:

La matriz:

IMG_7031

Las esperanzas:

IMG_7032

Otro ejemplo, ahora con factores anidados. El modelo ANOVA de dos factores anidados a efectos fijos:

La matriz es:

IMG_7039

Y las esperanzas son:

IMG_7040

Otro modelo, el ANOVA de dos factores anidados a efectos aleatorios:

La matriz es:

IMG_7041

Y las esperanzas de los cuadrado medios es:

IMG_7042

Y ahora casos un poco más complejos. Primero el modelo ANOVA con dos factores fijos cruzados y un tercer factor fijo anidado en ellos:

IMG_7048

Los cuadrados medios se calculan así:

IMG_7043

Otro modelo: ANOVA con dos factores fijos cruzados y un tercer factor aleatorio anidado en ellos:

IMG_7048

Las esperanzas son:

IMG_7044

Otro modelo: ANOVA de tres factores fijos anidados sucesivamente:

IMG_7050

Esperanzas:

IMG_7045

Veamos un modelo que es una variante del anterior. Tres factores anidados sucesivamente pero donde el primero es fijo y los otros dos son aleatorios. El modelo sería el siguiente:

captura-de-pantalla-2016-12-16-a-las-10-14-12

Y las esperanzas:

captura-de-pantalla-2016-12-16-a-las-10-14-24

Otro modelo: ANOVA de dos factores fijos cruzados y un tercer factor aleatorio anidado en uno de esos dos factores fijos:

IMG_7050

Esperanzas:

IMG_7046

Con todo lo visto podemos apreciar que mediante este Algoritmo de Bennet-Franklin tenemos un poderoso instrumento para poder encontrar las esperanzas de los cuadrados medios. Esto es clave para saber cuáles son los concientes que hay que hacer para contrastar los diferentes contrastes de hipótesis en cada modelo.

Estos cocientes son claves porque de lo que se trata con ellos es que en el numerador y en el denominador del cociente se estime lo mismo en el caso de ser cierta la Hipótesis nula. Que en el numerados el único elemento diferencial con el denominador sea el efecto focalizado en el contraste implicado. De esta forma si la F-ratio calculada es un valor pequeño deberemos mantener la Hipótesis nula y si ese F-ratio es grande la rechazaremos. Y lo haremos con razón porque el único elemento diferencial, como digo, será el elemento del contraste en cuestión.

La eta cuadrada y la eta cuadrada parcial

La eta cuadrada y la eta cuadrada parcial son dos medias del tamaño del efecto (Effect size) en ANOVA. Observemos qué calculo es cada una de ellas:

IMG_5983

Suele considerarse que una eta cuadrada en torno a 0,01 es poco efecto, que una eta cuadrada en torno a 0,06 indica un efecto medio y que una eta cuadrada superior a 0,14 es ya un efecto grande.

Son cálculos hechos, todos ellos, a partir de la tabla ANOVA, pero con una particularidad: como sucede en toda medida del tamaño del efecto, no depende del tamaño de muestra, porque no es una medida de Significación formal, es una medida de Significación material. Sería recomendable leer el artículo dedicado a la Significación formal y material.

Digo que no dependen del tamaño muestral porque los cálculos están hemos con las sumas de cuadrados, no con los cuadrados medios. El cálculo del p-valor depende de concientes de cuadrados medios, como podemos ver en las técnicas ANOVA (Ver el Tema dedicado al ANOVA.