Archivos Mensuales: enero 2013

Comparación entre técnicas de comparaciones múltiples

Es muy interesante comparar las principales técnicas de comparaciones múltiples (LSD de Fisher, BSD de Bonferroni, HSD de Tukey, Duncan, Newman-Keuls y Scheffé). Todas ellas funcionan, como puede verse, buscando un umbral, fijo o móvil, a partir del cual establecer si hay diferencia significativa o no entre todas las posibles comparaciones múltiples. Para hacer una comparación veamos el umbral de cada una de ellas (Ver también el Herbario de técnicas para ver con más detalle de donde sale cada uno de estos umbrales):

IMG_5015

Veamos la aplicación de estas distintas técnicas a unos mismos datos. Se trata de una caso de un ANOVA de un factor a tres niveles fijos con los siguientes datos y con la siguiente tabla ANOVA:

IMG_5014

Este ANOVA ha resultado significativo. El p-valor es 0.0001. Por lo tanto, sabemos que no son iguales los tres niveles, porque rechazamos la Hipótesis nula de igualdad de medias entre los tres niveles. Sabemos, pues, que no son iguales, pero lo que no sabemos todavía es cuáles son las diferencias. En nuestro caso no sabemos si son los tres niveles distintos o si son dos iguales y uno tercero es el que es diferente.

Para responder a esta duda es para lo que disponemos de estas técnicas de comparaciones múltiples que estamos ahora comparando. Voy a aplicar, a continuación, a los mismos datos, los diferentes métodos de comparaciones múltiples que estamos viendo:

IMG_5013

Podemos ver que no todos dan lo mismo. Podemos ver que el Test de Bonferroni, el de Tukey y el de Scheffé son más conservadores, les cuesta más ver diferencias.

Cuando las cosas son claras todas las comparaciones múltiples dan el mismo perfil. Cuando las cosas son dudosas es cuando observaremos diferencias entre los perfiles aportados por uno u otro método de comparaciones múltiples. Cada uno tiene su particular exigencia a la hora de establecer una diferencia significativa entre dos medias. Pero, repito, si las cosas son muy claras todos acaban dibujando el mismo perfil.

Test de Scheffé

El Test de Scheffé es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de concretar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Scheffé crea también umbral, como las otras técnicas de comparaciones múltiples, y las diferencias que superen ese umbral serán, para el método, significativas, y las que no lo superen no lo serán.

IMG_5007

 

Para comparar las  diferentes técnicas de comparaciones múltiples es recomendable leer el articulo Comparación entre técnicas de comparaciones múltiples.

Test de Bonferroni

El Test de Bonferroni es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de concretar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Bonferroni hay que entenderlo en relación con el Test LSD de Fisher. Se basa en la creación de un umbral, el BSD (Bonferroni significant difference) por encima del cual, como el LSD en el Test LSD, la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será de estadísticamente significativa.

Si se comparan ambos test (Ver Test LSD en Herbario de técnicas) se verá que el cambio está en el nivel de significación elegido. En el Test de Bonferroni el nivel de significación se modifica en función del número de comparaciones a hacer. Esto elimina el problema de hacer comparaciones múltiples. Reduce el nivel de significación en tal medida que elimine el error de aplicar el test tantas veces al mismo tiempo.

El BSD se calcula, pues, de la siguiente forma:

IMG_5006

La peculiaridad de esta técnica es la reducción del nivel de significación, la división del nivel alfa habitual por M, el número total de comparaciones posibles de dos en dos. De esta forma se compensa el posible error que puede cometerse al ir haciendo muchas comparaciones dos a dos, cada una de ellas con esa prefijada posibilidad de error alfa.

Para ver una visión comparada de las diferentes técnicas de comparación múltiples ver el artículo Comparación entre técnicas de comparaciones múltiples.

Test de Newman-Keuls

El Test  Newman-Keuls es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de perfilar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

Este Test es realmente paralelo al Test de Duncan (Ver Herbario de técnicas). Utiliza un umbral móvil, como esa técnica, basado en el número de medias están implicadas en el recorrido de la resta de medias comparada pero con una diferencia: aquí el nivel de significación no cambia, no se altera, se mantiene en el general, que suele ser, como siempre en Estadística, 0.05. No aumenta como sucede en el Test de Duncan. Esto le convierte en un Test más conservador, con menos potencia.

Veamos cuál es en este Test el umbral empleado:

IMG_5005

Para comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test de Duncan

El Test de Duncan es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Duncan es muy similar al Test HSD de Tukey (Ver Herbario de técnicas), pero en lugar de trabajar con un umbral fijo trabaja con un umbral cambiante. Un umbral que dependerá del número de medias implicadas en la comparación.

Para saber el número de medias implicadas en la comparación se ordenan las medias muestrales de menor a mayor y así al hacer una comparación entre dos medias sabremos además de las dos medias comparadas cuantas medias quedan dentro. Este número de medias implicadas en cualquier comparación de medias es el parámetro p de este umbral.

Veamos este umbral y cómo se calcula:

IMG_5002

Se basa el procedimiento, también, en la distribución de los rangos estudentizados (Ver Test HSD de Tukey en el Herbario de técnicas).

Es interesante comparar el Test HSD y el Test de Duncan. Este cambio tanto en el número de medias implicada como en el nivel de significación genera un umbral más pequeño. Esto da una mayor capacidad de encontrar diferencias mediante el Test de Duncan porque los umbrales son más pequeños y, por lo tanto, es más fácil encontrar diferencias entre las medias comparadas. En estos casos, en Estadística, decimos que el Test de Tukey es más conservador que el Test de Duncan o que tiene menor potencia.

Si se quiere comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test HSD de Tukey

El Test HSD (Honestly-significant-difference) de Tukey es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Es, por lo tanto, un test que trata de perfilar, trata de especificar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

Se basa en la distribución del rango estudentizado que es la distribución que sigue la diferencia del máximo y del mínimo de las diferencias entre la media muestral y la media poblacional de t variables normales N(0, 1) independientes e idénticamente distribuidas.

Se establece así un umbral, como en otros métodos, como el Test LSD (Ver Herbario de técnicas). Se calculan todas las diferencias de medias muestrales entre los t niveles del factor estudiado. Las diferencias que estén por encima de ese umbral se considerarán diferencias significativas, las que no lo estén se considerarán diferencias no significativas.

IMG_4998

Observemos que el test está diseñado para el mismo tamaño muestral por nivel, por esto aparece esta n común. Si tenemos tamaños muestrales distintos se toma entonces como n la media armónica de esas medias. La media armónica de dos medias es la siguiente:

IMG_5003

Para nuestro caso debería generalizarse a t medias simplemente sustituyendo el 2 por el número t.

Para ver cómo funciona la distribución del rango estudentizado veamos una tabla donde se buscarían estos valores:

IMG_4999

Observemos que en la tabla hay un valor de el número de medias, en la nomenclatura seguida por nosotros sería la t, los t niveles del factor. En la tabla le llama k. Los grados de libertad son el N-t nuestro. La tabla da umbrales para dos niveles de significación alfa: 0.05 y 0.01.

Finalmente, para poder comparar esta técnica de comparaciones múltiples con las otras que suelen utilizarse leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test LSD de Fisher

El Test LSD (Least significant difference) de Fisher es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test se basa en la creación de un valor común, un umbral, basado en un test de la t de Student. Se realizan todas las diferencias entre medias de los t niveles. Las diferencias que estén por encima de este umbral indicarán una diferencia de medias significativa y las diferencias que estén por debajo indicarán una diferencia no significativa:

IMG_4997

Los paquetes estadísticos calculan este valor de LSD y a partir de él, calculan todas las diferencias de medias posibles y valoran cuáles están por encima y cuáles están por debajo de este umbral. Así acaban diseñando cuál es el perfil de la Hipótesis alternativa elegida mediante el ANOVA previo.

Para comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.