Archivos Mensuales: diciembre 2016

Solución Situación 106

Tenemos tres factores: Zona, Subzona y Técnica. Zona es fijo, Subzona es aleatorio y anidado dentro de zona, Técnica es fijo y está cruzado tanto con como con Subzona.

El modelo es exactamente el mismo que el de la Situación 41.

Para ve el modelo, el algoritmo de Bennet-Franklin y los cocientes a realizar para evaluar la significación de cada efecto ver la Solución Situación 41.

Aplicando este modelo a los datos de nuestro problema los resultados son los siguientes. La tabla ANOVA es la siguiente:

captura-de-pantalla-2016-12-23-a-las-11-45-00

Hay diferencias entre las tres zonas, entre subzonas dentro de las zonas, entre técnicas y también hay interacción entre técnicas y subzonas.

Los parámetros fijos significativos son:

captura-de-pantalla-2016-12-23-a-las-11-46-11

Las componentes de la varianza son las siguientes:

captura-de-pantalla-2016-12-23-a-las-11-45-16

La componente de la varianza residual la obtenemos del cuadrado medio residual y las otras dos de resolver las ecuaciones que tenemos de las esperanzas de los cuadrados medios:

captura-de-pantalla-2016-12-23-a-las-11-52-03

Si sumamos las componentes de la varianza obtenemos una varianza total de 31,94. Su raíz cuadrada (5,65) nos proporciona la desviación estándar total.

Esto nos permite encontrar distribiciones de grupos concretos. Por ejemplo:

La distribución de la Zona 2 y Técnica 1 será una N(31,51; 5,65).

La distribución de la Zona 2 y Técnica 2 será una N(44,21; 5,65).

A estas distribuciones llegamos por la suposición de normalidad de los datos y de igualdad de varianzas que, evidentemente, debemos comprobar. Al 31,51 llegamos sumando a la media global (la constante) el valor de los parámetros de los dos factores fijos de Zona 2 y Técnica 1 (9,51 y -6,35, respectivamente). Al 44,21 llegamos sumando a la misma media global el valor de los parámetro de los dos factores fijos de Zona 2 y Técnica 2 (9,51 y 6,35, respectivamente). La desviación estándar es la del total.

La distribución de la resta de la Z2, T2 menos la zona Z2, T1 sería: N(12,7; 8). Para llegar a ello aprovechamos un resultado típico de la distribución normal. Al restar dos normales tenemos una variable con distribución normal  con una media que es la resta de las medias y una varianza que es la suma de las varianzas.

Para saber, entonces, por ejemplo, la probabilidad que la resta de estos dos grupos, a nivel poblacional, sea superior a 9 bastará calcular el área que hay por encima de 9 en esa distribución.

 

Situación 106: Un problema de ANOVA

Supongamos que hemos seleccionado en dos zonas concretas que queremos comparar y de esas dos zonas hemos elegido al azar tres subzonas para ver el grado de homogeneidad que hay entre ellas. Queremos evaluar la concentración de un contaminante. Hemos tomado una muestra en cada una de esas seis subzonas. Hemos dividido cada muestra en diez submuestras. A cinco les aplicamos una técnica y las otras cinco otra técnica. Queremos, pues, también, comparar esas técnicas. Los resultados obtenidos son los siguientes:

captura-de-pantalla-2016-12-23-a-las-12-04-10

Analizar estos datos con el modelo ANOVA apropiado.

 

Situación 105: Examen práctico (Temas 1-15)

Se pretende estudiar la relación entre la biomasa del alga Spartina alterniflora y cinco variables ambientales en muestras obtenidas en tres zonas marinas distintas y a tres profundidades diferentes. Las variables son las siguientes:

Z=Zona

P=Profundidad

S=Salinidad en tanto por mil.

A=Acidez (pH)

K=Potasio (ppm)

Na=Sodio (ppm)

Zn=Zinc (ppm)

B=Biomasa (g/m2)

Z P S A K Na Zn B
1 1 33 5,00 1441,67 35184,50 16,45 676
1 1 35 4,75 1299,19 28170,40 13,99 516
1 1 32 4,20 1154,27 26455,00 15,33 1052
1 1 30 4,40 1045,15 25072,90 17,31 868
1 1 33 5,55 521,62 31664,20 22,33 1008
1 2 33 5,05 1273,02 25491,70 12,28 436
1 2 36 4,25 1346,35 20877,30 17,82 544
1 2 30 4,45 1253,88 25621,30 14,35 680
1 2 38 4,75 1242,65 27587,30 13,68 640
1 2 30 4,60 1282,95 26511,70 11,76 492
1 3 30 4,10 553,69 7886,50 9,88 984
1 3 37 3,45 494,74 14596,00 16,68 1400
1 3 33 3,45 526,97 9826,80 12,37 1276
1 3 36 4,10 571,14 11978,40 9,41 1736
1 3 30 3,50 408,64 10368,60 14,93 1004
2 1 30 3,25 646,65 17307,40 31,29 396
2 1 27 3,35 514,03 12822,00 30,17 352
2 1 29 3,20 350,73 8582,60 28,59 328
2 1 34 3,35 496,29 12369,50 19,88 392
2 1 36 3,30 580,92 14731,90 18,51 236
2 2 30 3,25 535,82 15060,60 22,13 392
2 2 28 3,25 490,34 11056,30 28,61 268
2 2 31 3,20 552,39 8118,90 23,19 252
2 2 31 3,20 661,32 13009,50 24,69 236
2 2 35 3,35 672,15 15003,70 22,68 340
2 3 29 7,10 525,65 10225,00 0,37 2436
2 3 35 7,35 563,13 8024,20 0,27 2216
2 3 35 7,45 497,96 10393,00 0,32 2096
2 3 30 7,45 458,38 8711,60 0,26 1660
2 3 30 7,40 498,25 10239,60 0,21 2272
3 1 26 4,85 936,26 20436,00 18,99 824
3 1 29 4,60 894,79 12519,90 20,97 1196
3 1 25 5,20 941,36 18979,00 23,98 1960
3 1 26 4,75 1038,79 22986,10 19,97 2080
3 1 26 5,20 898,05 11704,50 31,39 1764
3 2 25 4,55 989,87 17721,00 23,71 412
3 2 26 3,95 951,28 16485,20 30,56 416
3 2 26 3,70 939,83 17101,30 26,84 504
3 2 27 3,75 925,42 17849,00 27,73 492
3 2 27 4,15 954,11 16949,60 21,57 636
3 3 24 5,60 720,72 11344,60 19,65 1756
3 3 27 5,35 782,09 14752,40 20,33 1232
3 3 26 5,50 773,30 13649,80 19,59 1400
3 3 28 5,50 829,26 14533,00 20,13 1620
3 3 28 5,40 856,96 16892,20 19,24 1560
  1. Hacer una estadística descriptiva de la variable Biomasa en cada una de las tres zonas.
  2. Calcular la correlación entre las seis variables cuantitativas del estudio.
  3. Estudiar si hay relación entre un pH superior o inferior a 5 y una biomasa superior o inferior a 1000. Si tuvieras que cuantificar esa relación, ¿cómo lo harías y cuál sería su valor?
  4. Buscar un modelo que prediga la biomasa a partir del conocimiento de las variables físico-químicas y evaluar la calidad predictiva de dicho modelo.
  5. Comparar si hay una diferencia estadísticamente significativa, en cuanto a la variable Biomasa, entre los dos grupos siguientes: los niveles de pH superior o igual a 5 y los niveles de pH inferior a 5.
  6. Comparar si hay una diferencia, estadísticamente significativa, en cuanto a la variable Biomasa, entre los dos grupos siguientes: los niveles de salinidad superior o igual a 30 y los niveles de salinidad inferior a 30.
  7. Estudiar si hay diferencias entre estas tres zonas y entre estas tres profundidades estudiadas en cuanto a la variable Biomasa. Evaluar, también, si hay interacción entre el factor zona y el factor profundidad.

 

Situación 104: Examen (Temas 13-16)

1.¿Cuál de las siguientes afirmaciones no es cierta?

a)Si en una comparación de dos poblaciones debemos aplicar un Test de Fisher es que las muestras son independientes y que ambas se ajustan a la distribución normal.

b)En un contraste de hipótesis para evaluar el ajuste a la distribución normal un p-valor inferior a 0.05 indica que hay suficiente ajuste de los datos a la distribución normal.

c)Con una potencia superior al 80% nos podemos fiar del p-valor que tengamos.

d)Podemos tener en un ANOVA de dos factores no significativos (p-valor>0.05) y una interacción significativa (p-valor<0.05).

2.En un estudio donde se quiere comparar la cantidad de un contaminante en las playas de dos poblaciones distintas tenemos 50 observaciones en cada una de las dos playas. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor mayor que 0.05. El test de Fisher-Snedecor nos proporciona una p=0.001. Es cierto lo siguiente:

a)Debemos aplicar el test de la t de Student para varianzas desiguales y si tenemos un p-valor inferior a 0.05 debemos concluir que las medias son diferentes.

b)Debemos aplicar el test de la t de Student para varianzas desiguales y si tenemos un p-valor inferior a 0.05 debemos concluir que las medias no son diferentes.

c)Debemos aplicar el Test de Mann-Whitney.

d)Debemos aplicar el Test de la t de Student de datos apareados.

3.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.1 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar de ambas muestras sin modificar el tamaño de muestra el p-valor bajará.

c)Si aumentamos las diferencias de medias entre ambas muestras y disminuimos la desviación estándar el p-valor bajará.

d)Si aumentamos el tamaño de muestra y disminuimos la diferencia de medias el p-valor bajará.

4.Se analiza el porcentaje de una especie en el fitoplancton en 40 puntos del océano pacífico y 40 puntos del océano atlántico. Después de un año se hace lo mismo en los mismos puntos y se vuelve a calcular el porcentaje de esa misma especie. En el pacífico en el 10% de puntos ha disminuido el porcentaje de esta especie y en el atlántico en el 5%. Queremos comparar si esa diferencia es estadísticamente significativa. Debemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Wilcoxon.

d)El Test de McNemar.

5.Hemos analizado la cantidad de biomasa en tres profundidades determinadas en tres zonas del mar distintas. En cada zona y profundidad hemos tomado tres muestras en tres botellas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-36-46

¿Cuál es la afirmación más razonable?:

a)Factor Z: p>0.05. Factor P: p>0.05. Interacción: p>0.05.

b)Factor Z: p<0.05. Factor P: p>0.05. Interacción: p<0.05.

c)Factor Z p>0.05. Factor P: p>0.05. Interacción: p<0.05.

d)Factor Z: p>0.05. Factor P: p<0.05. Interacción: p>0.05.

6.Queremos comparar dos políticas medio-ambientales distintas que pretenden reducir el nivel de contaminación en playas. Se han escogido dos playas piloto muy similares entre sí. En cada una de ellas se eligen 30 puntos fijos detectables perfectamente por la posición de una bolla. Tenemos dos datos del contaminante: antes de la acción medio-ambiental aplicada y un mes después de la constante aplicación de la medida. La variable estudiada es una variable cuantitativa. ¿Cuáles son los pasos a seguir?:

a)Se comprueba la normalidad del antes y del después, en cada playa, y se aplica el test de datos apareados adecuado (si hay normalidad el test de la t de Student de datos apareados y si no hay normalidad el test de Wilcoxon o el test de los signos).

b)Se comprueba la normalidad de la resta del antes menos el después, en cada playa, y se aplica el test de datos apareados adecuado (si hay normalidad el test de la t de Student de datos apareados y si no hay normalidad el test de Wilcoxon o el test de los signos).

c).Se comprueba la normalidad de la resta del antes menos el después, en cada playa, y se aplica el test de muestras independientes adecuado (si hay normalidad el test de la t de Student de muestras independientes que corresponda y si no hay normalidad el test de Mann-Whitney).

d)Se comprueba la normalidad del antes y del después, en cada playa, y se aplica el test de muestras independientes adecuado (si hay normalidad el test de la t de Student de muestras independientes que corresponda y si no hay normalidad el test de Mann-Whitney).

7.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos tenemos una potencia del 50% y el p-valor que obtenemos es de 0.45?

a)El error de tipo I.

b)El error de tipo II.

c)Ambos errores: El error de tipo I y el error de tipo II.

d)No podemos cometer error en este caso porque el p-valor es claramente superior a 0.05.

8.¿Cuál de las siguientes afirmaciones no es cierta?

a)Una potencia del 85% se corresponde con un error de tipo I de 0.15.

b)Si dos muestras relacionadas de una variable cuantitativa su resta no se ajusta bien a la distribución normal debemos aplicar o el test de los signos o el test de Wilcoxon.

c)En un ANOVA de dos factores anidados no puede evaluarse la interacción entre factores.

d)Un test de Mann-Whitney puede hacerse aunque haya diferencia de varianzas significativa entre los dos grupos comparados.

9.Hemos hecho un estudio en tres playas del litoral. En cada una de ellas se ha elegido, al azar, dos subzonas. Se han tomado muestras a 0, 10 y 20 metros. Se han tomado tres botellas en cada punto de muestreo. Se ha cualificado la cantidad de un contaminante. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-37-00

¿Cuál es la afirmación más razonable?:

a)Estamos ante un estudio con tres factores cruzados. El factor profundidad será significativo y tendrá dos grupos homogéneos.

b)El factor profundidad será significativo y tendrá tres grupos homogéneos en las comparaciones múltiples

c)El factor subzona está anidado dentro de zona y tanto el factor zona como el factor subzona están cruzados con el factor profundidad. El factor profundidad es significativo y el factor subzona también.

d)El factor subzona está anidado dentro de zona y el factor profundidad está anidado dentro de subzona. El factor profundidad es significativo y el factor zona no.

10.Se quiere hacer un pronóstico de la media poblacional de la cantidad de un contaminante en aguas marinas. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% de radio 2 si la Desviación estándar que tenemos en una muestra piloto es de 5?:

a)20.

b)25.

c)30.

d)50.

Solución Situación 104

1b: Si el p-valor es menor que 0.05 debemos rechazar la hipótesis nula. Y en un test de ajuste a la normal la hipótesis nula es normalidad.

2a: Hay normalidad, no hay igualdad de varianzas y por lo tanto hay que aplicar un test de la t de Student de varianzas diferentes. Si el p-valor es inferior a 0.05 en este último test debemos concluir que las medias poblacionales son distintas.

3c: Aumentar el tamaño de muestra y disminuir la desviación estándar van en la misma dirección de reducir el p-valor. Por lo tanto, esta es la opción correcta.

4b: El tamaño muestral es mayor que 30 pero el valor esperado por grupo, bajo la hipótesis nula es menor que 5. El valor esperado es 3, puesto que hay 4 (10% de 40) casos en una muestra y 2 (5% de 40) en la otra.

5c: Ninguno de los dos factores será significativo y claramente hay interacción puesto que las profundidades se comportan de forma muy distinta según las zonas.

6c: Se pretende comparar dos muestras independientes, aunque hay dos valores por cada punto muestral. Deberá trabajarse con la variable resta y comprobar la normalidad de cada muestra. En función de ello se aplicará uno de los dos test de la t de Student de muestras independientes o el Test de Mann-Whitney.

7b: Como el p-valor es mayor que 0.05 mantendremos la hipótesis nula por lo que podremos estar cometiendo el error de tipo II.

8a: Si la potencia es del 85% es el error de tipo II el que será de 0.15, no el de tipo I.

9c: Subzona está anidado en zona y profundidad está cruzado con zona y subzona. Profundidad y subzona son claramente significativos.

10b: Aplicando la fórmula para el cálculo del tamaño de muestra en variables cuantitativas obtenemos este resultado.

 

Solución Situación 103

1.Se trata de un diseño con tres factores. Zona es un factor fijo, Subzona es un factor aleatorio anidado en el factor Zona. Profundidad es un factor fijo cruzado con los dos factores restantes. El modelo sería el mismo que el visto en la Situación 41.

Los factores Profundidad y Subzona parecen, viendo los datos, significativos. El factor zona, no.

2.Se trata de un diseño con tres factores. Zona es un factor fijo, Política ambiental es un factor también fijo y cruzado con el factor Zona. Laboratorio sería un factor aleatorio anidado en la interacción de los otros dos factores. El modelo sería el mismo que el visto en la Situación 45.

Los factores Zona y Política ambiental parecen significativos, viendo los datos. El factor Laboratorio, no.

3. Se trata de un diseño de tres factores. Zona es un factor fijo, Subzona es un factor aleatorio anidado en el factor Zona. Operario es también un factor aleatorio anidado en el factor Subzona. El modelo es el siguiente:

captura-de-pantalla-2016-12-16-a-las-10-14-12

El algoritmo de Bennet-Franklin nos proporciona las esperanzas de los cuadrados medios y n los cocientes que hay que hacer en la tabla ANOVA para encontrar los efectos significativos del modelo:

captura-de-pantalla-2016-12-16-a-las-10-14-24

Los factores Zona y Operario parecen significativos. Pero Subzona, no.

4.Tenemos tres factores fijos y cruzados. El modelo es:

captura-de-pantalla-2016-12-19-a-las-12-34-07

La resolución de este modelo no presenta ninguna dificultad por tratarse de factores fijos y cruzados. Todos los cocientes se realizan respecto del residuo.

Viendo los datos parece que los únicos efectos significativos serán los producidos por el factor Zona y el factor Política ambiental.

5.Estamos ante un diseño con cuatro factores. El factor zona es fijo. El factor subzona es aleatorio y anidado en el factor zona. El factor operario es también aleatorio y anidado en subzona. El factor técnica es fijo y cruzado con los otros tres factores. El modelo sería:

captura-de-pantalla-2016-12-19-a-las-12-22-28

El algoritmo de Bennet-Franklin nos proporciona las esperanzas de los cuadrados medios y n los cocientes que hay que hacer en la tabla ANOVA para encontrar los efectos significativos del modelo:

captura-de-pantalla-2016-12-19-a-las-12-22-41

Viendo los datos parecen significativos los cuatro factores.

 

Situación 103: Ejemplos de ANOVA

1. Supongamos que hemos estudiado la cantidad de un contaminante en tres zonas del litoral concretos que queremos comparar. En cada uno de ellos hemos elegido al azar dos subzonas porque queremos ver la homogeneidad que hay en cada zona. Hemos estudiado el agua a tres profundidades: 0, 10 y 20 metros. En cada punto hemos efectuado tres réplicas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-37-00

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

2. Supongamos que en tres zonas que expresamente queremos comparar hemos aplicado a dos subzonas de cada una de ellas, completamente equivalentes, dos políticas medio-ambientales distintas que pretendemos también comparar. Los resultados los hemos encargado a doce laboratorios elegidos al azar con la finalidad, también, de medir el grado de fiabilidad que nos pueden aportar ellos. Cada laboratorio hace cinco réplicas de la muestra recibida. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-21-13

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

3. Supongamos que en tres zonas que expresamente queremos comparar hemos elegido dos subzonas al azar con la finalidad de evaluar la homogeneidad que haya dentro de las zonas. Hemos evaluado la concentración de un determinado contaminante. Hemos tomado una muestra de cada subzona y hemos encargado a diferentes estudiantes para que realicen los análisis. Cada alumno, cada operario, realizaba cuatro réplicas de una única muestra. Queríamos ver, también, el grado de dispersión que hay entre los análisis hechos por estudiantes de ciencias ambientales. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-33-25

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

4. Supongamos que en dos zonas que expresamente queremos comparar hemos aplicado a dos subzonas de cada una de ellas, completamente equivalentes, dos políticas medio-ambientales distintas que pretendemos también comparar. Los resultados los hemos encargado a tres laboratorios que expresamente también queremos comparar. Cada laboratorio realizaba tres réplicas de cada una de las muestras recibidas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-35-47

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

5. Supongamos que en dos zonas que expresamente queremos comparar hemos elegido dos subzonas al azar con la finalidad de evaluar la homogeneidad que haya dentro de las zonas. Hemos evaluado la concentración de un determinado contaminante. Hemos tomado una muestra de cada subzona y hemos encargado a diferentes estudiantes para que realicen los análisis. Hemos evaluado, con la finalidad de compararlas, dos técnicas analíticas que existen para evaluar la concentración de ese contaminante. Cada alumno, cada operario, realizaba tres réplicas de una única muestra en cada uno de las dos técnicas. Queríamos ver, pues, también, el grado de dispersión que hay entre los análisis hechos por estudiantes de ciencias ambientales. Los resultados son los siguientes:

captura-de-pantalla-2016-12-19-a-las-12-00-10

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?