Archivos Mensuales: enero 2016

Base de datos de Investigación de mercados

La siguiente base de datos de una investigación de mercados tiene la siguientes variables:

P=Persona

Z=Zona (1, 2)

S=Sexo (h=hombre, m=mujer)

E=Edad

P1=Producto 1 (Si=Consumiría, No=No consumiría)

P2=Producto 2 (Si=Consumiría, No=No consumiría)

P3=Producto 3 (Si=Consumiría, No=No consumiría)

P4=Producto 4 (Si=Consumiría, No=No consumiría)

R=Renta anual

F=Número de miembros en su unidad familiar

Captura de pantalla 2016-01-31 a las 10.33.57

 

  1. Estadística descriptiva e Intervalos de confianza:

a) Hacer una estadística descriptiva de la variable Sexo en la muestra de la Zona 1 y otra en la muestra de la Zona 2.

b) Hacer una estadística descriptiva de la variable Número de miembros de la unidad familiar en la muestra de cada una de las dos zonas.

c) Hacer una descriptiva reducida, en dos o tres valores fundamentales, de la variable Renta, en cada uno de los dos grupos del estudio.

d) Hacer una predicción, mediante un intervalo de confianza, del porcentaje de consumo del producto 1.

e) Hacer una predicción, mediante un intervalo de confianza, de la Renta media poblacional en cada una de las dos zonas.

SOLUCIONES:

1.

a) En la zona 1:

img_3228

img_3229

En la zona 2:

img_3230

img_3231

b) La variable Número de miembros de la unidad familiar se podría resumir tanto como variable cuantitativa como variable cualitativa. Lo hago como cuantitativa, pero como cualitativa sería perfectamente factible.

Zona 1:

img_3232

img_3233

Zona 2:

img_3234

img_3235

c) La descriptiva de la variable Renta en la zona 1:

img_3236

Como se ajusta a la distribución normal, porque tanto la Asimetría estandarizada como la Curtosis estandarizada están entre -2 y 2 podemos resumirla brevemente con la media y la desviación estándar:

34297.6±21.730.26

La descriptiva de la variable Renta en la zona 2:

 img_3237

Como no se ajusta a la distribución normal, porque tanto la Asimetría estandarizada como la Curtosis estandarizada están fuera del -2 y 2, no podemos resumirla brevemente con la media y la desviación estándar y debemos hacerlo con la mediana y el rango intercuartílico, expresado con el primer y tercer cuartil:

20575 (14700-31800)

d) El producto 1 reuniendo las dos zonas tenemos la siguiente descriptiva:

img_3238

El 24% parece que consumirá el producto. Esto es la estimación, pero debemos construir un intervalo de confianza. Aplicando el procedimiento de construcción de intervalos de confianza del 95% para una proporción visto en el tema 3 obtenemos:

img_3244

e) Para hacer un intervalo de confianza de la media de la renta en la zona 1 y en la zona 2 debemos usar la media y el error estándar. Al construir intervalos de confianza de la media no es preciso la comprobación de la normalidad de la muestra, especialmente si el tamaño de muestra es a partir de 30 valores, porque en estos casos siempre se cumple la normalidad. Pensemos que estamos hablando de la normalidad de la variable media, no de la variable original, que en la zona 2 hemos visto que claramente no se ajusta a la normalidad. Pero la media sí se ajusta porque el tamaño de muestra es 50, que es mayor que 30.

Zona 1:

34297.6±2×3073.12

34297.6±6146.24

Zona 2:

25008.4±2×1994.8

25008.4±3989.6

2. Técnicas de relación:

a) Calcular la correlación de Pearson entre Edad y Renta. ¿Es estadísticamente significativa?

b) ¿Hay alguna relación, estadísticamente significativas, entre el consumo de los productos 3 y 4?

c) ¿Dónde hay más relación entre el consumo de los productos 3 y 4, en los hombres o en las mujeres?

Soluciones:

a) La correlación de Pearson es r=0.10 con un p-valor de 0.318. Por lo tanto, es una correlación que no es estadísticamente significativa.

b) La ji-cuadrado de la relación entre el consumo del producto 3 y 4 es de 79.39 con una p<0.05 y una V de Crámer V=0.89.

c) En Hombres la relación entre el consumo del producto 3 y 4 es estadísticamente significativa con una ji-cuadrado de 20.61 y una p<0.05. Y una V=0.76.

En Mujeres la relación entre el consumo del producto 3 y 4 es, también, estadísticamente significativa, con una ji-cuadrado de 59.84 y una p<0.05. Y una V=0.97.

La relación es más intensa en las mujeres puesto que la V es mayor.

3. Técnicas de comparación:

a) Hacer una comparación entre las dos zonas de la muestra para la variable Renta.

b) Hacer una comparación entre las dos zonas para la variable Consumo de P2.

c) Hacer un ANOVA de dos factores con interacción para la variable Renta con los factores Zona y Sexo.

Soluciones:

a) La variable renta es continua, las muestras son independientes y ninguna de las dos se ajusta a la distribución normal (p<0.05 con el Test de Shapiro-Wilk). Por lo tanto, hay que aplicar el Test de Mann-Whitey. El p-valor es 0.0553, por lo que no podemos decir que haya diferencias estadísticamente significativas. Es cierto que es muy justo este p-valor. Sólo que la muestra fuera un poco más grande la diferencia sería significativa, con toda probabilidad.

b) La variable es dicotómica, las muestras son independientes, el tamaño de muestra es mayor que 30 y el valor esperado por grupo es mayor o igual que 5, por lo que podemos aplicar el test de proporciones o el test de la ji-cuadrado. Al hacerlo el p-valor es mayor que 0.05, por lo que no puede considerarse que hay una diferencia estadísticamente significativa entre ambas zonas en cuanto al consumo del P2.

c) Si se realiza un ANOVA de dos factores observamos que hay diferencia entre zonas, que hay diferencia entre sexos y que hay interacción. Los tres p-valores son menores que 0.05. En la zona 1 hay mucha igualdad de rentas entre sexos y, sin embargo, en la zona 2 hay una marcada diferencia entre las rentas de ambos sexos en perjuicio de las mujeres.

Base de datos de Trastorno bipolar

La siguiente base de datos de pacientes de con Trastorno bipolar y controles tiene la siguientes variables:

P=Número de Paciente

G=Grupo (Control, Bipolar)

S=Sexo (h=hombre, m=mujer)

E=Edad

ES=Estudios superiores (Sí, No)

D=Diabetes mellitus (Sí, No)

V=Autovaloración negativa (Sí, No)

F=Antecedentes de bipolaridad en familia directa (Sí, No)

CI=Coeficiente de inteligencia

A=Número de amigos considerados como íntimos

Captura de pantalla 2016-01-31 a las 10.32.42

  1. Estadística descriptiva e Intervalos de confianza:

a) Hacer una estadística descriptiva de la variable Sexo en la muestra de pacientes con Trastorno bipolar y otra en el grupo control.

b) Hacer una estadística descriptiva de la variable Número de amigos en la muestra de pacientes con Trastorno bipolar y otra en el grupo control.

c) Hacer una descriptiva reducida, en dos o tres valores fundamentales, de la variable Coeficiente de inteligencia, en cada uno de los dos grupos del estudio.

d) Hacer una predicción, mediante un intervalo de confianza, del porcentaje de Antecedentes de bipolaridad en familia directa en pacientes con diagnóstico de Trastorno bipolar.

e) Hacer una predicción, mediante un intervalo de confianza, del coeficiente de inteligencia medio poblacional de los pacientes con Trastorno bipolar y otra predicción en el grupo de las personas que no lo tienen.

Soluciones:

a) En el grupo control:

img_3141

img_3142

En el grupo con trastorno bipolar:

img_3143

img_3144

b) Es una variable cuantitativa, y así la describo, pero es de esas variables que podría describirse como cualitativa por el pequeño número de valores posibles que maneja.

En el grupo control:

img_3145

img_3146

En el grupo con trastorno bipolar:

img_3147

img_3148

 c) Para describir brevemente una variable cuantitativa basta ver si hay o no ajuste a la distribución normal.

En el grupo control una descriptiva sería:

img_3149-1

Como tanto la Asimetría estandarizada como la Curtosis estandarizada están entre -2 y +2 podemos resumir esa variable en ese grupo con la media y la Desviación estándar; o sea, 105.78±11.67.

En el grupo de transtorno bipolar la descriptiva es:

img_3150-1

Como tanto la Asimetría estandarizada como la Curtosis estandarizada están fuera del intervalo -2 y +2 debemos resumir esa variable con la mediana y el primer y tercer cuartil; o sea: 101 (95-107).

d) Entre los pacientes con trastorno bipolar los que tienen antecedentes son un 54%:

img_3151-2

Para construir el intervalo de confianza del valor del porcentaje poblacional debemos calcularlo o mediante la fórmula que aparece en el tema 3 ó mediante un software.

Mediante el software calculamos:

img_3152-2

En concreto sale que ese intervalo, expresado en porcentajes, es: (39.32%, 68.19%).

Mediante la fórmula del tema 3:

img_3154

Los resultados no son exactamente iguales porque aunque la fórmula se use el 2, el valor correcto es 1,96 lo que hace que el intervalo exacto, que es el que calcula todo software, sea un poco más estrecho.

e) Para construir un IC del 95% de la media del coeficiente de inteligencia basta tener la media y sumarle y restarle dos veces el error estándar, porque estamos ante una predicción y porque el intervalo es del 95%.

En el grupo control:

Media=105.78

EE=1.65

IC95% de la media: (102.48, 109.08)

En el grupo del trastorno bipolar:

Media=102.2

EE=1.33

IC95% de la media: (99.54, 104.86)

2. Técnicas de relación:

a) Calcular la correlación entre la variable Edad y la variable Coeficiente de inteligencia.

b) ¿Hay relación entre el sexo y tener o no trastorno bipolar?

c) Estudiar si son factores de riesgo o de protección para tener Trastorno bipolar las siguientes variables: Diabetes, Autovaloración negativa, Antecedentes de trastorno bipolar.

Soluciones:

a) Si se calcula la correlación de Pearson se obtiene una R=-0.2593 (p=0.009). Por lo tanto, hay una correlación negativa significativa. Es cierto que una variable (la Edad) no se ajusta bien a la distribución normal y podría calcularse la correlación de Spearman, pero la anormalidad es muy poca y no es tan problemático su incumplimiento a la hora de calcular una correlación de Pearson. No obstante, calcular la de Spearman es perfectamente correcto.

Vista esta correlación deberíamos decir que la gente más joven es ligeramente más inteligente, al ser la correlación negativa. Sin embargo, se trata de una correlación muy débil.

b) Si se hace una ji-cuadrado se detecta una relación estadísticamente significativa (p=0.037 entre sexo y Trastorno bipolar. Los que indica una asociación entre el sexo y esa patología.

c) Las Odds ratio y su intervalo de confianza del 95% son las siguientes:

Diabetes: OR=0.64 (0.12, 2.91)

Autovaloración negativa: OR= 3.54 (1.37, 9.38)

Antecedentes familiares: OR= 6.16 (2.23, 18.05)

Por lo tanto, la diabetes no es un factor ni de riesgo ni de protección. La autovaloración negativa es un factor de riesgo. Tener antecedentes familiares es un factor de riesgo. Observemos que con antecedentes tendrías 6 veces más probabilidad de tener ese trastorno que sin tenerlos.

3. Técnicas de comparación:

a) Hacer una comparación de las medias de la variable Edad entre el grupo control y el grupo de pacientes con trastorno bipolar.

b) Hacer una comparación de los porcentajes de mujeres entre el grupo control y el grupo de pacientes con trastorno bipolar.

c) Hacer una ANOVA de dos factores con interacción de la variable Coeficiente de inteligencia y los factores grupo (Control y Trastorno bipolar) y sexo (Hombre y Mujer).

Soluciones:

a) La variable es continua, las muestras son independientes. Si se aplica el test de Shapiro-Wilk para comprobar la normalidad la muestra del grupo control da un p-valor superior a 0.05 y la muestra del grupo del transtorno bipolar da un p-valor inferior a 0.05. Como no ambas muestras se ajustan a la distribución normal debemos aplicar el Test de Mann-Whitney. Si aplicamos este test el p-valor es superior a 0.05, por lo que la mediana de edad de ambos grupos no es distinta significativamente.

b) La variable es dicotómica. La muestras son independientes. El tamaño de muestras es superior a 30 y el valor esperado por grupo mayor que 5. Debemos aplicar un test de proporciones. Da un p-valor de 0.032, lo que indica que la proporción de mujeres en ambos grupos es distinta significativamente.

c) El ANOVA de dos factores da un p-valor menor que 0.05, en cada uno de los dos factores, y un p-valor superior a 0.05 en la interacción. Como se trata de dos factores con dos niveles cada uno es evidente que únicamente tenemos dos grupos homogéneos en cada uno de los dos factores.

Solución Situación 93

1d: Se trata de dos correlaciones significativas y podremos hacer una Regresión lineal simple y, efectivamente, en el primer caso la pendiente será positiva y en la segunda negativa, porque el signo de la correlación y el de la pendiente coinciden.

2c: Observemos que las cuatro muestras sólo difieren en el último valor. La muestra con mayor desigualdad de reparto será la que el cuarto valor, que es el mayor de la muestra en todos los casos, sea el valor más grande. La muestra c es la que tiene el último valor mayor.

3a: El error estándar es 10/100 porque la raíz cuadrada de 10000 es 100. Por lo tanto, el error estándar es 0.1. Como el intervalo de confianza de la media que nos piden es del 99.5% necesitamos sumar y restar 3 veces el error estándar a la media. Esto nos da la muestra a.

4c: Tenemos una variable cuantitativa, muestras relacionadas y la variable resta no se ajusta a la distribución normal. Por lo que tenemos que aplicar o el Test de los signos o el Test de Wilcoxon.

5b: Los dos valores de Asimetría estandarizada y de Curtosis estandarizada están entre -2 y 2. Por lo tanto, la variable se ajusta bien a la distribución normal. Por lo tanto, si restamos dos veces y sumamos también dos veces a la media la desviación estándar obtendremos una estimación del intervalo del 95% de los valores individuales en la población.

6c: La correlación es negativa y significativa, por lo tanto, la Regresión lineal simple que hagamos tendrá una pendiente también con signo negativo y será también significativa. La suerte de la pendiente es la misma que la de la correlación.

7a: Cuanta menos dispersión tengamos en dos muestras a comparar menos cantidad de muestra necesitamos para encontrar diferencias significativas. Es lógico: si hay poca dispersión el valor que tengamos en un tamaño de muestra relativamente pequeño será más fiable que si hubiera habido mucha dispersión.

8b: El 10% de 50 son 5 y el 6% de 50 son 3. Por lo tanto, los valores absolutos de la muestras son 5 y 3. Por lo tanto, el valor esperado por grupo es de 4. Por lo tanto, aunque el tamaño de muestra por grupo es mayor de 30, el valor esperado por grupo es menor de 5. Debemos aplicar un Test exacto de Fisher.

9d: Variable cuantitativa, distribución normal de una y no de la otra. Por lo tanto, debemos aplicar el Test exacto de Fisher.

10a: El rango es 17 porque 7-(-10)=7+10=17.

Situación 93: Examen (Temas 1-9 y 13-14)

1. De las correlaciones r=0.5 (p=0.03) y r=-0.4 (p=0.03) se puede afirmar lo siguiente:

a. Ninguna correlación es mayor que la otra porque el p-valor es el mismo.

b. Ninguna es significativa porque ninguna tiene un coeficiente de determinación superior al 50%.

c. La segunda es mayor que la primera.

d. Podemos hacer una Regresión lineal simple, en ambos casos. En la primera Regresión la pendiente será positiva y en la segunda la pendiente será negativa.

2. ¿Qué muestra de las siguientes tiene un índice de Gini mayor?

a. (1, 3, 3, 5, 12)

b. (1, 3, 3, 5, 11)

c. (1, 3, 3, 5, 13)

d. (1, 3, 3, 5, 10)

3. Si una muestra de tamaño 10000, que se ajusta bien a una distribución normal, tiene una media muestral de 40 y una desviación estándar de 10, un intervalo de confianza del 99,5% de la media poblacional será:

a. (39.7, 40.3)

b. (39, 41)

c. (39.9, 40.1)

d. (39.8, 40.2)

4. Se han estudiado los niveles de humedad relativa en una zona donde soplan dos tipos de viento bien distintos. Se tienen los valores de cada punto estudiado en un período donde soplaba un viento y en otro período en el que soplaba el otro tipo de viento. A la resta de los dos valores de humedad relativa de cada punto estudiado se ha aplicado un Test de Shapiro-Wilk dando un p-valor de 0.005. La técnica estadística a usar será:

a. Test de la t de Student de datos apareados.

b. Test de la t de Student de varianzas iguales.

c. Test de los signos.

d. Test de Mann-Withney.

5. En una muestra con una variable cuantitativa con Asimetría estandarizada igual a 1.43 y Curtosis estandarizada de -1.91, con media muestral igual a 120 y desviación estándar muestral igual a 10, podemos afirmar:

a. La mediana muestral será muy distinta de la media muestral.

b. Que el 95% de la población, aproximadamente, tiene valores entre 100 y 140.

c. Que no hay suficiente ajuste a la distribución normal.

d. Nos podemos fiar de la media muestral calculada pero no de la desviación estándar.

6. Si entre dos variables tenemos una correlación de Pearson: r=-0.76 (p<0.05), podemos afirmar lo siguiente:

a. No existe correlación significativa porque el p-valor es inferior a 0.05.

b. Existe correlación significativa porque las correlaciones negativas siempre son significativas.

c. Si hacemos una Regresión lineal simple la pendiente de la recta será también significativa y con signo negativo.

d. Si hacemos una Regresión lineal simple la pendiente de la recta será también significativa pero el signo puede ser positivo o negativo según otros criterios de los que ahora no disponemos.

7. ¿Qué afirmación, entre las siguientes, es cierta?:

a. Cuanta menos dispersión tenemos en dos grupos a comparar menos tamaño de muestra necesitaremos para encontrar diferencias significativas.

b. Cuanta más diferencia haya entre las medias muestrales de dos grupos a comparar más tamaño de muestra necesitaremos para detectar significación estadística.

c. En una técnica estadística de comparación de dos poblaciones aplicada a dos muestras con medias muestrales iguales, el p-valor será 0.

d. Si el p-valor en una comparación de dos poblaciones es menor de 0.05 entonces las dos medias poblacionales no son distintas significativamente.

8. Se ha estudiado si hay diferencias en el nivel de conocimientos de inglés sobresaliente entre estudiantes de escuelas públicas y de escuelas privadas en un país. Para comprobarlo se ha hecho un examen común de inglés a 50 estudiantes de un tipo de escuela y a 50 del otro tipo.  En la escuela privada el 10% tienen nivel de sobresaliente y en la pública el 6%. La técnica estadística a usar será:

a. Test de Mann-Whitney.

b. Test exacto de Fisher.

c. Test de proporciones.

d. Test de McNemar.

9. Se han estudiado las temperaturas en dos zonas distintas. Se ha aplicado un Test de Shapiro-Wilk en cada una de las dos muestras proporcionando los p-valores 0.2 y 0.01, respectivamente. La técnica estadística a usar será:

a. Test de la t de Student de varianzas iguales.

b. Test de Wilcoxon.

c. Test de la t de Student de varianzas diferentes.

d. Test de Mann-Withney

10. Sea la muestra (-10, -7, 0, 1, 3, 3, 3, 7). Podemos afirmar:

a. El rango es 17.

b. La mediana es 3.

c. El rango intercuartílico es 10.

d. El primer cuartil es -7.

Solución Situación 92

1d: Como en toda técnica de comparación en la Hipótesis nula se afirma la igualdad, en este caso, como estamos con variables dicotómicas, afirma que las proporciones son iguales.

2b: Si las dos medias son iguales no tenemos ningún indicio para rechazar la Hipótesis nula de igualdad. Además el tamaño de muestra es muy pequeño. Observemos que de los cuatro p-valores dos son de rechazo de esa hipótesis, por ser menor que 0.05. Otro es de aceptación pero muy justa. El otro p-valor es de 1 que indica que no tenemos ninguna razón para rechazar esa hipótesis, que es lo que es cierto con esta información. Cuando comparamos dos muestras con la misma media siempre tendremos un p-valor de 1.

3d: Como el p-valor es menor de 0.05 rechazaremos la Hipótesis nula. En Estadística los criterios de decisión son siempre los mismos.

4d: Si en los test para comprobar la normalidad tenemos p-valores inferiores a 0.05 significa que no tenemos ajuste a la distribución normal, por lo tanto debemos aplicar directamente el Test de Mann-Withney sin aplicar el Test de Fisher-Snedecor.

5d: Si hubiera habido normalidad de las dos muestras entonces hubiera sido imprescindible aplicar el Test de Fisher-Snedecor.

6c: Al aumentar el tamaño de muestra las diferencias en las medias muestrales que tengamos son más consistentes, más seguras, más extrapolables a lo que puede suceder en las poblaciones.

7d: No hay normalidad en ninguna de las dos muestras, por lo tanto el Test de Fisher-Snedecor aplicado era innecesario. Debíamos ir directamente a aplicar un Test de Mann-Withney.

8a: Variables dicotómicas, muestras independientes y tamaño muestral, por muestra, menor que 30. Por lo tanto, hay que aplicar el Test exacto de Fisher.

9a: Variables continuas, muestras dependientes, normalidad de las restas. Debemos aplicar el Test de la t de Student de datos apareados.

10b: Variables dicotómicas, muestras independientes. El tamaño de muestra es mayor que 30 pero el valor esperado por grupo es de 3, porque los observados son 4 y 2 que hacen un promedio de 3. Como 3 es menor que 5 no se cumple la segunda condición para aplicar un Test de proporciones. Por lo tanto, debemos aplicar el Test exacto de Fisher.

 

Situación 92: Examen (Temas 13 y 14)

  1. En el Test de McNemar una de las siguientes afirmaciones es cierta:

a. El p-valor siempre es mayor de 0.05.

b. Es equivalente a un Test exacto de Fisher.

c. Se necesita una variable respuesta dicotómica y que las muestras sean independientes.

d. La Hipótesis nula afirma que las dos poblaciones comparadas son de proporciones iguales.

2. Si estamos haciendo una comparación de medias de dos poblaciones con dos muestras de tamaño 3 cada una, con medias muestras iguales y con una desviación estándar de 5 y 6 respectivamente, ¿cuál es el p-valor más razonable para el contraste de hipótesis de igualdad de medias?

a. 0.001.

b. 1.

c. 0.000008.

d. 0.05.

3. Si estamos haciendo una comparación de proporciones de dos muestras independientes y el p-valor obtenido es 0.04, la decisión será la siguiente:

a. Aceptaremos la Hipótesis nula.

b. Rechazaremos la Hipótesis alternativa.

c. Volveremos a hacer el estudio debido a lo ajustado del p-valor.

d. Aceptaremos la Hipótesis alternativa.

4. Se está evaluando la satisfacción de la información meteorológica que da un medio de comunicación mediante una encuesta a sus oyentes que deben proporcionar una nota del 0 al 10. Se pretende comparar la satisfacción media que muestran las personas que viven en ambiente urbano y en ambiente rural. Se ha tomado una muestra en cada uno de los dos ámbitos y se ha aplicado un Test de Shapiro-Wilk a cada una de ellas. En ambos casos el p-valor es inferior a 0.05. ¿Cuál es el siguiente paso a realizar?

a. Debemos aplicar el Test de Fisher-Snedecor para ver si hay que aplicar o no el Test de Mann-Whitney.

b. Debemos aplicar el Test de la t de Student de datos apareados.

c. Debemos aplicar el Test de Fisher-Snedecor y si el p-valor resulta que es inferior a 0.05 aplicar entonces el Test de  la t de Student de varianzas desiguales.

d. Debemos aplicar el Test de Mann-Whitney porque ninguna de las dos poblaciones se ajusta a la distribución normal.

5. En un estudio de comparación de dos muestras independientes de una variable cuantitativa sabemos que se ha aplicado un Test de Fisher-Snedecor de comparación de varianzas que, en realidad, no era necesario. ¿Qué afirmación seguro que no es cierta?

a. El tamaño de cada muestra es inferior a 30.

b. Una muestra se ajustaba a la normal y la otra no.

c. Las dos muestras tenían una media muestral muy distinta.

d. Las dos muestras se ajustaban a la distribución normal.

6. ¿Cuál de las siguientes afirmaciones es cierta?

a. En un contraste de hipótesis de comparación de medias la Hipótesis nula afirma que no hay relación entre las dos variables comparadas.

b. Si el p-valor es menor que 0.05 entonces se acepta la Hipótesis nula.

c. Cuanto mayor sea el tamaño de muestra más posibilidades tenemos de rechazar la Hipótesis nula.

d. Cuanta menor dispersión tengamos en un estudio de comparación de medias más difícil será rechazar la Hipótesis nula.

7. Se han estudiado las temperaturas en dos zonas distintas. Se ha aplicado un Test de Shapiro-Wilk en cada una de las dos muestras proporcionando los p-valores 0.02 y 0.01, respectivamente. Se ha aplicado el Test de Fisher-Snedecor que nos da un p-valor de 0.01. La técnica estadística a usar será:

a. Test de la t de Student de varianzas iguales.

b. Test de Wilcoxon.

c. Test de la t de Student de varianzas diferentes.

d. Test de Mann-Withney

8. Se han estudiado la presencia de un contaminante en 20 puntos de un río y en otros 20 puntos de otro río. El objetivo era detectar si el porcentaje de puntos por encima de un cierto umbral era distinto en ambos ríos. La técnica estadística a usar será:

a. Test exacto de Fisher.

b. Test de Wilcoxon.

c. Test de proporciones.

d. Test de McNemar.

9. Se han estudiado los niveles de humedad relativa en una zona donde soplan dos tipos de viento bien distintos. Se tienen los valores de cada punto estudiado en un período donde soplaba un viento y en otro período en el que soplaba el otro tipo de viento. A la resta de los dos valores de humedad relativa de cada punto estudiado se ha aplicado un Test de Shapiro-Wilk dando un p-valor de 0.35. La técnica estadística a usar será:

a. Test de la t de Student de datos apareados.

b. Test de la t de Student de varianzas iguales.

c. Test de los signos.

d. Test de Mann-Withney.

10. Se ha estudiado si hay diferencias en el nivel de conocimiento de inglés sobresaliente entre estudiantes de escuelas públicas y de escuelas privadas en un país. Para comprobarlo se ha hecho un examen común de inglés a 100 estudiantes de un tipo de escuela y a 100 del otro tipo.  En la escuela privada 4 tienen nivel de sobresaliente y en la pública 2. La técnica estadística a usar será:

a. Test de Mann-Whitney.

b. Test exacto de Fisher.

c. Test de proporciones.

d. Test de McNemar.

 

Solución Situación 91

1b: La V de Crámer se puede calcular a cualquier tabla de contingencias.

2c: Porque si simplificamos obtenemos el modelo y=x-3 que tiene una pendiente con signo positivo, lo que es incompatible con una correlación negativa.

3d: Un p-valor mayor que 0.05 y un intervalo que contiene al 1.

4a: Porque es significativa esa correlación. El intervalo no contiene al 0.

5d: Sólo tiene una variable independiente.

6c: Al cambiar la codificación se pasa al equivalente del otro lado.

7b: Si se calcula la Odds Ratio para esos coeficientes se observa que es la respuesta correcta.

8b: Será significativa porque el intervalo no incluye al 0 y al calcular la Odds Ratio tendremos un valor mayor que 1.

9d: Indica una mayor relación.

10a: Porque la curva de la función irá de abajo a arriba.