Archivos Mensuales: diciembre 2013

Solución Situación 50

1. Las correlaciones entre las tres variables cuantitativas que tenemos son las siguientes:

IMG_7580

Como puede observarse se trata de tres correlaciones significativas. El p-valor, en los tres casos, es menor que 0.05. Hay una correlación positiva (entre el Tiempo de visualización y el Número de paradas) y hay dos correlaciones negativas (entre Tiempo de visualización y Velocidad y entre Velocidad y Número de paradas). Correlaciones que, si las pensamos un poco, son lógicas.

2. La regresión lineal simple entre la variable Número de paradas y la variable Tiempo de visualización nos proporciona un gráfico como el siguiente:

IMG_7581

La estimación de los parámetros del modelo (La pendiente y la ordenada en el origen) son los siguientes:

IMG_7582

Con este modelo podemos predecir el número de paradas en función del tiempo de visualización. Con una R cuadrado del 71.44%, que es bastante buena.

3. Al relacionar las variables cualitativas Sexo y Relacionado con el mundo del Arte obtenemos la siguiente tabla de contingencias:

IMG_7584

La ji-cuadrado aplicada a esta tabla de contingencias es la siguiente:

IMG_7583

Por lo tanto, como el p-valor es superior a 0.05 no podemos decir que haya relación entre ambas variables.

4. Para resolver este problema debemos hacer una Regresión logística simple de la variable dicotómica “Relacionado con el mundo del Arte” con cada una de las variables cuantitativas que tenemos. Evidentemente se podría hacer también una Regresión logística múltiple y ver con un Stepwise cuál es el modelo final elegido. Pero vamos a hacer aquí, porque nos irá bien a efectos didácticos, tres regresiones logísticas simples y seleccionaremos la que nos ajuste un modelo más predictivo.

Veamos primero la relación con la variable Tiempo de visualización:

IMG_7585

Y hecho con otro software que nos dibuja la Regresión logística obtenemos esta salida de ordenador:

IMG_7589

Es interesante comprobar que, aunque los resultados fundamentales son paralelos, son los mismos, la salida de ordenador que nos proporciona cada software tiene su singularidad. Por ejemplo, la del primer software (El G-Stat 2.0) nos da una algo peculiar: una prueba de clasificación. Aplica el criterio creado con esta muestra para establecer una clasificación entre los dos tipos de variable dependiente dicotómica a la muestra que, en realidad, ya sabe qué valor tiene cada individuo de esa variable respuesta. De esta forma puede comparar lo que haría con lo verdadero y, así, establecer una calidad de clasificación. En este caso nos da una buena clasificación del 85%.

El segundo software (El Statgrafics) nos ofrece algo muy visual: el gráfico. El gráfico donde se ven donde quedan los valores muestrales y cuál sería la curva construida como probabilidad de predicción de cada uno de los dos estados posibles de la variable dependiente dicotómica.

Es bueno combinar diferentes softwares, si es posible, porque cada uno tiene sus elementos de interés que nos ayuda a perfilar las conclusiones finales.

Veamos ahora la relación con la variable Velocidad media del ojo:

IMG_7586

Y con el otro software:

IMG_7590

Y, finalmente, veamos la relación con la variable Número de paradas:

IMG_7588

Y con el otro software:

IMG_7591

Es interesante comprobar que se trata de una elección no clara. Las tres variables pueden ser usadas como predictoras. Las tres tienen una relación significativa con la variable dicotómica “Relacionado con el Arte”.

Si elegimos por la calidad de la clasificación debemos elegir la variable independiente “Velocidad media del ojo”. Si elegimos por la prueba de la verosimilitud debemos elegir, en este caso, la variable “Tiempo de visualización”.

En todo caso estamos en una situación difícil donde ambas variables podrían ser elegidas. Están en una posición muy paralela. De hecho, es lógico que sea así, el que la correlación entre ellas sea tan grande lo que indica es que en gran parte son variables intercambiables.

Anuncios

Solución Situación 51

1d:

Antes de la aplicación de un test estadístico no podemos decir si la diferencia que vemos es o no significativa. El test es el que nos dará el p-valor, la significación, no los valores de porcentajes que hemos calculado a las muestras.

2d:

La “a” no puede ser porque si nos dicen que la ji.cuadrado ha dado resultado significativo el p-valor debe ser menor que 0.05, no mayor.

La “b” tampoco lo es porque hemos hablado de dos variables cualitativas no de que cada variable cualitativa tenga dos valores posibles, que es lo que nos llevaría a tener una tabla de contingencias de 2×2.

La “c” también es incorrecta. El concepto de relación positiva y negativa es exclusivo de la relación entre variables cuantitativas. Nunca se usa en variables cualitativas.

Lo que dice la “d” efectivamente es cierto: El valor de la V de Cramer sólo tiene sentido evaluarlo, considerarlo, si la ji-cuadrado

3a:

La “b” es absurda, evidentemente.

La “d” también es fácilmente descartable porque es evidente que no estamos ante una variable dicotómica, sino que estamos ante una variable continua.

Respecto a la “a” y la “c”. Observemos que nos piden cuál es la respuesta más razonable. La “a” es más razonable que la “c”. Por lo siguiente: En la “c” se afirma categóricamente que las notas son una distribución normal, cosa que no es verdad, en general. Y menos si uno observa los datos que nos da el problema de la muestra de estudiantes franceses donde se observa claramente la distribución no normal, no de campana de Gauss. Es cierto que esto debe comprobarse con un test de ajuste a la distribución normal, pero parece claro lo que nos dará un test como este (por ejemplo, el Test de Shapiro-Wilk). La respuesta “a” es, pues, más razonable. Nos dice que aplicaremos un Mann-Whitney porque se aprecia una no normalidad de una de las dos muestras. Es verdad que esta no normalidad la debemos comprobar siempre pero es cierto que aquí parece muy claro lo que nos dará.

4b:

Una pista no nos debe hacer dudar de cuál es la respuesta correcta: Correlación positiva va siempre asociado a una regresión con pendiente positiva. Correlación negativa va siempre asociada a una regresión con pendiente negativa. La única regresión con pendiente negativa que tenemos aquí es la que nos da la respuesta “b”.

5b:

No tenemos ninguna información que nos permita decir que el rango es 5.

Como 14 es el primer cuartil por debajo de este valor tenemos el 25% de los valores, no el 50%.

Entre 15 y 35 tenemos el mismo porcentaje de valores que entre 14 y 15: un 25%.

La más razonable es la b: la muestra parece no seguir una distribución normal. El hecho de que la mediana esté tan próxima al primer cuartil y tal alejada, relativamente, al tercer cuartil, muestra una enorme asimetría que romperá la distribución normal de la variable en esta muestra.

Situación 51: Examen (Temas 5-14)

1) Si tenemos una muestra de una población donde hay un 50% de mujeres y una muestra de otra población donde hay un 30% de mujeres, ¿qué afirmación es cierta?

a) Como hay una diferencia superior al 5% tenemos un p-valor inferior a 0.05.

b ) La diferencia no es estadísticamente significativa.

c) La diferencia es estadísticamente significativa pero de baja magnitud.

d) Deberíamos aplicar un test estadístico para comprobar la significación de esta diferencia.

2) Si nos dicen que hemos estudiado dos variables cualitativas y que mediante un test de la ji-cuadrado hemos comprobado la relación entre ellas y tenemos una V de Cramer de 0.9, ¿qué afirmación es cierta?

a) El p-valor de la ji-cuadrado es mayor que 0.05.

b) La tabla de contingencias con la que se ha trabajado es una tabla 2×2.

c) La relación entre estas dos variables es positiva.

d) El valor calculado por la V de Cramer sólo tiene sentido valorarlo si el p-valor de la ji-cuadrado es menor que 0.05.

3) Tenemos que comparar el nivel de conocimientos de castellano de 100 estudiantes de secundaria franceses con 100 estudiantes también de secundaria alemanes, evaluado en un examen común mediante una nota entre el 0 y el 10. Sabemos que en la muestra francesa el percentil 25 es un 0, el 50 es un 1 y el 75 es un 3 y la nota máxima un 9.95. ¿Qué respuesta parece más razonable?

a) Aplicaremos un test de Mann-Withney para comparar el nivel de conocimientos de castellano de ambas poblaciones porque la muestra de la que tenemos información (la muestra de los estudiantes franceses) no parece ajustarse, ni mucho menos, a una distribución normal.

b) El nivel de conocimientos de los estudiantes franceses es superior porque Francia está más cerca de España.

c) Aplicaremos un test de la t de Student porque las notas del 0 al 10 es una variable continua y siempre con distribución normal.

d) Aplicaremos un test de comparación de proporciones.

4) Si dos variables tienen una correlación de Pearson r=-0.8 (p<0.05), ¿cuál es el único modelo de regresión simple compatible con esta información?

a) y=7x+12

b) y=-5x+3

c) y=2x-12

d) Ninguno de los tres anteriores porque al ser la correlación no significativa no tiene sentido hacer una regresión.

5) Nos dicen que una variable cuantitativa queda descrita mediante los siguientes números: 15(14, 35), representando la mediana y el rango intercuartílico, expresado éste mediante el primer y tercer cuartil. ¿Qué respuesta es la más razonable?

a) El rango es 50.

b) La muestra no sigue una distribución normal.

c) En la muestra el 50% de individuos tienen un valor por debajo de 14.

d) Entre los valores de 15 y 35 tenemos el doble de individuos que entre 14 y 15.

Test de Hosmer y Lemeshow

El Test de Hosmer y Lemeshow es un test muy utilizado en Regresión logística. Se trata de un   test de bondad de ajuste al modelo propuesto. Un Test de bondad de ajuste lo que hace es comprobar si el modelo propuesto puede explicar lo que se observa. Es un Test donde se evalúa la distancia entre un observado y un esperado.

El Test básicamente consiste en dividir el recorrido de valores de la variable dependiente (0,1) en una serie de intervalos. Intervalos que contengan un número de observaciones suficientemente grande (5 ó más). Se trata, entonces, de contar intervalo por intervalo el esperado y el observado para cada uno de los dos resultados posibles de la variable dependiente dicotómica (tiene la enfermedad o no la tiene, es hombre o mujer, etc). El observado es lo que se tiene y el esperado es el valor esperado teórico calculado mediante el modelo construido. El estadístico es un estadístico de la ji-cuadrado, como el visto en el tema dedicado a la relación entre variables cualitativas. De hecho, buena parte de los test de bondad de ajuste a un modelo parten de esta idea de comparar lo observado con lo esperado.

Para ver cómo se aplica este importante test ver el artículo Aplicación del Test de Hosmer-Lemeshow en Medicina.

Datos clásicos de Fisher del género Iris

Sepal length Sepal width Petal length Petal width Species
5.1 3.5 1.4 0.1 I. setosa
4.9 3.0 1.4 0.2 I. setosa
4.7 3.2 1.3 0.2 I. setosa
4.6 3.1 1.5 0.2 I. setosa
5.0 3.6 1.4 0.2 I. setosa
5.4 3.9 1.7 0.4 I. setosa
4.6 3.4 1.4 0.3 I. setosa
5.0 3.4 1.5 0.2 I. setosa
4.4 2.9 1.4 0.2 I. setosa
4.9 3.1 1.5 0.1 I. setosa
5.4 3.7 1.5 0.2 I. setosa
4.8 3.4 1.6 0.2 I. setosa
4.8 3.0 1.4 0.1 I. setosa
4.3 3.0 1.1 0.1 I. setosa
5.8 4.0 1.2 0.2 I. setosa
5.7 4.4 1.5 0.4 I. setosa
5.4 3.9 1.3 0.4 I. setosa
5.1 3.5 1.4 0.3 I. setosa
5.7 3.8 1.7 0.3 I. setosa
5.1 3.8 1.5 0.3 I. setosa
5.4 3.4 1.7 0.2 I. setosa
5.1 3.7 1.5 0.4 I. setosa
4.6 3.6 1.0 0.2 I. setosa
5.1 3.3 1.7 0.5 I. setosa
4.8 3.4 1.9 0.2 I. setosa
5.0 3.0 1.6 0.2 I. setosa
5.0 3.4 1.6 0.4 I. setosa
5.2 3.5 1.5 0.2 I. setosa
5.2 3.4 1.4 0.2 I. setosa
4.7 3.2 1.6 0.2 I. setosa
4.8 3.1 1.6 0.2 I. setosa
5.4 3.4 1.5 0.4 I. setosa
5.2 4.1 1.5 0.1 I. setosa
5.5 4.2 1.4 0.2 I. setosa
4.9 3.1 1.5 0.2 I. setosa
5.0 3.2 1.2 0.2 I. setosa
5.5 3.5 1.3 0.2 I. setosa
4.9 3.6 1.4 0.1 I. setosa
4.4 3.0 1.3 0.2 I. setosa
5.1 3.4 1.5 0.2 I. setosa
5.0 3.5 1.3 0.3 I. setosa
4.5 2.3 1.3 0.3 I. setosa
4.4 3.2 1.3 0.2 I. setosa
5.0 3.5 1.6 0.6 I. setosa
5.1 3.8 1.9 0.4 I. setosa
4.8 3.0 1.4 0.3 I. setosa
5.1 3.8 1.6 0.2 I. setosa
4.6 3.2 1.4 0.2 I. setosa
5.3 3.7 1.5 0.2 I. setosa
5.0 3.3 1.4 0.2 I. setosa
7.0 3.2 4.7 1.4 I. versicolor
6.4 3.2 4.5 1.5 I. versicolor
6.9 3.1 4.9 1.5 I. versicolor
5.5 2.3 4.0 1.3 I. versicolor
6.5 2.8 4.6 1.5 I. versicolor
5.7 2.8 4.5 1.3 I. versicolor
6.3 3.3 4.7 1.6 I. versicolor
4.9 2.4 3.3 1.0 I. versicolor
6.6 2.9 4.6 1.3 I. versicolor
5.2 2.7 3.9 1.4 I. versicolor
5.0 2.0 3.5 1.0 I. versicolor
5.9 3.0 4.2 1.5 I. versicolor
6.0 2.2 4.0 1.0 I. versicolor
6.1 2.9 4.7 1.4 I. versicolor
5.6 2.9 3.6 1.3 I. versicolor
6.7 3.1 4.4 1.4 I. versicolor
5.6 3.0 4.5 1.5 I. versicolor
5.8 2.7 4.1 1.0 I. versicolor
6.2 2.2 4.5 1.5 I. versicolor
5.6 2.5 3.9 1.1 I. versicolor
5.9 3.2 4.8 1.8 I. versicolor
6.1 2.8 4.0 1.3 I. versicolor
6.3 2.5 4.9 1.5 I. versicolor
6.1 2.8 4.7 1.2 I. versicolor
6.4 2.9 4.3 1.3 I. versicolor
6.6 3.0 4.4 1.4 I. versicolor
6.8 2.8 4.8 1.4 I. versicolor
6.7 3.0 5.0 1.7 I. versicolor
6.0 2.9 4.5 1.5 I. versicolor
5.7 2.6 3.5 1.0 I. versicolor
5.5 2.4 3.8 1.1 I. versicolor
5.5 2.4 3.7 1.0 I. versicolor
5.8 2.7 3.9 1.2 I. versicolor
6.0 2.7 5.1 1.6 I. versicolor
5.4 3.0 4.5 1.5 I. versicolor
6.0 3.4 4.5 1.6 I. versicolor
6.7 3.1 4.7 1.5 I. versicolor
6.3 2.3 4.4 1.3 I. versicolor
5.6 3.0 4.1 1.3 I. versicolor
5.5 2.5 4.0 1.3 I. versicolor
5.5 2.6 4.4 1.2 I. versicolor
6.1 3.0 4.6 1.4 I. versicolor
5.8 2.6 4.0 1.2 I. versicolor
5.0 2.3 3.3 1.0 I. versicolor
5.6 2.7 4.2 1.3 I. versicolor
5.7 3.0 4.2 1.2 I. versicolor
5.7 2.9 4.2 1.3 I. versicolor
6.2 2.9 4.3 1.3 I. versicolor
5.1 2.5 3.0 1.1 I. versicolor
5.7 2.8 4.1 1.3 I. versicolor
6.3 3.3 6.0 2.5 I. virginica
5.8 2.7 5.1 1.9 I. virginica
7.1 3.0 5.9 2.1 I. virginica
6.3 2.9 5.6 1.8 I. virginica
6.5 3.0 5.8 2.2 I. virginica
7.6 3.0 6.6 2.1 I. virginica
4.9 2.5 4.5 1.7 I. virginica
7.3 2.9 6.3 1.8 I. virginica
6.7 2.5 5.8 1.8 I. virginica
7.2 3.6 6.1 2.5 I. virginica
6.5 3.2 5.1 2.0 I. virginica
6.4 2.7 5.3 1.9 I. virginica
6.8 3.0 5.5 2.1 I. virginica
5.7 2.5 5.0 2.0 I. virginica
5.8 2.8 5.1 2.4 I. virginica
6.4 3.2 5.3 2.3 I. virginica
6.5 3.0 5.5 1.8 I. virginica
7.7 3.8 6.7 2.2 I. virginica
7.7 2.6 6.9 2.3 I. virginica
6.0 2.2 5.0 1.5 I. virginica
6.9 3.2 5.7 2.3 I. virginica
5.6 2.8 4.9 2.0 I. virginica
7.7 2.8 6.7 2.0 I. virginica
6.3 2.7 4.9 1.8 I. virginica
6.7 3.3 5.7 2.1 I. virginica
7.2 3.2 6.0 1.8 I. virginica
6.2 2.8 4.8 1.8 I. virginica
6.1 3.0 4.9 1.8 I. virginica
6.4 2.8 5.6 2.1 I. virginica
7.2 3.0 5.8 1.6 I. virginica
7.4 2.8 6.1 1.9 I. virginica
7.9 3.8 6.4 2.0 I. virginica
6.4 2.8 5.6 2.2 I. virginica
6.3 2.8 5.1 1.5 I. virginica
6.1 2.6 5.6 1.4 I. virginica
7.7 3.0 6.1 2.3 I. virginica
6.3 3.4 5.6 2.4 I. virginica
6.4 3.1 5.5 1.8 I. virginica
6.0 3.0 4.8 1.8 I. virginica
6.9 3.1 5.4 2.1 I. virginica
6.7 3.1 5.6 2.4 I. virginica
6.9 3.1 5.1 2.3 I. virgnica
5.8 2.7 5.1 1.9 I. virginica
6.8 3.2 5.9 2.3 I. virginica
6.7 3.3 5.7 2.5 I. virginica
6.7 3.0 5.2 2.3 I. virginica
6.3 2.5 5.0 1.9 I. virginica
6.5 3.0 5.2 2.0 I. virginica
6.2 3.4 5.4 2.3 I. virginica
5.9 3.0 5.1 1.8 I. virginica

Situación 50: Un problema de ciencias humanas

Los siguientes datos han sido tomados en la contemplación de un cuadro de Velazquez (“Las meninas”). Las variables son el sexo, si tienen formación universitaria o no, si están o no relacionados con el mundo del Arte (por estudios o por trabajo), el tiempo dedicado a contemplar el cuadro o tiempo de visualización (en minutos), la velocidad media de la mirada (en cm/seg) y el número de veces que han parado la mirada durante la visualización del cuadro. Los datos han sido tomados con una cámara oculta y los valores complementarios (estudios y profesión) se les pregunta una vez han dejado de contemplar el cuadro para no influir en la calidad y la cantidad de la mirada:

Sexo (Varón)

Universitario

Relacionado con el Arte

Tiempo de visualización

Velocidad media del ojo

Número de paradas

1

1

1

12

2

10

1

1

1

6

5

7

1

1

1

8

4

7

1

1

1

7

3

5

1

1

0

3

10

2

1

0

1

9

3

8

1

0

1

7

4

6

1

0

1

6

5

6

1

0

0

2

7

0

1

0

0

3

8

6

0

1

1

9

3

7

0

1

1

8

4

7

0

1

1

11

1

8

0

1

1

8

3

5

0

1

0

1

10

0

0

0

1

7

4

2

0

0

1

3

6

2

0

0

0

6

3

4

0

0

0

5

7

2

0

0

0

2

9

2

1. Calcular la correlación de Pearson entre las diferentes variables cuantitativas.

2. Realizar una Regresión lineal simple entre la variable Número de paradas y la variable Tiempo de visualización. Se quiere, en un futuro, poder predecir el número de paradas que ha hecho un observador en función del tiempo de visualización.

3. Comprobar si hay relación entre Sexo y el estar o no relacionado con el Arte.

4. ¿Cuál seria la mejor variable entre las tres cuantitativas (Tiempo de visualización, Velocidad media del ojo y Número de paradas) para predecir si una persona está relacionada o no con el mundo del Arte?

Solución Situación 49

Las respuestas a las preguntas planteadas son las siguientes:

1. Una estadística básica de la variable Valoración de Tv3, con los estadísticos solicitados, es la siguiente:

IMG_7318

Y el Box-Plot sería el siguiente:

IMG_7319

2. Una estadística descriptiva (frecuencias absolutas y frecuencias relativas) de la variable cualitativa Tendencia política sería la siguiente:

IMG_7320

3. Las correlaciones de Pearson de las valoraciones de las tres cadenas de televisión son las siguientes:

IMG_7321

4. La tabla de contingencias del cruce entre las variables cualitativas Sexo y Tendencia política es la siguiente:

IMG_7322

Y la ji-cuadrado es la siguiente:

IMG_7323

5. La ji-cuadrado entre Sexo y Tv5 aprueba es la siguiente:

IMG_7324

6. La ji-cuadrado entre Sexo y Tv3 aprueba es la siguiente:

IMG_7325

7. La ji-cuadrado entre Tendencia política y Tv3 aprueba es la siguiente:

IMG_7326

Y la tabla de contingencias es la siguiente:

IMG_7327

8. La ji-cuadrado entre Tendencia política y Tv5 aprueba es la siguiente:

IMG_7328

Y la tabla de contingencias es:

IMG_7329

9. La ji-cuadrado entre Tendencia política y Tv1 aprueba es la siguiente:

IMG_7330

Y la tabla de contingencias:

IMG_7331

10. Las V de Cramer entre Tendencia y política y las variables Tv3 aprueba, Tv1 aprueba y Tv5 aprueba son las siguientes:

IMG_7332

IMG_7333

IMG_7334