Archivos Mensuales: octubre 2015

Situación 86: Análisis de factores de riesgo y factores de protección en Anorexia nervosa

A continuación se presenta una base de datos de pacientes mujeres diagnosticadas de Anorexia nervosa y de pacientes mujeres controles.

Codificación:

Etiqueta Variable Valores
G Grupo 0=Control; 1=Anorexia
E Edad Valor en años
M Madre anoréxica 0=No; 1=Sí
A Autovaloración negativa 0=No; 1=Sí
P Perfeccionismo 0=No; 1=Sí
S Padres separados 0=No; 1=Sí
N Número de amigos íntimos Valor
O Densidad ósea Valor
D Deporte Horas por semana

Base de datos:

G E M A P S N O D
0 21 0 0 1 0 3 0.72 5
0 18 0 0 0 0 5 0.71 2
0 18 0 1 1 0 2 0.69 3
0 19 0 0 1 0 3 0.74 7
0 23 0 1 0 0 3 0.73 1
0 24 0 1 0 0 4 0.71 3
0 17 0 0 0 1 2 0.72 12
0 16 0 0 0 0 3 0.75 10
0 19 0 0 0 0 2 0.73 0
0 21 0 0 1 1 3 0.72 3
0 20 1 0 0 0 2 0.71 5
0 19 0 0 0 0 3 0.69 6
0 23 0 0 1 0 1 0.74 7
0 23 0 0 0 1 3 0.73 8
0 24 0 1 0 0 4 0.71 5
0 17 0 0 0 0 2 0.72 10
0 20 0 0 0 0 3 0.72 3
0 19 0 0 0 0 3 0.71 4
0 21 0 0 0 1 4 0.69 5
0 18 0 0 0 0 3 0.74 6
0 23 0 0 0 0 5 0.73 7
0 24 0 0 0 0 2 0.72 8
0 17 0 0 0 0 1 0.71 3
0 16 0 0 0 0 0 0.69 4
0 24 0 0 0 1 1 0.74 5
0 21 0 0 0 0 1 0.71 6
0 23 0 0 0 1 2 0.71 7
0 21 0 0 1 0 2 0.72 8
0 18 0 0 0 1 3 0.72 9
0 23 0 1 1 0 3 0.71 4
0 22 0 0 0 1 4 0.69 5
0 18 0 1 1 0 3 0.74 6
0 16 1 0 0 0 5 0.73 7
0 24 0 1 0 1 6 0.70 8
0 22 0 0 1 0 1 0.72 2
0 23 1 0 0 0 3 0.71 3
0 24 0 1 0 0 4 0.69 4
0 17 0 0 1 1 2 0.74 5
0 16 0 0 0 0 2 0.73 6
0 22 1 1 0 0 3 0.71 7
0 21 0 0 1 1 2 0.72 8
0 16 0 0 0 0 3 0.71 3
0 23 0 1 0 0 4 0.70 4
0 24 0 0 1 0 1 0.74 5
0 19 0 0 0 1 4 0.73 6
0 16 1 1 0 0 5 0.71 7
0 24 0 0 0 0 3 0.72 8
0 22 0 0 0 0 3 0.75 9
0 23 0 0 1 0 0 0.73 4
0 22 0 0 0 0 3 0.68 5
1 17 0 1 1 1 0 0.64 1
1 16 0 0 1 0 2 0.67 4
1 19 1 1 1 0 1 0.62 3
1 21 1 1 1 1 0 0.60 2
1 18 0 1 1 0 1 0.63 1
1 23 0 1 1 0 1 0.62 0
1 24 0 1 1 1 2 0.67 0
1 17 0 1 1 0 3 0.70 0
1 16 0 1 1 0 2 0.73 0
1 24 0 1 1 1 3 0.65 0
1 21 0 1 0 0 1 0.61 2
1 23 0 1 0 0 1 0.63 3
1 21 0 0 1 1 2 0.64 1
1 18 0 0 1 0 2 0.67 2
1 23 0 1 0 0 3 0.73 3
1 22 0 1 1 1 3 0.60 4
1 18 0 0 1 0 0 0.63 2
1 16 1 1 1 0 3 0.62 1
1 24 0 1 1 1 5 0.67 3
1 22 0 1 1 0 2 0.70 2
1 23 1 1 0 0 1 0.73 4
1 24 0 1 1 1 0 0.65 3
1 17 0 0 1 0 1 0.64 1
1 16 0 1 1 0 1 0.67 0
1 22 1 1 1 0 2 0.62 0
1 22 0 1 0 1 2 0.74 2
1 23 0 1 0 0 3 0.63 1
1 24 1 0 1 0 3 0.62 4
1 17 1 0 1 1 0 0.67 2
1 16 0 1 1 0 1 0.64 0
1 22 1 1 1 0 1 0.67 0
1 21 0 1 1 1 0 0.62 1
1 20 1 1 1 0 0 0.60 0
1 23 0 1 1 0 0 0.63 0
1 24 0 1 0 1 0 0.62 0
1 24 1 1 1 0 0 0.67 0
1 21 0 0 0 0 2 0.70 0
1 24 1 1 1 1 1 0.64 0
1 23 1 0 1 0 1 0.67 0
1 23 1 1 1 0 1 0.62 0
1 22 0 1 0 0 4 0.60 2
1 17 0 1 1 0 3 0.63 1
1 20 1 0 1 0 2 0.62 4
1 19 0 1 1 1 1 0.62 2
1 21 0 1 0 0 1 0.70 0
1 18 1 1 1 0 1 0.73 0
1 23 0 0 0 0 2 0.65 1
1 24 0 1 1 0 2 0.75 0
1 24 0 0 0 0 2 0.63 0
1 17 0 1 0 0 0 0.64 0

Contestar a las siguientes preguntas:

  1. Hacer una Estadística descriptiva de la Densidad ósea en el grupo Control y en el grupo de pacientes con Anorexia nervosa.
  2. Calcular la correlación de Pearson entre las variables Número de amigos íntimos, Densidad ósea y Deporte.
  3. Buscar factores de riesgo y factores de protección para la Anorexia nervosa. (Una advertencia: Al aplicar Regresión logística con el software G-Stat 2.0 debéis especificar en Opciones cuál es el código de ocurrencia: en nuestro caso es 1, porque los casos los hemos codificado con un 1. El programa adopta, por defecto, como código de ocurrencia el valor asignado a la variable respuesta del primer individuo de la muestra. Como en nuestro caso es un control adopta como código de ocurrencia el 0, como si hubiésemos asignado 0 a los casos y 1 a los controles, y no es así)
  4. Comprobar, con la técnica adecuada al caso, si hay diferencia estadísticamente significativa entre el nivel de densidad ósea de las pacientes con Anorexia respecto a las mujeres control.

Solución Situación 85

1c. Al ordenar la muestra queda así: (-5, -1, -3, 0, 0,  4, 20,  230). Como hay ocho valores el primer cuartil es el promedio entre -1 y -3, que es -2.

2d. El rango es el máximo menos el mínimo: 123-(-23)=123+23=146.

3d. La muestra es claramente no normal. La Asimetría estandarizada y la Curtosis estandarizada darán fuera del intervalo (-2, 2). La mejor opción es describirla mediante la mediana y el rango intercuartílico, expresado éste mediante el primer y el tercer cuartil, como se hace mediante la expresión 6 (3-105).

4b. Si la desviación estándar de una muestra es 0, todos sus valores son iguales y, entonces, el índice de Gini es 0.

5c. Esta muestra tiene 11 valores. Si tomamos el valor 16 a su izquierda hay ocho valores y a su derecha 2. Por lo tanto, 16 es el percentil 80 en esa muestra. La respuesta b no es correcta porque el percentil 80 sería el promedio entre 16 y 18 que es 17.

6d. Es la muestra con más igualdad, por lo tanto, será la que tendrá un menor índice de Gini.

7a. El Error estándar es 2, porque 10/raíz(25) es igual a 2. Como el intervalo de la media es del 95% debemos sumar y restar dos errores estándar a la media muestral. Esto nos lleva al intervalo (106, 104).

8c. El Error estándar de esta muestra es 5, porque es un intervalo de la media del 95% y debe haber sido construida con la suma y la resta de dos errores estándar respecto a la media muestral. Como la Desviación estándar de la variable es 10 para que al dividir 10/raíz(n) sea igual a 5, n debe ser 4.

9b. Ahora el Error estándar es 3, porque 9/raíz(9) es igual a 3. Recordemos que estamos construyendo un intervalo de confianza de la media y esto se hace con el Error estándar. Por lo tanto, debemos sumar y restar dos veces el error estándar para construir un intervalo de confianza de la media poblacional del 95%. Y esto nos da el intervalo (94, 106).

10ab. Hay dos soluciones ciertas. En 1990 hay más igualdad económica que en 1973. El 2008 es el año del gráfico en el que el índice de Gini es más bajo, lo que va asociado a una mayor igualdad.

Situación 85: Examen (Temas 1-3)

1. ¿Cuál es el primer cuartil de la muestra (-1, 4, -5, 20, -3, 0, 0, 230)?

a. 0.

b. -5.

c. -2.

d. -1.

2. ¿Cuál es rango de la muestra (-2, 5, -4, -23, 0, 0, 123, 7)?

a. 123.

b. 9.

c. 100.

d. 146.

3. Tenemos la siguiente muestra (2, 2, 4, 6, 6, 7, 90, 120). ¿Cuál de las siguientes afirmaciones es cierta sobre ella?

a. Como no hay un buen ajuste a la distribución normal es mejor usar la media y la desviación estándar para describirla.

b. Como hay un buen ajuste a la distribución normal podemos resumirla mediante la media y la desviación estándar.

c. Como parece que la Asimetría estandarizada y la Curtosis estandarizada estarán entre -2 y +2 deberemos representarla mediante la mediana y el rango intercuartílico.

d. 6 (3-105) sería una descripción muy coherente de esta muestra.

4. ¿Cuál de las siguientes afirmaciones es cierta?

a. El índice de Gini es más grande cuanta menor dispersión haya entre los valores de una muestra.

b. Si la desviación estándar de una muestra es 0 el índice de Gini es 0.

c. Si la iguadad en una muestra es muy grande el índice de Gini puede llegar a ser negativo.

d. Tamaños de muestra grandes van asociados a valores grandes del índice de Gini.

5. ¿Cuál de las siguientes muestras tiene un percentil 80 igual a 16?

a. (2, 3, 16, 16, 20).

b. (2, 3, 3, 4, 5, 10, 15, 16, 18, 20).

c. (2, 3, 3, 4, 5, 10, 12, 15, 16, 20, 20).

d. (2, 3, 4, 16).

6. ¿Cuál de las siguientes muestras tiene un índice de Gini menor?

a. (0, 0, 1, 1, 5, 15, 15, 20, 20, 20).

b. (0, 0, 1, 1, 5, 15, 15, 20, 20, 2000).

c. (0, 0, 1, 1, 5, 15, 15, 20, 20, 200).

d. (10, 10, 10, 10, 15, 15, 15, 20, 20, 20).

7. Si la valoración media de una variable tiene una media muestral de 100 y una desviación estándar de 10 y la muestra con la que hemos trabajado es de tamaño 25, ¿cuál es un intervalo de confianza del 95% de la media?

a. (96, 104).

b. (90, 110).

c. (80, 120).

d. (98, 102).

8. Tenemos un IC del 95% de la media que es (200, 220), construido con una muestra con desviación estándar 10, ¿qué afirmación es cierta?

a. El tamaño de muestra es 100.

b. Con esta información no podemos saber cuál es el tamaño de muestra.

c. El tamaño de muestra es 4.

d. Un intervalo de confianza del 99.5% es (190, 230).

9. Un intervalo de confianza del 95% de la media con media muestral de 100, con desviación estándar de 9 y tamaño muestral de 9 es el siguiente:

a. (97, 103).

b. (94, 106).

c. (85, 115).

d. (70, 130).

10. De la tabla siguiente:

 

Captura de pantalla 2015-10-05 a las 7.55.52

¿cuál es la afirmación cierta?

a. En 1990 hay más igualdad económica que en 1973.

b. El año de más igualdad económica del gráfico es el 2008.

c. Desde el 2008 hasta el 2010 ha habido un aumento notable en la igualdad económica.

d. El 1980 tuvimos más  igualdad económica que en 2010.

Usos del índice de Gini

El índice de Gini se usa mucho en Economía y en Geografía humana pero es un índice con muchas posibilidades de aplicación. Veamos algunas:

En este gráfico se muestran, en un periódico, una valoración de cómo ha ido evolucionando la distribución de votos en Cataluña en las últimas elecciones autonómicas:

Un ejemplo, clásico, es el valoración de la desigualdad y su comparación entre países:

Captura de pantalla 2015-10-05 a las 7.53.34

Otro ejemplo:

Captura de pantalla 2015-10-05 a las 7.55.52

Otro más:

Captura de pantalla 2015-10-05 a las 8.00.20