Archivos Mensuales: julio 2013

Solución Situación 33

Si se hace una selección entre las variables originales (las distintas asignaturas) y las dos componentes principales observamos que la que consigue una mejor relación con la variables sexo es la Historia. Es la que separa mejor ambas poblaciones.

Incluso si se hace un Stepwise con todas estas variables se acaba seleccionado la variable Historia, también, como mejor pronosticador.

En el siguiente gráfico aparece la relación del Sexo con la primera componente principal (la que agrupa las notas de letras) y la Historia. Como puede observarse la Historia consigue una relación con mayor pendiente, lo que indica que se segregan mejor los valores de un sexo y otro respecto a las notas de Historia.

IMG_6129

Observemos que viendo tanto la primera componente, como la variable Historia, las notas bajas de letras o de Historia son buenas pronosticadoras de Sexo Hombre. En cambio, notas altas de letras o de Historia son buenas pronosticadores de Sexo Mujer.

Tema 28: REGRESIÓN DE POISSON

1. La Regresión de Poisson es un tipo especial de Regresión donde la particularidad es que la variable dependiente se ajusta bien a una distribución Poisson para cualquier combinación de valores de la variable independiente (en una Regresión de Poisson simple) o de las variables independientes (en una Regresión de Poisson múltiple).

2. Existen múltiples tipos de Regresión. La Regresión de Poisson es un caso más entre el amplísimo ámbitos de tipos de Regresión que se han definido. A lo largo del tiempo se han ido ajustando nuevos modelos de Regresión con la finalidad de conseguir representar mejor determinadas relaciones entre las cosas. Este tipo de Regresión es un ejemplo de este progreso de construcción de modelos matemáticos cada vez más ajustados a la realidad.

3. La distribución de Poisson es una distribución que modeliza bien situaciones de conteo. Por ejemplo: números de accidentes, número de personas que tienen un infarto, número de personas que llaman a una centralita de teléfono, etc, siempre todo esto evaluado en unidad de tiempo determinada.

4. La distribución de Poisson tiene un único parámetro, la lambda, que coincide con la Esperanza y la Varianza de la distribución. O sea, es una distribución que cuanto más grande es el valor esperado más dispersión tienen los valores que puede tomar la variable que se distribuya así.

5. La distribución de Poisson toma, pues, valores enteros no negativos: 0, 1, 2, 3, 4, … Una peculiaridad especial de esta distribución es, como he dicho en el apartado anterior, que su esperanza y su varianza es la misma. Este es un buen criterio, pues, para comprobar si unos datos se ajustan a una distribución Poisson. Por ejemplo, la muestra (2, 4, 3, 4, 4, 5, 3, 4, 1, 4, 3, 5) se ajusta bien porque tiene la media muestral y la varianza muestral muy similares. Sin embargo, la muestra (1, 1, 2, 3, 50, 4, 55, 3) no se ajusta porque tiene una media muestral mucho más pequeña que la varianza muestral.

6. En el artículo Funciones de distribución pueden verse algunas peculiaridades de esta función de distribución: la función matemática, la forma que tiene, algunas peculiaridades y algunas aplicaciones. Ahora lo que sí nos puede ser útil, para poder entender lo que pretendemos captar y representar, mediante la Regresión de Poisson, es mostrar el siguiente dibujo de los cambios que se visualizan en la distribución Poisson cuando el valor de su parámetro, la lambda va aumentando:

IMG_5817

7. La lambda puede ser cualquier valor real positivo. Observemos cómo al ir aumentando el valor de la lambda los valores con más probabilidad se van desplazando hacia la derecha y, al mismo tiempo, los valores posibles se van diversificando.

8. Si recordamos regresiones vistas en otros temas podremos situar mejor ésta. En la Regresión lineal la variable dependiente, la que solemos representar por una “y”, es una variable continua, una variable que potencialmente puede tomar cualquier valor real dentro de un intervalo. En la Regresión logística hemos visto que esa variable dependiente era dicotómica: era una variable que tomaba dos valores posibles que normalmente codificamos como 0 y 1. Pues, ahora, con la Regresión de Poisson tenemos una situación en cierta forma intermedia: Potencialmente son infinitos los valores posibles de la variable dependiente pero con limitaciones. Son enteros no negativos, porque son recuentos, y los valores tienen la peculiaridad de tener media muestral y varianza muestral similar.

9. Veamos en el siguiente gráfico el dibujo de los tres tipos de regresión comentados, para situarnos:

IMG_5819

10. Y observemos ahora más en concreto lo que pretende representar la Regresión de Poisson. Observemos que se trata de, a partir de unos datos como podrían ser los del tercer esquema del gráfico anterior, construir un modelo como podría ser el siguiente:

IMG_5818

11. Para poder evitar el problema de dar valores negativos en este tipo de regresión se realiza una transformación de los datos que nos evita estos problemas: una transformación logarítmica.

12. El modelo básico con una única variable independiente es el siguiente:

IMG_5497

13. El modelo para varias variables independientes es:

IMG_5498

14. Veamos tres ejemplos de cómo sería una Regresión de Poisson con una única variable independiente. En el primer caso no funciona el modelo porque el coeficiente “a” no es significativo. Pensemos que el coeficiente “a” es el que multiplica a la variable independiente x, por lo tanto, si su valor es cero significa que no hay relación entre la variable “y” y la la variable “x”, como se puede ver visualizando el gráfico de valores:

IMG_5544

15. En el segundo caso:

IMG_5545

16. En el tercer caso:

IMG_5546

17. En Regresión de Poisson se puede trabajar con los valores brutos (valores absolutos) o con tasas (valores relativos).

18. Como puede observarse se trata de un caso un tanto especial, por las peculiaridades del tipo de variables y de relaciones entre ellas, pero estamos hablando de conceptos que ya han ido saliendo en temas anteriores: conceptos de Regresión, conceptos que preparan el terreno para el establecimiento de un modelo matemático de la relación entre variables.

Tema 27: ANÁLISIS DE CORRESPONDENCIAS

1. El Análisis de correspondencias es una técnica de reducción de dimensiones, una técnica para visualizar una nube de puntos multidimensional en dos dimensiones. Consiste, como las demás técnicas de reducción de dimensiones, en un procedimiento de traslado de una nube de puntos definida en un espacio de muchas dimensiones a un espacio de dos dimensiones donde poder visualizar la posición relativa de unos puntos. Este traslado se hará respetando al máximo las posiciones relativas de los puntos en la nube de puntos original.

2. Se trata, pues, en definitiva, como sucede con las demás técnicas de reducción de dimensiones (Análisis de componentes principales, Análisis factorial o Análisis discriminante) de una técnica que trata de hacer una fotografía, en dos dimensiones, de una realidad multidimensional.

3. El Análisis de correspondencias es, en realidad, un análisis equivalente al Análisis de componentes principales y al Análisis factorial pero con variables cualitativas.

4. Cuando estudiamos dos o más variables cualitativas cada una de ellas tiene una serie de valores posibles, de valores que en realidad son categorías, son valores nominales (es por esto que a las variables cualitativas se les denomina también categóricas o nominales). Por ejemplo, la variable sexo: Hombre y Mujer, la variable fumar: Fuma y No fuma, etc.

5. El objetivo del Análisis de correspondencias crear un mapa de la posición relativa de las variables cualitativas estudiadas con cada uno de sus valores posibles. Una posición que refelje el grado de asociación entre ellas. Es una técnica que, aunque está basada en unos métodos algebraicos complejos, es muy intuitiva, como se verá a continuación. Básicamente el objetivo es representar cada uno de los valores posibles de cada una de las variables estudiadas en un plano donde la posición relativa de los puntos refleje el grado de asociación entre cada uno de los conceptos representados.

6. Se distingue habitualmente el Análisis de correspondencias simples del Análisis de correspondencias múltiples, según sean dos variables cualitativas estudiadas (Análisis de correspondencias simple) o más de dos (Análisis de correspondencias múltiple).

7. El procedimiento del análisis es muy similar al del Análisis de componentes principales. Se trata de buscar qué combinaciones de los valores nominales de las variables cualitativas originales permiten una representación más fiel, en dos dimensiones, de la nube de puntos original que es en más dimensiones.

8. Aparecerán, como en el Análisis de componentes principales, unos valores propios (cantidad de varianza explicada) y unos coeficientes asociados a cada valor de cada variable cuatitativa que representan el peso que cada uno de ellos tiene en esa nueva dimensión que me permitirá una representación en menos dimensiones.

9. Habrá, por lo tanto, una proporción de varianza explicada por las dos dimensiones de la nueva representación que nos dará la fiabilidad, que nos dará el grado de aproximación que hay entre lo que vemos, que es una aproximación, y la verdadera realidad que pretendemos representar. Observemos que la forma de hablar en este tema es paralelo a la forma empleada en el tema dedicado al Análisis de componentes principales.

10. Veamos un ejemplo que puede ilustrar lo que estamos diciendo: Tomamos 100 seguidores del Barça, del R. Madrid, del At. Madrid, del At. Bilbao y del Valencia. Y les pedimos que elijan de entre esos cinco equipos dos preferentes. Uno, evidentemente será el propio equipo del que es seguidor pero el segundo debe ser el que más les simpático les caiga o el que por el que menos antipatía sientan. Esto nos permitirá analizar la posición relativa de  los seguidores de esos equipos respecto a esos equipos.

11. Observemos que tenemos dos variables cualitativas. El equipo del que es seguidor y la elección de los dos equipos preferidos. Al final el cuadro de resultados es el siguiente:

IMG_6073

12. Observemos que es un ejemplo muy claro. Vemos unas proximidades y unas lejanías que todos los aficionados al fútbol conocemos. Veamos que de los 100 seguidores del Barça los 100 eligen al Barça pero como deben también elegir a otro equipo 30 eligen al At. Madrid, 60 al At. Bilbao y 10 al Valencia. De los 100 seguidores del R. Madrid los 100 eligen al propio R. Madrid pero la segunda opción se reparte distinto: 20 para el At. Bilbao y 80 para el Valencia. Y así sucesivamente.

13. El primer cuadro de resultados fundamental de este análisis es el siguiente:

IMG_6074

14. Observemos que aquí lo que nos marca es la calidad de la representación que veremos luego. Fijémonos especialmente en la llamada Proporción de la Incercia explicada. Vemos que la primera dimensión, el primer eje (podríamos decir la primera componente principal, en términos del Análisis de componentes principales) explica el 0.663 por uno o el 66.3% de la inercia. La inercia es un sinónimo de varianza. Este análisis está muy ligado a la tradición estadística francesa donde a la varianza se le denomina inercia. La segunda dimensión explica el 22%. En total con las dos dimensiones que veremos explicamos el 88.3%. Está muy bien.

15. El siguiente paso son cuales son las coordenadas. El análisis siempre da unas coordenadas de los puntos fila y unas coordenadas de los puntos columna:

IMG_6075

IMG_6076

16. Esto es porque, en realidad, los que hace la técnica es hacer dos análisis de reducción de dimensiones: uno según filas y otro según columnas y luego los solapa. Solapa los puntos, solapa las dos representaciones. En realidad, se hacen dos Análisis de componentes principales a la matriz de datos mostrada anteriormente: una en la que las filas son variables y las columnas individuos y otra en la que las filas son los individuos y las columnas variables. Esta es, en sí, la esencia de la técnica.

17. Finalmente el gráfico es el siguiente:

 IMG_6077

18. Como puede observarse el punto que hace referencia a los seguidores está muy cerca, en todos los casos, del punto de las preferencias. Pero observemos más cosas: Los seguidores del Barça eligen con frecuencia al At. Bilbao, y lo mismo al revés. Son equipos próximos. Tanto Barça respecto al R. Madrid como el At. Madrid respecto al R. Madrid están muy alejados. El Valencia está más próximo al R. Madrid, pero en realidad está bastante en el centro del gráfico, lo que significa que las distancias con todos los equipos está bastante repartida. Si se observa con detenimiento este gráfico y los datos de la matriz de resultados, de la tabla de correspondencias, vemos que ese gráfico es una representación gráfica fiel de lo que se desprende de aquellos datos.

19. Cuando tenemos más de dos variables cualitativas lo que hace la técnica es construir una matriz de doble entrada donde va añadiendo en las filas todas las categorías de cada una de las variables cualitativas del estudio y en las columnas hace lo mismo. Es la llamada Matriz de Hurt. En el interior de la matriz, como en el caso de dos variables cualitativas, tenemos las frecuencias de cada uno de los cruces. A partir de ella es donde se realiza el análisis de reducción de dimensiones y la representación en un plano de todas las categorías respetando la posición relativa de unos conceptos respecto a los otros.

20. Veamos un ejemplo de Análisis de correspondencias múltiples. Supongamos que estamos analizando las variables sexo (hombre, mujer), edad (joven, adulto) y fumar (sí, no).

21. En el siguiente gráfico muestro unos datos que tal vez podrían encajar con lo que sucedía hace 40 años y el plano resultado del análisis:

IMG_6083

22. Y veamos ahora otro gráfico con otros datos y con otro análisis que tal vez encaja más con datos de hace unos pocos años:

IMG_6081

23. Es muy importante comparar ambas matrices de datos y, en cada caso, en cada estudio, comparar los datos con el diseño del plano con los valores de las tres variables cualitativas que nos proporciona el análisis.

24. En el primer caso el fumar o no fumar está más próximo a Hombre o Mujer, respectivamente y, también en este caso, el perfil de jóvenes y adultos es muy distinto y más o menos equidistante de fumar o no.

25. En cambio, en el segundo caso, el fumar o no fumar está más ligado a Joven o Adulto y el perfil de Hombre y mujer están alejados y equidistantes más o menos de fumar o no fumar aunque un poco más cerca Hombre de fumar y Mujer de no fumar.

26. Sin lugar a dudas que si se practica un poco interpretando las dos matrices de datos y los dos gráficos de salida del Análisis de correspondencias múltiple se captará la esencia de esta técnica: la búsqueda de una representación bidimensional que refleje la posición relativa de las asociaciones entre las diferentes opciones nominales de las variables cualitativas incluidas en el análisis.

27. Hemos comentado antes que el Análisis de correspondencias múltiples trabaja con la llamada Matriz de Hurt. Esta matriz se obtiene a partir de las frecuencias para cada caso y consiste en un recuento de las frecuencias de los cruces de todos los valores nominales posibles de las diferentes variables cualitativas analizadas.

28. A partir de los datos del segundo de los casos analizados anteriormente podemos ver, a continuación, cuál sería la Matriz de Hurt:

IMG_6082

29. El Análsis de correspondendias, por lo tanto, lo que hace es aproximar lo próximo, los perfiles próximos, busca las asociaciones, trata de dibujarnos las relaciones entre los valores de las variables cualitativas.

30. Un último ejemplo, basado en unos datos y un análisis hecho por Bernat Llopis: son datos de un estudio de algunas características evaluadas en diferentes dragones de la literatura universal. La tabla de datos recoge cuatro variables: La naturaleza (Malvada, Salvaje o Bondadosa), el mundo al que pertenece (Fantástico o Real), si habla o no y si exhala fuego o no.

31. Una vez hecho el análisis de correspondencias tenemos las siguientes asociaciones de las variables categóricas estudiadas:

IMG_0819

32. Hay una tendencia a asociarse, en un dragón, el hablar, la naturaleza bondadosa, el exhalar fuego y el pertenecer a un mundo fantástico. Por el contrario, el no hablar, el pertenecer a un mundo real, el ser de naturaleza malvada y el no exhalar fuego también parecen asociados, aunque no tan intensamente como el otro grupo de características.

33. Los datos en los que se basa este estudio son los siguientes:

Nombre propio Naturaleza Mundo Habla ExhalarFuego
Smaug Malvada Fantástico Si Si
Drogon Salvaje Fantástico No Si
Xèron Bondadosa Real Si No
Saphira Bondadosa Fantástico Si Si
Yandrak Bondadosa Fantástico No Si
Sin nombre Bondadosa Real No No
Sin nombre Salvaje Fantástico No Si
Fújur Bondadosa Fantástico Si No
Sin nombre Salvaje Real No Si
Sin nombre Malvada Real No Si
Kalecgos Bondadosa Fantástico Si No
Ferno Bondadosa Fantástico No Si
Sin nombre Malvada Real No no
Fafnir Malvada Real Si No
Lung Bondadosa Real Si Si
Sin nombre Malvada Real No Si
Kai Bondadosa Fantástico Si Si
Glaedr Bondadosa Fantástico Si Si
Shruikan Malvada Fantástico Si Si
(Sin nombre. Se le denomina
“Dragón Dorado” o “Emperador Dragón”)
Malvada Fantástico Si Si
Norberto Salvaje Real No Si