Tema 19: ANÁLISIS CLÚSTER

1. El Análsis clúster (AC), también llamado en ocasiones Análisis de conglomerados, se dice habitualmente que es una técnica estadística clasificadora, pero, en realidad, es una técnica que, como el Análisis de componentes principales (ACP) o como el Análisis factorial (AF), pretende representar una realidad que no conseguimos visualizar, una realidad cuya representación original es multidimensional y es imposible que la podamos ver en su estado puro.

2. En el fondo tanto ACP, como AF, como AC son técnicas que tratan de representan una nube de puntos original situada en un espacio de tantas dimensiones que es imposible visualizar. Y cada una de ellas, también, en el fondo, puede ser usada como método clasificatorio, como método para crear subpoblaciones, subgrupos.

3. La diferencia fundamental entre ellas es la forma de presentación que utilizan, la forma de resolver el problema de no visualización de la nube de puntos originales. El ACP y el AF lo hacen construyendo una nube de puntos de la misma naturaleza pero de menor número de dimensiones  perdiendo una parte de la información original. Sin embargo, el AC lo que hace es crear una representación distinta a la de la nube de puntos. Crea otro tipo de representación. Cambia la forma: no lo hace mediante una nube de puntos, lo hace mediante un dendrograma.

4. Cada una de las opciones tiene sus ventajas y sus desventajas, como iremos viendo a continuación.

5. El ACP y el AF respetan el tipo de representación: una nube de puntos, pero al reducir dimensiones se pierde información y esto es un problema, especialmente si la pérdida es importante. El AC respeta la nube de puntos original, no reduce dimensiones y, por lo tanto, no se pierde información, pero, eso sí, se cambia el mecanismo de representación, se cambia el estilo de representación. Representamos la nube de puntos mediante un dendrograma. Digamos que en el ACP y el AF se hace una representación figurativa y en el AC se hace una representación abstracta. Veamos un gráfico que nos ilustra la comparación:

IMG_4660

6. A la izquierda de este gráfico tenemos una supuesta nube de puntos original. En este caso con tres dimensiones para que lo visualicemos, pero normalmente esta nube de puntos no la veremos, será una nube de puntos de muchas más dimensiones. A la derecha vemos las dos estrategias gráficas: Arriba una representación mediante una nube de puntos también, aunque en dos dimensiones que pueden ser las diseñadas por dos componentes principales o por dos factores, según la técnica utilizada. Abajo una representación bien distinta: un dendrograma, que, como a continuación veremos, se construye a partir de la nube de puntos original mediante unos procedimientos que conviene explicar con detalle.

7. Visto así parecería que el AC tiene ventajas: cambiamos la forma de representación pero no perdemos información. Parece mejor opción, pero sólo lo parece. Porque ahora veremos que en el AC hay dos momentos de decisión en la técnica que nos lleva a procedimientos que nos pueden generar realmente representaciones muy diferentes.

8. Veamos el procedo seguido por el AC para construir un dendrograma a partir de una nube de puntos original constituida por una serie de individuos de los que tienes los valores de varias variables.

9. El primer momento en el AC es definir una noción de distancia entre puntos. Necesitamos elegir una distancia, una medida que nos cuantifique distancias entre los individuos dentro de la nube de puntos original. Y aquí aparece de repente el primer problema del AC: que hay muchas distancias propuestas.

10. Ejemplos de distancias: La distancia euclídea es la más intuitiva y la más utilizada, de largo. Es la que calcula la distancia en línea recta entre los puntos en el espacio o en el hiperespacio de la nube de puntos original. Esta distancia en realidad es una aplicación del Teorema de Pitágoras:

IMG_4632

11. Otra distancia muy utilizada es la denominada distancia Ciudad:

IMG_4633

12. La distancia Mahalanobis es una distancia de mucho prestigio en Estadística Se trata de una distancia que tiene en cuenta no sólo las distancias que hay en cada una de las variables sino que cada una de estas distancias la relativiza respecto a la dispersión que tiene cada una de esas variables originales:

IMG_4634

13. Hay muchas más distancias definidas y utilizadas. De hecho, para ser distancia una función debe cumplir las siguientes propiedades:

IMG_4640

14. Veamos un ejemplo, en miniatura, para ver así qué pasos se siguen a la hora de hacer un AC. Vamos a ver un caso con sólo dos variables para visualizar con detalle microscópicamente todo lo que se hace, pero pensemos que lo que diga es perfectamente extrapolable al número de variables que sean. Supongamos los siguientes cinco individuos: a, b, c, d y e:

IMG_4641

15. Vamos a construir, paso a paso, el dendrograma. Lo primero es elegir una distancia, como ya hemos dicho. Una vez elegida calcularíamos todas las distancias entre los puntos mediante esa distancia elegida. Obtendríamos, así, una matriz de distancias. Una matriz de distancias es una matriz cuadrada, simétrica y con la diagonal principal con ceros. Un ejemplo, en nuestro caso, sería la siguiente matriz:

IMG_4642

15. La primera agrupación de puntos se hace en base a la matriz de distancias. Se agrupan los dos puntos diferentes de distancia menor. En nuestro caso serían los puntos a y b:

IMG_4643

17. Y, por lo tanto, realizamos la primera unión en el dendrograma, la unión entre a y b.

18. A continuación nos encontramos con un problema. Ahora tenemos, en realidad, cuatro entidades para medir distancias y continuar, pero el problema es que ahora tenemos que una de esas entidades, y así será ya continuamente, son un grupo de individuos. Por lo tanto, debemos definir cómo calcularemos la distancia entre un punto y un grupo de puntos que sea, también, un criterio que nos sirva para establecer la distancia entre dos grupos de puntos, porque esto también nos aparecerá a la que tengamos en un análisis un mínimo de dos grupos.

19. Se han establecido diferentes criterios para definir la distancia entre un punto y un grupo o la distancia entre dos grupos. Veamos tres ejemplos de esos criterios: 1) El criterio del mínimo. 2) El criterio del máximo. 3) El criterio de la media. Veamos un gráfico que ejemplifica en nuestro caso cómo calcularíamos estos tres criterios:

IMG_4644

20. Según apliquemos un criterio u otro nos podemos a encontrar con agrupaciones diferentes. Si aplicamos uno de estos criterios, por ejemplo el de la media, nos encontraríamos que, en nuestro ejemplo, la distancia menor es la que hay entre los puntos d y e:

IMG_4646

21. Y, si continuamos con el mismo procedimiento, ahora la distancia menor entre las tres entidades que nos quedan (el grupo (a, b), el grupo (d, e) y el punto c) será la que hay entre el grupo (d, e) y el punto c:

IMG_4647

22. Y, finalmente ya, lo último es agrupar lo que queda:

IMG_4684

23. Y tenemos, así, el dendrograma completo. Este es el procedimiento que sigue un software estadístico para construir el dendrograma, que es la forma de representación que persigue el Análisis clúster.

24. Pero observemos cómo hemos tenido que establecer dos decisiones claves que cambian el transcurso del proceso: La distancia con la que trabajar y el criterio de cálculo de distancia entre punto y grupo o entre grupo y grupo. Y según sea la elección el resultado puede cambiar, las agrupaciones pueden ser distintas. Es cierto que si las cosas son muy claras los resultados son prácticamente los mismos, sigamos el procedimiento que sigamos, pero no siempre sucede así.

25. Una opción que suele ser también interesante es hacer el Análisis clúster girando la matriz de datos; o sea, viendo las variables como individuos y los individuos como variables. Entonces agrupamos no individuos sino variables. Vemos la proximidad de unas respecto a otras, qué agrupaciones tendría sentido hacer, etc.

26. De hecho, si hacemos un AC, de una matriz de datos, primero con los individuos y luego con las variables, estamos cubriendo aquellas dos finalidades que persiguen tanto el ACP como el AF, que son: 1) Representar los puntos, visualizarlos. 2) Ver relaciones entre las variables, agrupaciones, conexiones entre ellas.

27. Veamos la aplicación del AC a los datos de los estudiantes que hemos visto en los temas dedicados al ACP y al AF. Al aplicar a los 15 alumnos para todas las variables; o sea, a la nube de puntos original, el AC con la distancia euclídea y el criterio de distancia entre punto y grupo o entre grupo y grupo el de la media del grupo, el dendrograma que se construye es el siguiente:

IMG_4649

28. Si hacemos lo mismo pero ahora con las variables obtenemos el siguiente dendrograma:

IMG_4651

29. Lo que muestra realmente lo que decíamos de la agrupación que se produce entre variables: Letras por un lado y Ciencias por otro. Aquí Educación acaba agrupándose primero con las ciencias que con las letras, pero es la última agrupación, si quisiéramos crear tres grupos de variables y cortáramos el dendrograma a nivel de obtención de tres grupos de variables tendríamos: Letras, Ciencias y Educación física.

30. Es interesante comparar los resultados obtenidos, las representaciones dibujadas, con las tres técnicas: ACP, AF y AC a los mismos datos. Al final tenemos, como ya hemos dicho, dos formas muy distintas de hacer lo misma: la del ACP y AF, por un lado, y la del AC, por otro. Dos formas de representación muy distinta. Pero la finalidad fundamental de ambas es descriptiva: representar lo que no podemos visualizar en su estado original, hacer una representación aproximada, crear un modelo de aquella realidad que no tenemos. Y junto ahora las dos formas tan distintas de hacer lo mismo en un mismo gráfico. Pongo sólo el AF en representación de la opción generada por AF o por ACP:

IMG_4685

31. Lo primero que vemos si comparamos ambos gráficos es que son dos representaciones muy distintas: como cuando vemos un cuadro de Picasso o de Velazquez. A lo mejor los dos intentan pintar lo mismo: las meninas, por ejemplo, pero lo hacen mediante técnicas pictóricas bien distintas. Una figurativa, la otra más abstracta. Pero con un poco de paciencia pueden irse estableciendo paralelismos entre ambos gráficos igual que con las merinas de Velazaquez y de Picasso.

32. El 5 y el 11 forman un grupo: son los alumnos que son buenos tanto en ciencias como en letras. El 2, 7, 4, 10 y 13 forman otro grupo: son los alumnos buenos en letras pero malos en ciencias. El 6 y 8 otro grupo: son los alumnos buenos en ciencias pero malos en letras. El 12 y 14: el grupo de los malos en ciencias y en letras. Finalmente, hay un grupo formado por el 1, 15, 3 y 9 que están en medio, que les va todo justo, están en la frontera entre el aprobado y el suspenso tanto en ciencias como en letras. Veámoslo en el siguiente gráfico que es el mismo de antes pero con estos grupos marcados tanto en una como en la otra representación:

IMG_4686

32. Como puede verse estamos haciendo cosas similares aunque a través de procedimentos bien distintos.

Anuncios

12 pensamientos en “Tema 19: ANÁLISIS CLÚSTER

  1. Miguel

    Después de visitar media docena de páginas, ¡Por fin lo entiendo! gracias por la claridad en la exposición, me resulta muy útil para mi proyecto. Enhorabuena por esta página.

    Responder
  2. Maria Eugenia Tarifa

    con esta pagina, me empieza a gustar porque te explica en facilito la estadistica. Muchas Gracias por ese aporte

    Responder
  3. Jacque Pizarro

    Hola, muchas gracias por tu publicación.
    Una duda, si tenemos una base de datos inicial, donde se realizan la segmentación correspondiente, y encontramos por ejemplo cinco cluster de los cuales el cluster 1 y cluster 2 se caracterizan por tener alta renatbilidad y estabilidad en el mercado financiero. ¿Como tu buscas clientes nuevos en el mercado, similares al cluster 1 y cluster 2?
    Agradecer tu ayuda.

    Responder
    1. estadisticallopis Autor de la entrada

      Debes buscar cuáles son las variables más asociadas a este grupo formado por el clúster 1 y 2. Se puede hacer mediante una Regresión logística. Debes generar una variable dicotómica (pertenencia o no a eseos dos clústers) y ver que variables separan más a esos dos grupos.

      Responder

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s