Situación 30: Cinco preguntas en un estudio lingüístico

Estamos diseñando un clasificador automático de artículos de revistas. En un primer proceso de decisión se pretende distinguir si se trata de un artículo de la categoría “Ciencia” o de la categoría “Letras”. Posteriormente habrá otros niveles de decisión y de clasificación.

Para optimizar este primer proceso de decisión se han estudiado una serie de variables en 15 textos de Ciencias y en 15 textos de Letras. Los resultados obtenidos son los siguientes:

IMG_5773

Observad bien la matriz de datos. La variable “Texto de ciencias” toma valores 0 y 1. El valor 1 corresponde a un texto de ciencias y el valor 0 a un texto de letras. Se ha tomado en cada texto, en cada artículo, una muestra de 2000 palabras para medir las tres variables siguientes: “Media de palabras por oración”, “Porcentaje de subordinadas” y “Relación adjetivos/sustantivos”.

1. A partir de esos valores obtenidos y mostrados en la matriz de datos anterior, para evaluar y cuantificar la relación entre las variables “Media de palabras por oración” y “Relación adjetivos/sustantivos” la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

2. Para valorar la relación entre las variables “Texto de Ciencias” y “Media de palabras por oración” la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

3. La correlación de Pearson más razonable entre las variables “Media de palabras por oración” y “Porcentaje de subordinadas”, viendo los datos obtenidos es:

a. r= – 0,78 (p<0,05).

b. r= 0.

c. r= 0,99 (p>0,05).

d. r= 0,87 (p<0,05).

4. El gráfico Box-Plot de la variable “Relación adjetivos/sustantivos” es el siguiente:

IMG_5777

¿Qué afirmación no es cierta?

a. El rango intercuartílico es 0,46.

b. La mediana es 0,625.

c. El tercer cuartil menos la mediana es 0,42.

d. El segundo cuartil menos el primer cuartil es 0,2.

5. Si hacemos una Regresión logística entre la variable “Texto de Ciencias” y “Media de palabras por oración” obtenemos el siguiente modelo:

IMG_5778

Si hacemos una Regresión logística entre la variable “Texto de Ciencias” y “Relación adjetivos/sustantivos” obtenemos el siguiente modelo:

IMG_5780

¿Qué afirmación no es cierta?

a. La variable “Relación adjetivos/sustantivos” tiene, respecto a la variable dicotómica “Texto de ciencias”, una Odds ratio más alejada de 1 que la que tiene la variable “Media de palabras por oración”.

b. Si un texto tiene un valor de la variable “Media de palabras por oración” de 8 podemos decir que la probabilidad de que se trate de un texto científico es del 90%.

c. Si un texto tiene un valor de la variable “Relación adjetivos/sustantivos” de 0,65 podemos decir que la probabilidad de se trate de un texto científico es del 50%.

d. La variable “Media de palabras por oración” representa un mecanismo mejor de clasificación de textos entre la categoría de “Ciencias” o “Letras” que el que obtendríamos mediante la variable “Relación adjetivos/sustantivos”.

Solución

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s