Funciones de distribución

1. Una función matemática es un tipo de relación establecido entre dos o más variables. Cuando escribimos y=f(x) estamos estableciendo una relación entre la variable “x” y la variable “y”.

2. Una de las peculiaridades de la funciones matemáticas es que pueden ser usados como modelos de relaciones entre variables reales.

3. En Estadística las funciones matemáticas más utilizadas como modelos son las llamadas funciones de distribución.

4. Las funciones de distribución son modelos de la variabilidad, modelos de la forma de la variación que tiene una variable. En esas funciones la variable “x”, en la típica estructura de una función: y=f(x), son los valores que se pueden dar de la variable estudiada y los valores de la variable “y”, son la probabilidad de que se den; o sea, la abundancia relativa de ese valor en la población.

5. Las funciones de distribución, como su nombre indica, son representaciones de cómo, potencialmente, puede distribuirse una variable. Y no lo olvidemos: son funciones matemáticas. No son variables reales como la altura, el peso, el número de hermanos, el ser hombre o mujer, etc. Lo que sucede es que se han construido de tal forma que pueden actuar de maquetas de esas variables reales, porque modelizan bien su variabilidad.

6. Es evidente que no se distribuye de la misma forma una variable como el número de hermanos que tiene una persona, su altura, el sexo o el grado de dolor que tiene una persona tras una cirugía.

7. La normal, la binomial, la Poisson, la Bernouilli, la exponencial, etc., son distintas distribuciones, distintas formas de dibujar, matemáticamente, a través de una función, la variabilidad con la que se nos presentan las variables que estudiamos.

8. La modelización estadística, en general, consiste en la representación de una situación estadística real mediante un modelo matemático.

9. Una de las modelizaciones estadísticas más usuales es la de la variabilidad de una variable mediante una función de distribución.

10. El contraste de hipótesis de la modelización estadística es siempre: H0: El modelo se ajusta a la realidad. H1: El modelo no se ajusta.

11. En el caso concreto de una función de distribución el contraste es: H0: La variable sigue una distribución determinada. H1: No la sigue.

12. Por ejemplo, es muy habitual en Estadística el contraste siguiente: H0: La variable sigue una distribuión normal. H1: No la sigue.

13. Estos contrastes siguen la misma operatividad que siguen todos los contrastes de hipótesis estadísticos: una muestra y una técnica que decide, proporcionando un p-valor, si tiene sentido, a la luz de lo que dice la muestra, mantener la hipótesis nula o si debemos rechazarla y aceptar la alternativa.

14. Todas las técnicas estadísticas cuyos contrastes de hipótesis ajustan una función de distribución a unos datos se denominan técnicas bondad de ajuste a una distribución. En la sección Herbario de técnicas se pueden consultar varias de ellas.

15. Vamos a ver a continuación las distribuciones más usadas como modelos de la variación. En la siguiente tabla podemos ver el nombre de la distribución, la nomenclatura habitualmente usada y su función de densidad:

IMG_4547

16. Es importante conocer cuál es la esperanza y cuál es la varianza de cada una de estas distribuciones. De esta forma tenemos un valor de referencia de cada una de ellas: el valor promedio y la dispersión de sus valores:

IMG_4548

17. Y estas distribuciones tienen, evidentemente, unas formas peculiares. Las tres primeras sólo tienen probabilidad valores enteros (son distribuciones discretas), las otras dos tienen probabilidad intervalos reales (son distribuciones continuas). Las dos primeras además de ser discretas son finitas (sólo tienen probabilidad un número finito de valores: dos la distribución Bernouilli y n+1 la distribución Binomial. Es la peculiar forma de cada una de ellas lo que nos sirve de modelo de la variabilidad. Veamos la forma general de cada una de estas distribuciones:

IMG_4550

18. Los parámetros de cada distribución, que son las letras entre paréntesis en la nomenclatura de la distribución, son como las tallas del modelo. Una vez adaptada (ajustada, solemos decir los estadísticos) una distribución a una variable real conviene seleccionar el valor más adecuado del parámetro, o de los parámetros, a los datos que se tienen de la variable en la muestra. Esto es como cuando compramos unos zapatos, primero elegimos el modelo y luego la talla. Con la talla buscamos un ajuste del zapato a nuestro pie. Pues esto también hacemos con las distribuciones.

19. Entre la distribución Binomial, la Poisson y la Normal existen posibilidades de usar unas por otras en determinadas circunstancia. Esto se basa en el hecho de que en esas circunstancias en las que es posible la aproximación los contornos, las formas, la distribución de probabilidades, se aproxima mucho entre ellas. Y muchas veces calcular áreas mediante una distribución Binomial o una Poisson es largo y pesado, en cambio pasar a una distribución es muy sencillo y rápido.

20. Veamos a continuación el mapa de estas aproximaciones:

IMG_4553

21. Las aproximaciones son, como puede verse, de la Binomial a la Poisson, de la Binomial a la Normal y de la Poisson a la Normal. En rojo están las condiciones en las que esto es posible. Y en negro están cómo se calcula el parámetro o los parámetros de la nueva distribución a partir del parámetro o de los parámetros de la antigua.

22. Como se puede ver la distribución normal es finalmente una distribución muy utilizada tanto como representación de la variabilidad de una variable en la naturaleza, porque muchas variables tienen un compartamiento de campana de Gauss, y porque muy frecuentemente otras distribuciones (la binomial y la Poisson) se pueden aproximar a una normal y los cálculos en ésta son mucho más sencillos.

23. Para ver con detalle las peculiaridades de la distribución normal puede consultarse el artículo dedicado a ella. Allí se podrá comprobar el uso de las tablas de la normal.

24. Alguien pensará: ¿Y la distribución t de Student? ¿Y la distribución F de Fisher? ¿Y la distribución ji-cuadrado de Pearson? Estas no son distribuciones usadas como modelo de la variación. Pero son muy importantes en Estadística, evidentemente. Son usadas continuamente. Pero son usadas como distribuciones de estadísticos de test en ciertos contrastes.

25. Estas tres distribuciones (la t de Student, la F de Fisher y la ji-cuadrado de Pearson) se les denomina distribuciones derivadas de la normal, porque son las distribuciones de ciertos estadísticos si la variable de estudio es una distribución normal.

26. Veamos un caso de aplicación de una distribución Binomial:

IMG_5206

27. Veamos, ahora, un caso de aplicación de una distribución Poisson:

IMG_4562

28. Veamos un caso de una distribución Normal (Ver el artículo dedicado a la Distribución normal donde se explican la estandarización y el uso de la tabla de la N(0, 1)):

IMG_4563

29. Para ver cómo se maneja la tabla de la distribución normal para poder calcular esas áreas puede consultarse el artículo dedicado a esa distribución.

30. Y ahora un caso de aplicación de una distribución Exponencial:

IMG_4565

31. Veamos a continuación dos problemas donde se usa la posibilidad de aproximar una función de distribución por otra función de distribución. Las aproximaciones que usaremos son las vistas en el cuadro descrito en el punto 20. Veremos que en el caso de usar una aproximación de una función Binomial o Poisson mediante una distribución Normal, es recomendable hacer una corrección por aproximación de una distribución discreta por una distribución continua.

IMG_5266

32. Esta corrección por aproximación, como podemos ver en el apartado 2 del problema anterior, es importante. Puede comprobarse, porque esta resuelto sin aplicar y aplicando la corrección, que el resultado cambia sensiblemente. Para entender este concepto pensemos que estamos calculando la probabilidad de que el valor sea igual o superior a 120. Si lo calculamos mediante la distribución Normal calculamos área a partir sólo del 120, dejando el espacio del 119 al 120 como área sin contar. Se suele coger desde la mitad de estos valores para que una mitad vaya a un lado y la otra mitad al otro. Se consiguen así mejores aproximaciones.

33. Veamos el otro problema de aproximaciones de una distribución por otra distribución:

IMG_5267

34. Obsérvese que ahora, como lo que se pide es la probabilidad de ser mayor estricto a 12, la corrección se aplica contando el área a partir de 12, porque en realidad es como si tuviéramos que calcular la probabilidad de que la variable discreta fuera igual o mayor que 13.

Un pensamiento en “Funciones de distribución

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s