Tema 16: DETERMINACIÓN DEL TAMAÑO DE MUESTRA

1. La pregunta que más se le hace a un estadístico es: “¿Qué tamaño de muestra necesito?”.

2. El problema que tiene esta pregunta es que, así, sin más, no tiene respuesta. Es una pregunta que engendra preguntas porque el estadístico, sin más información, no puede decir nada, como veremos a continuación.

3. Para empezar a plantear el complejo problema de la determinación del tamaño de muestra necesario en un estudio vamos a plantear el problema de decidir el tamaño de muestra para hacer una predicción, por ejemplo: la predicción de una media poblacional.

4. El radio (r) de un intervalo de confianza de la predicción de la media poblacional, la Desviación estándar (DE) y el tamaño muestral (n) mantienen una relación que puede expresarse en una ecuación muy importante en Estadística:

IMG_4906

5. Recordemos que un intervalos de confianza de la media como, por ejemplo: (5, 15), tiene como radio 5 y como diámetro tendría 10. Y recordemos, también, que estos intervalos tienen un porcentaje de confianza.

6. Esta constante k dependerá de ese porcentaje de confianza con el que queramos expresar el pronóstico. En el caso de que estemos trabajando con la media poblacional y en caso de seguir, nuestra variable, la distribución normal, este valor de k, ya lo sabemos desde el Tema dedicado a los intervalos de confianza, es aproximadamente 2.

7. Por lo tanto, la ecuación quedaría así:

IMG_4907

8. Vamos a reflexionar algunas cosas importantes que se desprenden de esta importantísima igualdad.

9. Esta ecuación no aparece por arte de magia, surge de la fundamental noción de Error estándar (EE), cuya expresión recordemos que, para el pronóstico de la media poblacional, es EE=DE/raiz(n).

10. De hecho, ya lo hemos dicho en diferentes ocasiones, que en cualquier estimación, en cualquier pronóstico, está implicado el Error estándar. El EE es una DE, pero es la DE de una predicción. Esto es lo que lo caracteriza.

11. Pero, además, hemos visto también que la noción de EE era fundamental para la construcción del intervalo de confianza del 95%.

12. Y en la ecuación r=2•DE/raiz(n) la parte derecha de la igualdad es esa expresión de dos veces el error estándar.

13. Otra forma de expresar esa ecuación, despejando la n, es:

IMG_4908

donde ya la tenemos en la forma deseada, porque lo que queremos es determinar el tamaño de muestra, la n, en un estudio concreto.

14. Una vez tenemos la ecuación podemos hacer afirmaciones a partir de ella. En una ecuación la posición relativa de los conceptos es muy importante. Veamos: Si hay mucha dispersión necesitamos más n. Si hay poca dispersión no necesitaremos tanto tamaño de muestra. La relación entre n y la DE es directa. A más DE más n. A menos DE menos n.

15. Si necesitamos una precisión grande en nuestras predicciones; o sea, un radio r pequeño, entonces deberemos tener una muestra grande. Si no necesitamos mucha precisión; o sea, si no precisamos un radio r muy pequeño, la muestra podrá ser menor. Por lo tanto, el tamaño de muestra está relacionado de forma inversa con ese radio del intervalo.

16. O sea, a la hora de elegir un tamaño de muestra debemos saber qué precisión necesitamos y qué dispersión podemos prever que tendremos en la futura muestra. Necesitamos saber, pues, cómo será la muestra que aún no tenemos.

17. Esta paradoja es importante: para elegir un tamaño de muestra ideal necesitamos saber cómo será la dispersión de esa futura muestra.

18. El conocimiento de lo que todavía no conocemos lo debemos suplir por información de otros estudios previos o por una muestra piloto, una pequeña muestra previa, una premuestra, que nos permita hacer una previsión de la dispersión que tenemos en el estudio.

19. Respecto a la precisión requerida en el estudio, expresada ésta por el radio del intervalo (r), no siempre uno sabe lo que le interesa o lo que necesita. En este caso lo que uno quiere es estar lo más cerca del valor que estima. Pero es necesario especificar, de antemano, esa precisión porque de ello depende el tamaño de muestra que hemos de tomar. Porque está en la ecuación.

20. Un ejemplo: Estamos estudiando la media de altura de una población adulta y queremos construir un intervalo de confianza del 95% de la media poblacional cuyo radio no sea mayor que 1; o sea, queremos construir un intervalo de confianza con el valor de la media muestral más menos 1.

21. Observemos que a partir de la ecuación n=4•DE2/r2 sabemos r que vale 1, pero nos falta saber DE. Si sabemos, por otros estudios, que la DE en estas poblaciones es un valor cercano a 10 ya lo tenemos todo para determinar el tamaño de muestra que necesitamos. Entonces el tamaño de muestra ideal para trabajar es: n=4•102/12=400. Con este tamaño de muestra y con esta dispersión podremos construir un intervalo de confianza del 95% de la media poblacional a partir de la media muestral que calculemos a la muestra con un radio de 1.

22. Si la variable es dicotómica (una variable como hombre-mujer o tiene o no diabetes) la fórmula es la misma pero ahora la DE es raíz cuadrada de p(1-p), que es la Desviación estándar de una variable dicotómica. O sea, debemos saber cuál debe ser, aproximadamente, el valor de p que acabaremos estimando. Ante la duda se elige como p el valor de 0.5 que nos daría el máximo valor posible de tamaño muestral.

23. Observemos ahora lo mismo pero visto desde el otro lado: Tomamos una muestra de tamaño 400 y calculamos la media que es, por ejemplo, 170 y la DE que resulta ser, finalmente 10, como ya habíamos predicho por estudios previos. Entonces, al calcular el intervalo de confianza de la media poblacional lo haríamos sumando y restando dos veces el Error estándar. Y el Error estándar, en esta muestra, sería 10/raíz(400)=0.5. El intervalo de confianza sería, entonces, 170±1, que es del nivel de precisión que queríamos.

24. Con esto hemos visto que el tamaño de muestra n en un caso de estimación de un valor poblacional, en un caso de un pronóstico poblacional, es una función de la DE y de la precisión requerida, expresada como el radio del intervalo de confianza; o sea:

IMG_4909

25. Cuando el problema es contrastar una hipótesis la situación es otra. Entran en juego ahora muchos más elementos. En el caso, por ejemplo, de un contraste de la diferencia de medias tendríamos ahora una función de cuatro variables como la siguiente:

IMG_4910

donde alfa es el nivel de significación, 1-beta es la potencia, DE es, como antes, la Desviación estándar y d es la diferencia mínima que interesa detectar.

26. Una función, pues, que depende de cuatro factores, de cuatro valores. Necesitamos más cosas, pues, que antes. Veámoslas una a una.

27. La alfa es la menos problemática, es el nivel de significación, es el error de tipo I (Ver el artículo “La noción de potencia estadística”), solemos fijarla siempre en el valor 0.05.

28. La 1-beta es la potencia estadística (Ver, también, el artículo “La noción de potencia estadística”). Interesa que sea un valor alto. Pensemos que la beta es el error de tipo II, un error que no está fijado de antemano, como sucede con el error de tipo I, y que, por lo tanto, conviene conocer puesto que para que el procedimiento de decisión sea bueno debe ser pequeño el error que se puede cometer. La potencia suele aceptarse que a partir de 0.8 es ya una potencia considerable. Lo ideal, no obstante, sería tenerla de 0.95.

29. Con la DE pasa lo de antes, necesitamos buscar información de estudios similares o tomar una premuestra para saber aproximadamente cuál es su valor.

30. La d suele ser compleja. Al estadístico es lo que le cuesta más conseguir del profesional que necesita de la Estadística. Es, en el caso de tratarse de una comparación de medias, la diferencia mínima que interesa detectar, la diferencia mínima relevante desde el punto de vista médico, económico, lingüístico, etc. (Ver el Tema “Significación formal versus Significación material”).

31. Veamos un típico gráfico de potencia. El siguiente es el de la t de Student para una población y parte del supuesto de que la alfa es 0.05 y la DE es 3. Para otro valor de DE necesitaríamos otras curvas. Veámosla:

IMG_4544

32. Observemos que la potencia crece al aumentar el tamaño de muestra. Desde la curva verde hasta la rosa, pasando por la azul, va aumentando el tamaño de muestra y también la potencia, para cualquier diferencia de medias excepto para la diferencia mínima 0. Crece también al aumentar la diferencia mínima a detectar. Cuanto más grande es esa diferencia más se separan la distribución bajo una hipótesis y bajo la otra. Esto, recordémoslo, para una alfa fija (0.05) y una Desviación estándar (DE) también fija, que en este caso podría sería, por ejemplo, 3.

33. Observemos ahora en el siguiente gráfico que lo mismo pero visto desde otro punto de vista. Suponemos también una DE fija, una diferencia de medias mínima a detectar de 2. Vemos con color violeta marcada la zona de significación (siempre igual, con un área de 0.05), y con color verde el error de tipo II: la beta:

IMG_4545

34. Como puede apreciarse, al ir aumentando el tamaño de muestra se consigue separar más las curvas, las distribuciones según la Hipótesis nula y según la Hipótesis alternativa. Esto permite aumentar la potencia. Será más fiable la decisión porque no hay casi zona de solapamiento. Lo normal es que si es cierta la Hipótesis alternativa el valor del estadístico calculado a la muestra se situará inequívocamente en una zona alejada de la dominada por la Hipótesis nula.

35. En una diferencia de 0 coincide la alfa y la potencia: 0.05. Esto se explica porque las dos curvas se solapan: la curva bajo la Hipótesis nula y la curva bajo la Hipótesis alternativa, entonces el error de tipo I es 0.05 y el de tipo II 0.95 y, por lo tanto, la potencia es igual a 0.05, sea cual sea el tamaño de muestra. Esto puede apreciarse en el siguiente gráfico:

IMG_4546

36. Observemos que este último gráfico he dibujado dos colas, en cambio en el anterior he dibujado una única cola. Esto dependerá de si el test es unilateral o bilateral, pero en ambos casos se hubiera podido dibujar la zona de rechazo de la Hipótesis nula como uni o bilateral.

37. Existen fórmulas para casos específicos, como sucede con la siguiente fórmula para el Test de la t de Student de una muestra:

IMG_4551

38. Observemos que esta fórmula es interesante para entender todos los conceptos de los que estamos hablando en este tema. Hay en el numerador del cociente interior al paréntesis dos constantes: una que depende de la alfa y otra que depende de la beta. Dependen, pues, ambas constantes, del error que estemos dispuestos a cometer en el proceso de decisión. Cuanto menor sea alfa y beta más grandes serán esas constantes y, por lo tanto, mayor será el tamaño de muestra. Además, como puede verse perfectamente en esta fórmula, en un contraste de hipótesis la determinación del tamaño de muestra es una función de cuatro variables.

39. Existen aplicaciones diferentes muy bien diseñadas para poder elegir el tamaño muestral necesario para un estudio determinado. Pero es fundamental entender todo lo comentado en este Tema para poder usar esas aplicaciones y saber interpretar lo que obtenemos con ellas. Y es básico, además, porque en esta aplicaciones lo primero que te piden es elegir qué tipo de estudio (si comparación de proporciones, de medias, de Odds ratio, etc) y después qué DE tienes, la diferencia mínima a detectar, la potencia que quieres tener, etc.

40. Un enlace excelente para practica todo esto es el siguiente:

http://www.imim.es/ofertadeserveis/software-public/granmo/

41. Unos comentarios para el uso de este enlace. Cuando se comparan dos poblaciones se pide la relación entre los tamaños de muestra. Si es que conviene o es inevitable tener más muestra en una u otra población. Si no es así se añade un 1, que simboliza que puede ser el mismo tamaño muestra. También pide una previsión de los valores que pueden perderse al ir analizando. Esto está pensando para casos donde sea previsible perder un porcentaje de muestra más o menos previsible. Si no se prevé pérdida se pone un 0 en esta opción. Por otro lado el manejo es bastante sencillo. La alfa suele elegirse 0.05, la beta 0.2 ó menos (por lo tanto, potencia 0.8 ó más), la DE la que podamos saber o prever y la diferencia a detectar la mínima que uno está dispuesto a aceptar como relevante antes de empezar el trabajo.

42. Y ahora un breve comentario final a las situaciones de muestras de poblaciones finitas. Nos referimos a situaciones donde la población es pequeña y puede modificar el tamaño de muestra. Hasta ahora estábamos bajo el supuesto de poblaciones lo suficientemente grandes como para considerarlas infinitas.

43. Veamos una fórmula usual que nos ayudará a aclarar las cosas:

IMG_4988

44. Como puede verse es una modificación de una que hemos visto al iniciar este tema. La N es el tamaño de la población. Evidentemente si este valor es muy grande los dos cocientes donde participa se hacen tan pequeños que son insignificantes. Si, por el contrario, esta N es pequeña estos cocientes pueden modificar la n necesaria para tener un determinado tipo de precisión y deberemos tenerla en cuenta.

45. A continuación muestro una tabla donde se expresan los cálculos de estas n en condiciones diferentes (en función del radio r y del tamaño poblacional):

IMG_4987

About these ads

2 thoughts on “Tema 16: DETERMINACIÓN DEL TAMAÑO DE MUESTRA

  1. Pingback: Herramientas estadísticas en Medicina (Una hoja de ruta) | LA ESTADÍSTICA: UNA ORQUESTA HECHA INSTRUMENTO

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s