Archivo de la categoría: REFLEXIONES

Una introducción a la Estadística inferencial para estudiantes de ESO

La Estadística que se estudia en la enseñanza secundaria es la Estadística descriptiva, la Estadística que se limita a describir lo que se tiene: una muestra. De ella se hacen gráficos que la resumen (histogramas, diagramas de frecuencias, diagramas de cajas (Box-Plot), etc), se calculan valores que detectan ciertas características (la media, la mediana, la desviación estándar, el rango, etc).

Esta introducción a la Estadística inferencial es un primer paso desde esa Estadística, la Estadística descriptiva, a la Estadística inferencial, que es la que con mayor frecuencia se van a encontrar esos alumnos cuando lleguen a la universidad o la acaben aplicando, en la vida real, como profesionales de la Economía, de la Medicina, de la Psicología, etc.

La Estadística inferencial es la que va más allá de la muestra, la que intenta decir cosas no de la muestra, sino de toda la población de donde se ha tomado la muestra. Es la Estadística que, apoyándose en la información muestral, pretende decir cosas de la población global. Por eso es inferencial, porque inferir significa ir más allá de lo que vemos, usar lo que tenemos para hablar de lo que no tenemos.

Supongamos la siguiente situación: dos grupos de investigación estudian cada uno de ellos una determinada enfermedad. Quieren saber si es una enfermedad asociada al sexo; o sea, más frecuente en un sexo que en otro.

El grupo que estudia la enfermedad A ha tomado una muestra de pacientes de esa enfermedad y 2 son hombres y 8 son mujeres.

El grupo que estudia la enfermedad B ha tomado una muestra de pacientes de esa enfermedad y 450 son hombres y 550 son mujeres.

Tenemos, por lo tanto, la siguiente situación:

IMG_1470

La Estadística descriptiva de estas dos muestras es muy sencilla de hacer. De la enfermedad A en la muestra el 20% son hombres y el 80% son mujeres. De la enfermedad B en la muestra el 45% son hombres y el 55% son mujeres.

La Estadística descriptiva aquí acaba su recorrido, no pretende más que eso: describir lo que tenemos, la muestra.

La Estadística inferencial, de hecho, empieza donde ha acabado la Estadística descriptiva. A partir de esos porcentajes muestrales incuestionables se plantea: Esa diferencia, ¿es SIGNIFICATIVA? Y aquí aparece la gran palabra de la Estadística: la palabra SIGNIFICATIVO.

Si ahora aplicáramos técnica estadísticas inferenciales acabaríamos viendo que la información que tenemos de la enfermedad A no es significativa y, sin embargo, la que tenemos de la enfermedad B sí lo es. Lo que implica que podemos decir que es mayor la diferencia que hay entre el 45% y el 55% de la enfermedad B que entre el 20% y el 80% de la enfermedad A.

Quien quiera profundizar más en las razones puede consultar el artículo titulado Introducción al contraste de hipótesis. Allí podrá ver la razón fundamental de por qué la diferencia entre 2 y 8 no es significativa y sí lo es la diferencia entre 450 y 550. Evidentemente, como puede suponerse, aquí la clave es el tamaño de muestra. Si en Estadística inferencial queremos decir cosas de todos a partir de una parte (de una muestra) el tamaño de esa muestra para hacer este salto va a ser, evidentemente, fundamental.

Una metáfora puede ayudar a entender todo esto, una metáfora tomada del mundo del baloncesto:

Si un equipo de baloncesto está ganando de 10 puntos en la media parte del partido, ningún aficionado al baloncesto diría que este partido ya está ganado. Si miráramos en una base de datos cientos de miles de partidos de baloncesto y buscáramos todos los partidos en los que un equipo ganaba de 10 faltando todavía 20 minutos de partido por jugar seguro que veríamos que más del 5% de veces ese equipo ha acabado perdiendo. En términos estadísticos diríamos que se trata de un resultado estadísticamente NO SIGNIFICATIVO.

Este número, el 5%, es muy importante en Estadística. Es un valor frontera muy importante. Es el error máximo que se ha establecido para poder afirmar algo en ciencias.

Por el contrario, si faltando un minuto un equipo está ganando de 10 puntos. Ahora  si buscásemos en esa misma base de datos partidos que un equipo, faltando un minuto para acabar el partido, iba ganando de 10 puntos, seguramente veríamos que menos del 5% de veces ese equipo ha acabado perdiendo. Si fuera así, diríamos, en términos estadísticos, que este resultado es estadísticamente SIGNIFICATIVO.

Observemos, ahora, los siguientes datos tomados de un importante y reciente estudio publicado en la revista médica más importante, el New England Journal of Medicine:

 

Se trata de un estudio donde se ensaya la implantación de un páncreas artificial. Para ello se toman 54 niños en un campamento para diabéticos y en dos noches se les trata de dos formas distintas. Una noche mediante el tratamiento habitual mediante insulina y otra noche mediante el páncreas artificial. Se analiza si durante la noche han tenido o no una hipoglucemia, que es la situación más grave que puede padecer un diabético. Como puede verse, con el páncreas artificial 7 de los 54 han padecido una hipoglucemia. Sin embargo, cuando estaban siendo tratados con la insulina, el tratamiento control, se produjeron 22 hipoglucemias. Es evidente que es distinto 7 de 22. Matemáticamente distinto. Pero lo que hace falta es ver si es una diferencia significativa, si es una diferencia estadísticamente significativa.

El valor p=0.02 es el que nos dice si se trata de un resultado significativo. Ser un resultado significativo implica decir que es extrapolable a la población. Que esta diferencia se mantendría si en lugar de tener sólo 54 pacientes tuviéramos millones y millones de pacientes.

Pues esto, esta operación de detectar la significación es la finalidad más importante de la Estadística. Se podría decir perfectamente que la Estadística inferencial es la técnica científica que permite afirmar si un resultado es o no SIGNIFICATIVO. Poca cosa, tal vez, pero de una trascendencia extraordinaria. Fijaos en otro paralelismo: Un juez es una persona encargada de decir, en un juicio, si un acusado es o no inocente. Básicamente es esa su labor. Poca cosa si se quiere, pero se trata de una labor muy trascendental en la sociedad. Pues un estadístico es en la ciencia como un juez en la sociedad. Dicta la sentencia de si un resultado es o no significativo.

Valoración de políticos

A continuación pueden verse los resultados de valoración de políticos en España extraídos del Barómetro del CIS de julio de 2014.

Puede verse que el valor aquí de la desviación típica (Desviación estándar) no puede ser el que le podríamos dar si las valoraciones se ajustaran a la distribución normal. Es evidente que no se produce tal ajuste en estos datos. Observemos que la Desviación estándar es del mismo orden que la media. Es evidente que si aplicáramos la inferencia de sumar y restar una vez y dos veces la desviación estándar a la media (asignando el 68.5% y el 95% de los valores poblacionales) estaríamos haciendo un evidente error.

IMG_0156.PNG

IMG_0157.PNG

La Estadística, la Ciencia y la Filosofía

En un extraordinario texto de Thomas Mann, en el que analiza la obra del filósofo Shopenhauer, formula, con una belleza extraordinaria (bella por la metáfora usada y, especialmente, por el carácter sintético que representa), una visión de lo que ha sido la columna vertebral de la Ciencia y de la Filosofía.

Para Thomas Mann desde Platón hasta Kant y, poco después, Shopenhauer, la preocupación de la Ciencia y de la Filosofía ha sido delimitar con precisión el uso del artículo determinado y del artículo indeterminado.

Realmente es genial. Resumir la historia de la Ciencia y de la Filosofía como un diálogo entre el artículo determinado y el artículo intederminado es ciertamente genial.

El artículo determinado apunta a lo que vemos, se mueve en la esfera de las representaciones, en la esfera de lo visual, de lo sensible: “Una casa”, “una buena acción”, “un círculo”, “un cacto amoroso”, etc. El artículo indeterminado, por el contrario, nos trasporta a la idea, a lo que no vemos, a la unidad, a lo invisible: “La casa”, “la buena acción”, “el círculo”, “el amor”.

Siempre en la historia del conocimiento se ha dado esta dualidad: entre lo que vemos y lo que no vemos. Entre la diversidad de lo visible y la necesidad de la unidad formal que fundamenta, desde detrás, esa diversidad. Desde Tales de Mileto, en realidad, está presente esta dualidad. Cuando él se planteaba lo que había detrás de todas las cosas, lo que había detrás de la diversidad de formas de presentación de esas cosas, en realidad buscaba un artículo indeterminado que unificara la pluralidad de artículos determinados que visualizaba. El agua como explicación de todo lo que hay fue la solución para él. El agua es, para él, el artículo indeterminado que da unidad a la pluralidad de nuestra mirada hecha de artículos determinados.

Y la historia de la Ciencia y de la Filosofía es eso: la búsqueda de la unidad en la diversidad. Con Platón es clarísimo: Las ideas son esos elementos a modo de artículo indeterminados que explican, desde la cueva, que veamos sus sombras proyectadas en forma de pluralidad visualizada a modo de artículos determinados. Lo que vemos son “unas buenas acciones”, “unos círculos”, etc, que son sombras de “la bondad”, “del círculo”, etc.

Y todo esto, ¿qué tiene que ver con la Estadística? Pues mucho. Muchísimo.

La Estadística puede verse como un diálogo entre lo determinado, lo que vemos, las muestras, la pluralidad de lo visible, y lo indeterminado, lo que no vemos, las poblaciones, los totales inaccesibles y que queremos delimitar, dibujar. La Estadística es un ir de lo determinado a lo indeterminado. La Estadística es un repertorio de técnicas para alzarse desde lo diverso y parcial a lo unitario y desconocido. La Estadística es un mecanismo que ayuda a hacer ese tránsito que ha interesado e interesa desde hace dos milenios y medio a la humanidad.

Seguramente la Estadística es una de las más fundamentales herramientas que tenemos en la Ciencia y la Filosofía para hacer ese transito desde lo determinado a lo indeterminado que es el camino que ha hecho la Ciencia y la Filosofía dede que a partir de Tales de Mileto comenzó el camino del mito al logos.

Vale la pena una disciplina tan trascendental como la Estadística, sin lugar a dudas.

La Odds ratio en lingüística

Como puede verse en los siguientes artículos, en Lingüística se usa la Odds ratio. Y estoy convencido que se usaría más si se conociera más.

20140110-075428.jpg

20140110-075442.jpg

Captura de pantalla 2015-10-30 a las 8.25.50

Captura de pantalla 2015-10-30 a las 8.29.26Captura de pantalla 2015-10-30 a las 8.30.15

Para una explicación de la Odds ratio y sus posibilidades ver el Terma 9 y los artículos Factores de riesgo de accidente de automóvilLa Odds ratio, el riesgo relativo y sus intervalos de confianza y La Odds ratio como medida del riesgo o la protección ante la violencia de género.

La Estadística como ciencia de lo SIGNIFICATIVO (Una introducción a la Estadística para estudiantes de ESO)

Cada ciencia suele definirse delimitando su ámbito de estudio. Así, por ejemplo, decimos que  la Biología es la ciencia de la vida, la Lingüística es la ciencia de las lenguas, la Medicina es la ciencia que estudia y trata las enfermedades humanas, la Psicología es la ciencia del comportamiento humano, etc.

Se han dado diferentes definiciones de Estadística. Una que puede ser apropiada y que está expresada en estos términos de “la ciencia de …” es la siguiente: la Estadística es la ciencia de lo SIGNIFICATIVO.

Bueno, como mínimo la definición sorprende, ¿no? No parece, al menos a primera vista, que lo SIGNIFICATIVO merezca tanta atención. Pues no es así. Merece atención y mucha. Se ha montado toda una ciencia en torno a esa noción debido a la importancia que a lo largo de los últimos doscientos años se le ha ido dando. Y ahí tenemos a la Estadística.

“SIGNIFICATIVO” no es, por cierto, una palabra extraña en nuestro lenguaje cotidiano. Realmente no es que sea de las palabras más habituales de nuestro día a día, pero es una palabra que todos seríamos capaces de asignarle un significado. Seguramente sin una gran precisión, es cierto, pero todos seríamos capaces de explicar qué queremos decir cuando decimos que algo es SIGNIFICATIVO.

En Estadística, sin embargo, es el objeto fundamental. Prácticamente todo en Estadística está canalizado para poder poner la etiqueta de SIGNIFICATIVO o de NO SIGNIFICATIVO a lo que vemos en unos resultados de un estudio determinado.

Por lo tanto, delimitar lo que entendemos por SIGNIFICATIVO en Estadística es crucial. Y delimitar, también, cuándo unos datos nos permiten decir que lo que vemos es o no SIGNIFICATIVO, es también nuclear en Estadística.

Voy a tratar, a continuación, de explicar cuál es el significado de la noción SIGNIFICATIVO en el lenguaje de la Estadística. Veámoslo, primero, mediante metáforas, que es una excelente forma de comunicar, especialmente en Ciencias.

Supongamos un profesor que después de un largo curso convoca a sus alumnos para el examen final y éste consiste en una única pregunta muy concreta, que se responde mediante una única línea. Ante un examen así un buen alumno, un alumno que ha estudiado mucho y que tiene muchos conocimientos, puede sacar perfectamente un 0. Ha tenido mala suerte. Le han preguntado justo un detalle concreto que no consigue recordar. Y, por el contrario, un pésimo alumno, un alumno que no ha estudiado nada, puede sacar un 10. Ha tenido la suerte de que le han preguntado justo algo que era de lo poco que sabía. Esto puede pasar perfectamente. Además, si, ante una situación como esta, repitiésemos el examen, y lo hiciésemos mediante un examen del mismo tipo, mediante una pregunta muy concreta que se responde en una simple línea, pero, eso sí, ahora una pregunta distinta a la anterior, podría pasar perfectamente que el que antes ha sacado un 10 ahora saque un 0 y el que antes ha sacado un 0 ahora saque un 10.

En términos estadísticos diríamos que exámenes de este tipo, exámenes tan concretos, no proporcionan notas SIGNIFICATIVAS de los alumnos examinados. Son notas poco fiables, que están sometidas demasiado al azar de lo que se pregunta. Son notas que reflejan poco el nivel de conocimientos del alumno.

Sin embargo, supongamos ahora que el examen es de 50 preguntas cortas que cubren todo el temario de la asignatura. La nota que obtiene un alumno muy poco cambiaría si repitiéramos el examen con otras 50 preguntas. Ahora sí podemos hablar de una nota SIGNIFICATIVA, una nota que volvería a ser del mismo orden si volviéramos a hacer un examen del mismo tipo aunque distinto.

Otro ejemplo: Si un equipo de baloncesto está ganando de 10 puntos en la media parte del partido, ningún aficionado al baloncesto diría que este partido ya está ganado. Si miráramos en una base de datos cientos de miles de partidos de baloncesto y buscáramos todos los partidos en los que un equipo ganaba de 10 faltando todavía 20 minutos de partido por jugar seguro que veríamos que más del 5% de veces ese equipo ha acabado perdiendo. En términos estadísticos diríamos que se trata de un resultado estadísticamente NO SIGNIFICATIVO.

Este número, el 5%, es muy importante en Estadística. Es un valor frontera muy importante, como veremos más tarde.

Por el contrario, si faltando un minuto un equipo está ganando de 10 puntos. Ahora  si buscásemos en esa misma base de datos partidos que un equipo, faltando un minuto para acabar el partido, iba ganando de 10 puntos, seguramente veríamos que menos del 5% de veces ese equipo ha acabado perdiendo. Si fuera así, diríamos, en términos estadísticos, que este resultado es estadísticamente SIGNIFICATIVO.

Una cuestión muy importante: En ciencia siempre estudiamos muestras pero la finalidad es poblacional. Queremos hablar de todos a partir del estudio de una parte, de una muestra. En términos de baloncesto: Pronosticamos el final del partido, pero, evidentemente, durante el partido. Una vez acabado el partido sólo es posible describir lo que ha sucedido pero no hay pronósticos posibles.

La significación es una palabra nuclear en la Ciencia. La ciencia persigue dar resultados SIGNIFICATIVOS. Persigue decir cosas con fiabilidad, con pocas posibilidades de equivocarse. Los instrumentos que aporta la Estadística para delimitar resultados SIGNIFICATIVOS de  resultados NO SIGNIFICATIVOS es un instrumento esencial en la Ciencia. Veamos algunos ejemplos donde está presente la noción de estadísticamente SIGNIFICATIVO. Los tres ejemplos están tomados de la revista más prestigiosa en Medicina, el New England Journal of Medicine.

El primer caso consiste en un estudio publicado recientemente donde se compara la eficacia de un páncreas artificial automatizado, que controla la glucemia y suministra insulina en continuo, respecto a un sistema de control estándar en pacientes con Diabetes tipo 1. Se usan los dos sistemas de control en un mismo grupo de pacientes con este tipo de Diabetes. En dos noches distintas se ensayan cada uno de estos métodos en todos los pacientes. La variable respuesta es si en algún momento han sufrido una hipoglucemia durante la noche. La hipoglucemia es la situación de máxima gravedad en la que puede situarse un diabético.

Los datos que se obtienen son los siguientes:

IMG_0133

Observemos que con el páncreas artificial 7 veces se han producido una hipoglucemia entre los 54 niños con diabetes participantes en el estudio. Con el control (el método habitual de control nocturno de la diabetes) se han producido 22 casos de hipoglucemia entre 54 niños. Evidentemente que 7 es menos que 22. El problema es si esta diferencia es, o no, estadísticamente SIGNIFICATIVA. Y esto nos lo debe proporcionar una técnica estadística. En este caso concreto nos lo resolvería una técnica estadística llamada Test de McNemar. La técnica nos da un valor que es este valor que vemos: p=0.003, que es el valor que marca que estamos ante un resultado estadísticamente SIGNIFICATIVO.

Esta p, el denominado p-valor, es un valor que va de 0 a 1 y si es un valor menor que 0.05 indica que la diferencia que vemos es SIGNIFICATIVA, indica que la diferencia es fiable. Que no es fruto del azar. Observemos que 0.05 sobre 1 es como 5 sobre 100 (un 5%), que es la frontera que antes he citado cuando hablaba del partido de baloncesto. Este 5% ó 0.05 por 1 es una frontera muy importante en Estadística y en Ciencias.

Otro ejemplo: A principios de este año un artículo creó un verdadero impacto entre los especialistas en enfermedades infecciosas. En un estudio con personas infectadas por Clostridium difficile conseguían mejores resultados, un mayor porcentaje de curaciones sin recaídas, si el tratamiento se hacía con infusiones, por sonda orogástrica, de heces de pacientes con infección crónica de esta especie bacteriana, que mediante un tratamiento con antibiótico. Veamos los resultados:

IMG_4962

Observemos los datos de los resultados de los pacientes tratados con la infusión comparados con los resultados obtenidos con el tratamiento con el antibiótico más eficaz usado en estos casos, que es la vancomicina. Como puede observarse los niveles de curación sin recaídas son superiores en los tratamiento con infusiones con heces que en los tratamientos antibióticos. Las cuatro comparaciones posibles entre los tratamientos con infusión y los tratamientos con la vancomicina son SIGNIFICATIVAS (p<0.05).

Otro ejemplo: La fibromialgia es una enfermedad muy frecuente en nuestra sociedad. Se han ensayado muchos métodos para intentar buscar remedio a esta dolencia. Recientemente se ha publicado un original estudio que demuestra que el Tai-chi es un método que consigue resultados positivos a la hora de abordar esta enfermedad. Veamos el cuadro siguiente:

IMG_0136

Como puede observarse los dos grupos de pacientes estudiados, uno siguiendo un método control mediante fisioterapia y el otro siguiendo unas sesiones de tai-chi, parten de una mismo nivel de gravedad y podemos ver en el gráfico, perfectamente, cuál es la evolución a lo largo de las semanas. Vemos cómo el grupo control se mantiene dentro de un nivel estable y, sin embargo, los pacientes que siguen esas sesiones de tai-chi consiguen reducir significativamente los niveles de dolor que tienen. Aquí el p-valor también es inferior a 0.05. La gráfica no nos lo da, pero nos da algo equivalente. Nos da intervalos de confianza del 95%. Observemos que los intervalos de confianza de los dos grupos en las primeras semanas se solapan (lo que indica que la diferencia no es SIGNIFICATIVA) y, sin embargo, a partir de la semana 8 esos intervalos ya no se solapan. Lo que indica que esa diferencia ya es SIGNIFICATIVA, es fiable.

Al final toda esta diversidad de situaciones se analizan mediante mecanismos diferentes (Técnicas estadísticas distintas) pero siempre bajo un mismo principio. El siguiente: ¿Lo que se ve es algo que es muy probable verlo en el caso que los grupos comparados fueran realmente iguales o, por el contrario, sería muy poco probable verlo en ese caso? Las técnicas estadísticas siempre funcionan haciendo una comparación entre lo que ven en la muestra y lo que deberían ver si los grupos comparados fueran iguales.

Si los dos mecanismos de control de la diabetes fueran iguales, si el tratamiento con infusiones de heces y el tratamiento con antibióticos dieran resultados idénticos o si hacer tai-chi o hacer fisioterapia estándar dieran resultados idénticos en pacientes con fibromialgia, esperaríamos ver en una muestra unos ciertos valores. Estos valores esperados, en el supuesto de que fuera cierto el caso hipotético de igualdad entre lo comparado, son los que las técnicas estadísticas comparan con lo que realmente ven en las muestras de esos estudios. En función de esta comparación, en función de la distancia entre lo esperado y lo observado, acaban dictaminando si eso que vemos es coherente o no con la igualdad presupuesta de esos grupos comparados.

Para ver cómo opera una técnica estadística para comparar lo esperado, bajo el supuesto de que los grupos comparados son iguales, con lo observado, vamos a centrarnos en dos de esos tres casos y vamos a ver, en ellos, cómo opera la técnica estadística.

Recordemos que el primer caso analizado era el estudio del páncreas artificial. De los 54 pacientes 7 tenían problemas con el páncreas artificial y con el control habitual el número de problemas ascendía a 22.

7 de 54 y 22 de 54 son distintos, evidentemente. Son matemáticamente distintos. Pero, esta diferencia, ¿es estadísticamente SIGNIFICATIVA? Este es el problema. El análisis estadístico es quien lo dirá, es el que determinará si esa diferencia entre 7 y 22 es una diferencia estadísticamente SIGNIFICATIVA.

Para empezar el análisis vamos a suponer, vamos a partir de la suposición, de que los dos métodos, los dos tratamientos, tienen la misma eficacia. Por lo tanto, elaboraremos un mundo ficticio donde los dos métodos que estamos comparando fueran, en realidad, idénticos.

Si los dos métodos fueran idénticos, que dieran el mismo número de problemas, el mismo número de situaciones de hipoglucemia, esperaríamos una probabilidad de hipoglucemia, durante una noche, del 26,8%, porque tenemos, en un método, un 12,9% de hipoglucemias y, en el otro, un 40,7%. El 26,8% es el promedio de estos dos porcentajes. Por lo tanto, este mundo ficticio que construimos lo hacemos adoptando un valor que, en global, refleja la realidad. En lo que hemos visto, en el estudio, en total, se produce un 26,8% de hipoglucemias (si juntamos las de un método y las del otro).

Vamos a hacer una simulación, vamos a construir experimentos posibles. Esto actualmente no es nada extraño. Vivimos rodeados de simulación: de una carrera de motos, de un partido de fútbol, etc. Esto que nos proponemos hacer, ahora, es posible gracias a la informática. Generaremos experimentos posibles pero bajo el supuesto de que los dos métodos tienen el mismo porcentaje de problemas, bajo el supuesto de esta ficción que hemos creado. Generaremos 100.000 experimentos equivalentes al del estudio, pero bajo el supuesto de que los dos métodos son igual de eficaces; o sea, con una probabilidad de hipoglucemia, en ambos métodos, del 26,8%.

Haciendo esto estaremos viendo qué variaciones posibles veríamos en experimentos donde fuera cierto que los dos métodos son iguales. De esta forma podremos situar nuestro experimento real, que sólo tenemos uno, dentro de este inmenso conjunto de experimentos simulados bajo el supuesto de igualdad. Será ésta la forma de evaluar la posición relativa de lo que vemos en el conjunto de lo que deberíamos ver si fuera cierto que los dos métodos son iguales.

Si hacemos estos 100.000 experimentos obtendremos parejas de valores como, por ejemplo: (15, 17), (14, 15), (17, 13), (16, 16), etc, que serán valores posibles a ver de hipoglucemias entre 54 pacientes en cada uno de los dos métodos, pero, siempre, bajo el supuesto que la probabilidad de hipoglucemia es la misma en cada uno de los dos sistemas: 26,8%.

En el estudio real la pareja de valores que hemos obtenido era (7, 22). Una diferencia de 15. Vamos a restar nosotros las 100.000 parejas de valores del número de hipoglucemias simuladas con un tratamiento y con el otro. Los valores de esas 100.000 resta que obtenemos son los presentados en el siguiente gráfico:

IMG_7199

Como puede verse lo habitual, lo más frecuente, es que la diferencia sea pequeña. Diferencias de 0, 1, -1, 2, -2, 3, -3, 4 y -4 son las más frecuentes. Conforme buscamos restas mayores vamos viendo que la frecuencia va decreciendo. Pero lo trascendente aquí es ver que la diferencia de 15, que es justo la diferencia entre 22 y 7 que nosotros vemos en el estudio, es extraordinariamente improbable. Aparece en poquísimas ocasiones. Esto es lo que hace dudar de que lo que vemos sea algo procedente de dos métodos equivalentes. Ante esta poca probabilidad es razonable pensar que la diferencia observada obedezca a una diferencia real. Que si lo lleváramos a millones y millones de personas, no sólo a 54 personas, acabaríamos viendo un resultado equivalente al que estamos viendo en este estudio.

Esto es como cuando decimos que un partido de baloncesto ya está ganado cuando, faltando 1 minuto, nuestro equipo gana de 10. La probabilidad de perder es lo suficientemente baja como para pensar que este partido ya está ganado. Por eso hablamos de un resultado SIGNIFICATIVO, porque es muy poco probable ver lo que estamos viendo en el caso de que los grupos comparados realmente se comportaran poblacionalmente de forma equivalente y, muestralmente, viéramos lo que estamos viendo.

Veamos el segundo caso, el del Clostridium difficile. Cojamos de las cuatro situaciones experimentadas los datos de las dos situaciones descritas en el centro de la tabla: el caso de tratamiento con infusión que tiene un 93,8% de éxito y el de la vancomicina, que tiene un 30,8% de éxito. Se trata ahora de simular experimentos de los que supusiésemos que la probabilidad de éxito es la misma entre entre ellos. Para ello podemos pensar en un valor promedio de los dos vistos: un promedio entre 93,8 y 30,8; o sea, 62,3%.

Podemos ahora simular 100.000 experimentos equivalentes pero bajo el supuesto que sean iguales las probabilidades de éxito mediante los dos procedimientos. Generar, por lo tanto, parejas de valores basados en muestras de tamaño 16 y 13 cada experimento con una probabilidad de éxito del 62,3%. Así tendríamos parejas de valores como: (10, 7), (11, 6), (9, 7), etc. Ahora las 100.000 parejas las transformamos a porcentajes de éxito de porcentaje, relativo siempre a los 16 y 13 de tamaño muestral de cada uno de los dos experimentos: el primero siempre respecto a 16 y el segundo respecto a 13. Así tendríamos, en los casos ejemplificados antes: (62.5, 53.8), (68.7, 46.1), (56.2, 53.8), etc. Si ahora hacemos las 100.000 restas de estas parejas de porcentajes tendremos el siguiente histograma:

IMG_7213

Como puede apreciarse, bajo el supuesto de que los dos métodos tengan la misma probabilidad de éxito los valores de las restas obtenidas al azar se sitúan mayoritariamente entre -40 y 40. Luego, los valores observados: (93.8, 30.8) que tienen una resta de 63 se trata de un valor muy extraño, muy poco probable verlo. Por lo tanto, debemos decantarnos por pensar que realmente no deben ser iguales SIGNIFICATIVAMENTE las probabilidades de éxito de estos dos tratamientos, porque de serlo deberíamos, en un experimento, ver mayor proximidad.

De nuevo esto es como cuando en un partido de baloncesto, en el que falta 1 minuto para acabar y nuestro equipo gana de 10 puntos, decimos que el partido está ganado. La probabilidad de perder es lo suficientemente baja como para pensar que el partido está ganado.

Por eso hablamos de que estamos ante un resultado SIGNIFICATIVO, porque es muy poco probable ver lo que estamos viendo y que sea cierto que los dos tratamientos sean iguales.

Puede parecer sorprendente pero lo cierto es que la Estadística y todas las Ciencias se basan, se apoyan, en análisis estadísticos como estos que acabamos de ver. La Estadística elabora y aplica métodos para diagnosticar lo SIGNIFICATIVO y todos ellos tienen como principio básico estas ideas de hemos intentado explicar aquí.

La Ciencia es un Estado de Estadística

Cuando hay un problema social y político en el que alguien abusa de su nombre o de su cargo y consideramos que está actuando fuera de la ley reclamamos airadamente el Estado de Derecho. “Hemos de reivindicar el Estado de Derecho”, “Se están cargando el Estado de Derecho”, oímos y decimos, frecuentemente, en estas situaciones.

Un Estado de Derecho es un Estado donde la ley está por encima de todos. DE TODOS. O sea, significa que en ese Estado el rey, o el presidente o el primer ministro, y a partir de ellos, todos, estamos bajo la ley, estamos sometidos a las leyes. Las leyes están por encima, son los faros que guían las relaciones sociales y políticas.

Pues, la Ciencia es un Estado de Estadística. La Estadística está por encima de todo. Las decisiones en Ciencia no se toman porque un determinado científico de mucho prestigio lo diga. Las decisiones se toman porque una técnica estadística adecuada al caso, porque un contraste de hipótesis, en definitiva, lo dice.

Es muy importante entender el paralelismo. Si lo entendemos veremos que estamos ante una disciplina realmente trascendente, ante un disciplina nuclear en el ámbito del conocimiento. Ante una disciplina que vale la pena conocer y dominar.

Las tres revoluciones en la historia de la Estadística

En la Historia de la Estadística ha habido tres grandes revoluciones:

  1. Estadística paramétrica
  2. Estadística no paramétrica
  3. Remuestreo

 Veamos con un poco de detalle lo que supone cada una de ellas:

  1. La primera gran revolución es la creación de la llamada Estadística paramétrica. Pearson, Fisher, Student y otros estadísticos emprendieron la labor de crear procedimientos de decisión estadística: estimación puntual, estimación por intervalos y contrastes de hipótesis, basados en unas suposiciones prefijadas sobre la distribución de las variables analizadas, especialmente la suposición de normalidad. A partir de esta suposición construían una serie de procedimientos que permitían tomar decisiones.
  2. La segunda gran revolución la introducen unos estadísticos que perciben que las suposiciones de la Estadística paramétrica son muy exigentes y que, en muchas ocasiones, no se cumplen. En este caso usar un método paramétrico es arriesgado porque estás tomando decisiones en base a unos criterios que no son ciertos. Percibieron que habían de construir mecanismos de decisión estadísticos que no dependieran de suposiciones tan exigentes. Y construyeron una estadística cuyos estadísticos, cuyos cálculos a una muestra para tomar decisiones, su distribución dependiera de ellos mismos, de su estructura, no de la distribución de la población.
  3. La tercera gran revolución viene de la mano de la simulación, del remuestreo, de las posibilidades ofrecidas por la informática y la programación. Estos procedimientos han permitido encontrar la distribución de un estadístico de test cualquiera puesto que la simulan. Además lo pueden hacer bajo el supuesto de ser cierta la Hipótesis nula. Y lo hacen a través de una genialidad: catapultando la muestra a población. Haciendo de la muestra la población. Y generando, así, desde esta población artificial muchas muestras posibles bajo las condiciones que se quiera. Así podemos encontrar cuál es la distribución simulada de un estadístico y construir intervalos de confianza, realizar contrastes de hipótesis, etc.