Archivos Mensuales: abril 2016

Solución Situación 96

1b: Si se hace el cálculo siguiente la fórmula vista en el Tema 3 para construir un intervalo de confianza para una variable dicotómica vemos que el resultado correcto es el b.

2c: Como la DE es 10, la media más tres veces 10 y la media menos tres veces 10 nos da este intervalo.

3d: Es el único caso donde la pendiente y la correlación siguen la misma suerte.

4c: Entre el primer y el tercer cuartil tenemos un 50% de la muestra y, aproximadamente, el 50% de los valores poblacionales.

5c: Si el intervalo de confianza del 95% no incluye al cero se trata de una pendiente significativa y, por lo tanto, la correlación será necesariamente significativa.

6d: La información que nos aportan los perceptiles no depende de la normalidad o no normalidad de la muestra. Es siempre cierto.

7a: Como 3.84 es el valor umbral más pequeño de cualquier tabla de contingencias si en cualquiera de esas tablas el valor de la ji-cuadrado es menor que ese valor podemos asegurar que el p-valor será mayor que 0.05. En cambio, en general no podemos decir que si el p-valor en una tabla de contingencias es mayor de 0.05 el valor de la ji-cuadrado es mayor que 3.84. Por ejemplo, podríamos tener en una tabla, por ejemplo, 3×2 un valor de la ji-cuadrado de 5 que nos daría un p-valor mayor que 0.05 porque 5 es mayor que el valor umbral para esas tablas (5.99) y, sin embargo, no es un valor menor que 3.84.

8a: El valor umbral en una tabla 3×2 es 5.99. Como 10.35 es mayor que 5.99 se trata de una relación significativa.

9c: En una tabla 6×6 el valor de umbral es 37.65. Como 37 es menor que ese valor umbral no se trata de una relación estadísticamente significativa.

10d: En una tabla 4×3 el valor de referencia es 12.59. Como 5.84 es menor que ese valor umbral el p-valor será mayor que 0.05.

Situación 96: Examen (Temas 1-9)

1.Si en un estudio sobre la estimación poblacional de posibles consumidores de un nuevo producto tenemos una muestra de tamaño 10000 de los cuales sólo100 serían consumidores de ese producto , un intervalo de confianza del 95% del porcentaje poblacional será

a) (0, 2)

b) (0.8, 1.2)

c) (1, 3)

d) (0.5, 1.5)

2.Tenemos una muestra de tamaño 100 de una variable con media muestral igual a 100, desviación estándar igual a 10, que se ajusta bien a una distribución normal. ¿Cuál de las siguientes afirmaciones es cierta?

a) IC 95% de valores individuales: (90, 110)

b) IC 95% de la media: (99, 101)

c) IC 99.5% de valores individuales: (70, 130)

d) IC 68.5% de la media: (95, 105)

3. De las siguientes afirmaciones cuál es cierta:

a) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.3, 0.7) con uno de la correlación de (-0.6, -0.2)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.8, 5.7) con uno de la correlación de (-0.5, -0.2)

c) En una Regresión es compatible una pendiente con un p-valor de 0.001 con una de la correlación  con un intervalo de confianza del 95% (-0.3, 0.5)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.7, -0.7) con uno de la correlación de (-0.4, -0.1)

4. Nos dicen que la cantidad de ventas de distintas tiendas de nuestra cadena se puede representar mediante la forma  14 (15- 55). Podemos afirmar:

a) Que podemos representar a esa población de la siguiente forma: 14±40.

b) Ventas por debajo de 14 tenemos en el 25% de tiendas.

c) Entre 15 y 55 tenemos el nivel de ventas de un 50% de tiendas.

d) La media muestral es 14 .

5. En una Regresión lineal simple es cierto:

a) Si la R2 es inferior al 95% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

b) Un coeficiente de determinación del 70% es compatible tanto con una correlación r=-0.7 como con una correlación r=0.7

c) Si la pendiente tiene un intervalo de confianza del 95% de (-5.3, -1.1) la correlación es significativa.

d) Una pendiente negativa y significativa no puede tener una R2 menor del 50%.

6.¿Cuál de las siguientes afirmaciones es cierta?

a) Un intervalo de confianza de la media del 95% es siempre más amplio que el intervalo de confianza del 95 de los valores individuales de la variable cuantitativa estudiada.

b) En una muestra con Asimetría estandarizada y una Curtosis estandarizada que caen fuera de intervalo -2 y 2 por debajo del primer cuartil no hay el 25% de la muestra.

c) Una correlación r=-0.75 (p>0.05) tendrá una pendiente de regresión negativa y significativa.

d) Aunque no haya normalidad en una muestra por debajo del primer cuartil hay los mismos valores que por encima del tercer cuartil.

7. Si se realiza una ji-cuadrado para ver de analizar la relación entre dos variables cualitativas es cierto:

a) Si el valor del cálculo de la ji-cuadrado es menor que 3.84 el p-valor será mayor de 0.05.

b) Si el p-valor es mayor que 0.05 el valor de la ji-cuadrado será menor que 3.84.

c) Si el p-valor es menor que 0.05 el valor del cálculo de la ji-cuadrado es mayor que 5.99.

d) Si el valor del cálculo de la ji-cuadrado es mayor que 12.59 el p-valor será menor que 0.05.

8. Si en una tabla de contingencias 3×2 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 10.35 podemos afirmar:

a) Que estamos ante una relación significativa porque el valor 10.35 es superior al valor de referencia máximo aceptable para mantener la hipótesis nula en las tablas 3×2.

b) Que es imposible saber la significación porque no podemos saber si el p-valor es mayor o menor que 0.05.

c). No es una relación significativa porque el valor 10.35 nos proporcionará un p-valor superior a 0.05.

d) No sabemos si la relación es significativa pero sí sabemos que la correlación de Pearson será positiva y significativa.

9. Si en una tabla de contingencias 6×6 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 37 podemos afirmar:

a) Que estamos ante una relación estadísticamente significativa porque el p-valor será menor que 0.05.

b) Que es imposible saber la significación porque no podemos saber si el p-valor es mayor o menor que 0.05.

c). No es una relación significativa porque el valor 37 nos proporcionará un p-valor superior a 0.05.

d) Será significativa porque 37 es mayor que 36.

10. En la tabla

Captura de pantalla 2016-03-16 a las 11.25.16

El valor de la ji-cuadrado de esta tabla de contingencias es 5.84

a) Como 5.84 es menor que 21.02 el p-valor es mayor que 0.05

b) Como 5.84 es menor que 21.02 el p-valor es menor que 0.05

c) Como 5.84 es menor que 5.99 el p-valor será mayor que 0.05

d) Como 5.84 es menor que 12.59 el p-valor será mayor que 0.05

Solución Situación 94

1b: Si tachamos el valor 9 nos queda a la izquierda un cuarto de la muestra y a su derecha tres cuartos de la muestra.

2b: Aplicando la fórmula del cálculo de los intervalos de confianza de una proporción vistos en el tema 3 podemos comprobar que el intervalo de confianza del 95% es (45, 55).

3b: El Error estándar es 10/raíz(400)=0.5. Por lo tanto, la respuesta correcta es la b.

4c: Es el único caso donde coincide la significación de la pendiente y la de la correlación. En los otros casos ambos elementos no siguen la misma suerte, cosa que es contradictoria.

5d: Entre la mediana (percentil 50) y el tercer cuartil (percentil 75) siempre tenemos una estimación de un 25% de valores poblacionales.

6c: Se trata de una pendiente significativa. Por lo tanto, la correlación debe serlo, también.

7d: En cualquier muestra, sea normal o no, por debajo del primer cuartil hay los mismos valores que por encima del tercer cuartil.

8a: Esta afirmación es cierta para cualquier tabla de contingencias porque la que es menor (una tabla 2×2) tiene el valor de referencia 3.84 y todas las demás tienen un valor de referencia superior. La respuesta b se parece pero no es lo mismo. Podemos tener en una tabla, por ejemplo, 3×2, un valor entre 3.84 y 5.99 que nos daría un p-valor superior a 0.05 y no cumpliría el ser menor de 3.84.

9c: Porque según el intervalo de confianza hay significación y según el p-valor no lo hay.

10b: El valor de referencia en una tabla 4×3 es 12.59. Por lo tanto, al ser 5.84 menor que ese valor el p-valor será mayor que 0.05.

Situación 94: Examen (Temas 1-9)

1.El primer cuartil de la muestra (8, 9, 10, 22, 35) es:

a) 9.5

b) 9

c) 8.5

d) No tiene primer cuartil esta muestra

2. Si en un estudio sobre la prevalencia poblacional de una enfermedad tenemos una muestra de tamaño 400 de los cuales 200 tienen esa enfermedad, un intervalo de confianza del 95% del porcentaje poblacional será

a) (40, 60)

b) (45, 55)

c) (30, 70)

d) (49, 51)

3. Tenemos una muestra de tamaño 400 de una variable con media muestral igual a 100, desviación estándar igual a 10, que se ajusta bien a una distribución normal. ¿Cuál de las siguientes afirmaciones es cierta?

a) IC 95% de valores individuales: (90, 110)

b) IC 95% de la media: (99, 101)

c) IC 99.5% de valores individuales: (80, 120)

d) IC 68.5% de la media: (90, 110)

4. De las siguientes afirmaciones cuál es cierta:

a) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.3, 0.7) con uno de la correlación de (-0.6, -0.2)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.8, 5.7) con uno de la correlación de (-0.1, 0.7)

c) En una Regresión es compatible una pendiente con un p-valor de 0.85 con una correlación  con un intervalo de confianza del 95% (-0.3, 0.5)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.7, -0.7) con uno de la correlación de (-0.4, 0.1)

5. Nos dicen que la concentración de dopamina en pacientes diagnosticados de Parkinson se puede resumir de la siguiente forma  20 (15- 25), pero que, no obstante, hay suficiente ajuste a la distribución normal. Podemos afirmar:

a) Que podemos representar a esa población de la siguiente forma: 20±5.

b) Ya no es cierto que por debajo de 15 hay el 25% de la muestra.

c) Por encima de 25 tenemos, aproximadamente, el 50% de la población de los pacientes de Parkinson.

d) Entre 20 y 25 tenemos, aproximadamente, un 25% de valores entre los enfermos con Parkinson.

6. En una Regresión lineal simple es cierto:

a) Si la R2 es inferior al 95% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

b) Un coeficiente de determinación del 70% es compatible tanto con una correlación r=-0.7 como con una correlación r=0.7

c) Si la pendiente tiene un intervalo de confianza del 95% de (-5.3, -1.1) la correlación es significativa.

d) Una pendiente negativa y significativa no puede tener una R2 menor del 50%.

7. ¿Cuál de las siguientes afirmaciones es cierta?

a) Un intervalo de confianza de la media del 95% es siempre más amplio que el intervalo de confianza del 95% de los valores individuales de la variable cuantitativa estudiada.

b) En una muestra con Asimetría estandarizada y una Curtosis estandarizada que caen fuera de intervalo -2 y 2 por debajo del primer cuartil no hay el 25% de la muestra.

c) Una correlación r=-0.75 (p>0.05) tendrá una pendiente de regresión negativa y significativa.

d) Aunque no haya normalidad en una muestra por debajo del primer cuartil hay los mismos valores que por encima del tercer cuartil.

8. Si se realiza una ji-cuadrado para ver de analizar la relación entre dos variables cualitativas es cierto:

a) Si el valor del cálculo de la ji-cuadrado es menor que 3.84 el p-valor será mayor que 0.05.

b) Si el p-valor es mayor que 0.05 el valor del cálculo de la ji-cuadrado es menor que 3.84.

c) Si el p-valor es menor que 0.05 el valor del cálculo de la ji-cuadrado es menor que 3.84.

d) Si el valor del cálculo de la ji-cuadrado es mayor que 5.99 el p-valor es menor que 0.05.

9. ¿En cuál de las siguientes Odds ratio la información es incorrecta?

a) OR=0.3; IC 95% (0.01, 0.62); p=0.001

b) OR=2.5; IC 95% (2.1, 3.2); p=0.0001

c) OR=2.1; IC 95% (1.16, 5.45); p=0.54

d) OR=0.6; IC 95% (0.12, 1.83); p=0.34

10.En la tabla:

Captura de pantalla 2016-03-16 a las 11.25.16

El valor de la ji-cuadrado de esta tabla de contingencias es 5.84

a) Como 5.84 es mayor que cero el p-valor será menor que 0.05

b) Como 5.84 es menor que 12.59 el p-valor será mayor que 0.05

c) Como 5.84 es mayor que 3.84 el p-valor será menor que 0.05

d) Como 5.84 es menor que 21.02 el p-valor será mayor que 0.05

Situación 91: Examen (Temas 4-12)

1) Hemos estudiado dos variables cualitativas mediante un test de la ji-cuadrado y posteriormente hemos calculado la V de Cramer resultando ser 0.9, ¿qué afirmación es cierta?

a) El p-valor de la ji-cuadrado es 0.9 también.

b) La tabla de contingencias con la que se ha trabajado podría ser una tabla 4×3.

c) La relación entre estas dos variables es positiva.

d) Necesitamos saber si el p-valor del test de la ji-cuadrado es mayor que 0.05 para poder darle valor a esta aparente fuerte asociación.

2) Si dos variables tienen una correlación de Pearson r=-0.8 (p<0.05), ¿cuál de los siguientes no es un modelo de regresión simple compatible con esta información?

a) y=-7x+12

b) y=-5x

c) y=-(3-x)

d) y=-(x-2)

3) ¿Cuál de las siguientes afirmaciones es cierta?

a) Una Odds ratio con un intervalo de confianza (0.23, 2.45) es significativa.

b) Una Odds ratio con un intervalo de confianza (2.33, 3.75) no es significativa.

c) Una Odds ratio con un p-valor de 0.67 es compatible con un intervalo de confianza como el siguiente: (1.23, 1.98).

d) Una Odds ratio con un p-valor de 0.34 es compatible con un intervalo de confianza como el siguiente: (0.93, 1.34).

4) ¿Cuál de las siguientes afirmaciones no es cierta?

a) Una correlación de Pearson con un intervalo de confianza (0.33, 0.88) no es significativa.

b) Una correlación de Pearson con un intervalo de confianza (-0.73, -0.25) es significativa.

c) Una correlación de Pearson con un p-valor de 0.37 es compatible con un intervalo de confianza como el siguiente: (-0.23, 0.98).

d) Una correlación de Pearson con un p-valor de 0.02 es compatible con un intervalo de confianza como el siguiente: (0.63, 0.78).

5) ¿Cuál de los siguientes modelos no es una Regresión lineal múltiple?:

a) y=2x-2y+7

b) y=3x+5z-3

c) y=7x-3z-1

d) y=6x-3x+1

6) En una Regresión logística simple es cierto:

a) La variable dependiente es cuantitativa y continua.

b) Debemos aplicar un Stepwise para seleccionar qué variables independientes son relevantes.

c) Una Odds ratio de 10 pasaría a ser de 0.1 si se cambiara la codificación de los ceros y los unos de la variable dependiente (si los ceros pasaran a ser unos y los unos pasaran a ser ceros) .

d) Una Odds ratio con un intervalo de confianza (0.45, 2.26) indica que se trata de una relación significativa por no contener el 0.

7) En una Regresión logística simple es cierto:

a) Un coeficiente que multiplica a la variable independiente con un intervalo de confianza (-0.6, 0.7) es compatible con un intervalo de confianza de la Odds ratio de (1.15, 2.33).

b) Un coeficiente que multiplica a la variable independiente con un intervalo de confianza (0.6, 0.9) es compatible con un intervalo de confianza de la Odds ratio de (1.8, 2.5).

c) Un coeficiente que multiplica a la variable independiente con un intervalo de confianza (-0.6, -0.4) es compatible con un intervalo de confianza de la Odds ratio de (1.45, 3.33).

d) Un coeficiente que multiplica a la variable independiente con un intervalo de confianza (0.8, 0.9) es compatible con un intervalo de confianza de la Odds ratio de (0.15, 1.33).

8) En una Regresión logística simple si tenemos un coeficiente que multiplica a la variable independiente con un intervalo de confianza como el siguiente (1.14, 1.66), podemos afirmar:

a) Que la Odds ratio no será significativa.

b) Que la Odds ratio será significativa y mayor que 1.

c) Que la Odds ratio será significativa y menor que 1.

d) Que la Odds ratio será 0.

9) En una V de Cramer no es cierto:

a) Es un valor entre el 0 y el 1.

b) Es una medida del grado de relación entre variables cualitativas.

c) Es un valor que será significativo si el Test de la ji-cuadrado de la tabla de contingencia es menor que 0.05.

d) Cuanto mayor es indica una menor relación entre las variables cualitativas.

10. En los datos siguientes:

y

x

1

7

1

9

1

5

1

6

1

8

0

2

0

3

0

4

0

2

0

6

Si hiciéramos una Regresión logística simple:

a) El coeficiente que multiplica a la variable independiente sería un valor mayor que 0.

b) El coeficiente que multiplica a la variable independiente será 0 porque tenemos un tamaño de muestra muy pequeño.

c) La Odds ratio será menor que 1.

d) La Odds ratio será mayor que 1 porque el coeficiente que multiplica a la variable independiente será menor que 0.

L’Odds ratio per a estudiants de primària

L’Estadística és anàlisi de dades. Però, què significa “anàlisi” i què significa, també, “dades”? Vegem-ho.

“Anàlisi” significa descompondre alguna cosa en els seus elements. Si agafem una cartera de l’escola de qualsevol de vosaltres i l’obrim i comencem a veure el que hi ha dins: l’estoig, un llibre de naturals, l’entrepà, les claus de casa, etc., això es podria dir que és analitzar la cartera. En aquest sentit fem servir expressions que haureu sentit alguna vegada: Quan ens fan una anàlisi de sang detecten, amb unes màquines complicades, quant sucre, quant colesterol, etc, tenim a la sang. Quan busqueu a classe de llengua, en una oració, quin és el subjecte i quin és el predicat, esteu fent una anàlisi sintàctica, que és una anàlisi d’aquesta oració: buscar quines són les peces de que està composta.

“Dades” significa observacions, mesures, fetes a molts individus; o sigui, mesurar o avaluar certes característiques a molts individus. A tots els alumnes de primària es podria demanar l’altura, el pes, el sexe, les notes que van tenir en la última avaluació en matemàtiques, llengua, naturals, etc. Això serien dades.

L’Estadística s’estudia en gairebé tots els estudis universitaris perquè en tots ells cal analitzar dades. El biòleg analitza dades d’éssers vius: animals, vegetals, microorganismes. L’economista analitza dades d’empreses, de consumidors de productes. L’astrònom analitza dades d’estrelles, de planetes. El metge analitza dades que es refereixen a qüestions de la salut dels éssers humans. Etc.

En aquesta classe ens centrarem en l’Estadística aplicada a la Medicina.

Anem a veure un dels conceptes estadístics que més s’utilitza en Medicina: l’Odds ratio. De fet, l’Odds ràtio és una eina fonamental en el treball d’un metge.

Vegem unes dades i anem a analitzar-les:

A l’hivern gairebé tots vosaltres passeu uns dies amb tos. Una setmana i curats, normalment. Es tracta d’una Bronquitis aguda. Una malaltia en la qual els bronquis s’infecten i s’inflamen i la tos és una reacció del nostre cos davant aquesta inflamació. La tos és un mecanisme de defensa del nostre organisme per expulsar els microbis invasors.

Però una Bronquitis crònica és una malaltia molt més complicada. És una cosa similar al que teniu vosaltres una setmana a l’any, però amb una diferència molt important: dura gairebé sempre. Una tos que rarament marxa i, a més, molt més molesta.

Doncs suposem que prenem una mostra real. A persones adultes els demanem si són fumadors i si tenen Bronquitis crònica. Podríem obtenir les següents dades:

Captura de pantalla 2016-03-24 a las 18.55.33

Aquesta és la forma primària d’informació que tenim en qualsevol ciència. En aquest cas, com la mostra és petita, ja podríem començar a treure conclusions veient les dades que tenim. No obstant això, normalment, la mostra és molt més gran i es fa impossible treure conclusions amb la simple observació.

Per això es necessiten mecanismes d’anàlisi com els que treballa l’Estadística. Mireu un exemple: Mireu la següent taula que és una forma de començar a analitzar aquestes dades que tenim:

Captura de pantalla 2016-04-04 a las 18.44.32

I seguim amb l’anàlisi:

Captura de pantalla 2016-04-06 a las 18.52.07

Quina d’aquestes dues relacions és més gran? Sens dubte que la primera, oi? És un valor més gran. És una proporció més gran. Però, quantes vegades? Quantes vegades és més gran aquesta relació entre persones amb Bronquitis crònica i persones sense Bronquitis crònica en els fumadors respecte al que passa amb els no fumadors?

Fixeu-vos que això és com dir, amb nombres més senzills: 10 és més gran que 2. Evidentment, oi? Però, quantes vegades és més gran 10 que 2? Quantes vegades està el 2 dins el 10? Doncs 5, perquè 2×5 = 10. Necessitem sumar 5 vegades el 2 per obtenir 10.

Doncs aquí el mateix. Quantes vegades és més gran 5/8 que 1/8 ? Suposem que vam comprar una pizza i la dividim en trossos de la mateixa mida i una persona es menja 5 trossos i una altra persona es menja únicament un tros. Quantes vegades es menja més pizza el primer que el segon? Doncs, 5, oi? Perquè sumar 5 vegades 1/8 ens dóna un valor de 5/8 ; o, el que és el mateix: multiplicar 5 per 1/8 ens dóna 5/8 ; o, el que és també el mateix: dividir 5/8 per 1/8 dóna 5.

L’Odds ràtio és aquesta divisió. L’Odds ràtio és, doncs, en aquest cas, 5. Usualment l’Odds ràtio s’escriu així: OR. En aquest cas diríem OR = 5.

Això vol dir que hi ha 5 vegades més Bronquitis crònica entre els fumadors que entre els no fumadors. En aquest cas diem que fumar és un factor de risc per tenir Bronquitis crònica.

Bona part de l’objectiu de l’anàlisi estadística  d’unes dades, en Medicina, és l’obtenció de valors com aquest. Valors que ens diguin com estan relacionades certes activitats, certs comportaments, amb certes malalties.

Gràcies a anàlisi com aquesta i gràcies a l’OR sabem quins són els factors de risc de diferents malalties: Infart de miocardi, Anorèxia, Càncer de pulmó, etc.

I, per acabar, només una cosa més, però molt important. Mireu aquestes dues taules:

Captura de pantalla 2016-04-04 a las 18.44.46

La primera és la que hem vist abans i la segona és molt similar i diferent al mateix temps. Observeu que podrien ser dos estudis fets per diferents persones. El primer amb poques dades i el segon amb moltes més dades. Però observeu bé que l’OR és la mateixa en les dues taules. L’OR és igual a 5. Si feu el mateix que hem fet abans per calcular l’OR amb la segona taula veurem que la OR és, efectivament, 5.

Però observeu bé que hi ha una diferència molt important: la quantitat de valors no és la mateixa. Això és molt important en la ciència, en la investigació. Que el que es digui es faci amb moltes dades, amb el que anomenem una mida de mostra suficient. I, qui diu quan és suficient la mida d’una mostra? Doncs ho diu també l’Estadística.

Quan hem treballat amb una mida de mostra suficient diem, llavors, que el resultat és SIGNIFICATIU (Observeu que ho poso en majúscules perquè potser és la paraula més important no només de l’Estadística, sinó de tota la Ciència). SIGNIFICATIU significa fiable, sòlid.

Per tant, encara que en tots dos estudis l’OR és la mateixa, en el segon estudi el resultat és realment SIGNIFICATIU, és fiable, té realment valor científic.