@Emilienko Cómo convertirse en entrenador Pokémon

Estás dentro de Estadística falaz


No te creas las estadísticas (7/10)

El Sr. Reúma padece desde hace tiempo dolores de espalda y no sabe por qué. Ha leído en Internet que el dolor de espalda puede estar relacionado con los días lluviosos. Para eso, en el mes de agosto apuntó qué días le dolía la espalda y que días no le dolía en función del clima local, obteniendo que sintió dolor el 58% de los días de sol y el 60% de los días de lluvia.

Como parecía que en los días de lluvia había una predisposición para el dolor, el Sr. Reúma repitió el experimento el mes de septiembre, teniendo dolor más en los días de lluvia: 54% frente al 53% de los días de sol.

Creo que mi dolor se relaciona con la humedad -explicó el Sr. Reúma a su médico. He hecho el experimento dos veces y en ambas me ha dolido más días en los días de lluvia.
No es posible, Sr. Reúma -contestó su médico. Si sumamos los resultados de los dos experimentos, obtenemos que usted tuvo dolor el 56% de los días de sol y el 56% de los días de lluvia, luego parece que la humedad no está relacionada.

¿Qué estaba sucediendo?

Una de las formas mediante la cual nos engaña nuestro cerebro es haciéndonos creer que los porcentajes son números normales y corrientes. Esto no es cierto del todo: los porcentajes son divisiones y por tanto no se pueden interpretar alegremente.

En nuestro ejemplo, es el médico quien tiene razón y el Sr. Reúma el que se ha equivocado y ha caído en la paradoja de Simpson. Esta curiosa paradoja dice que es posible dividir una muestra en varios grupos (en nuestro caso 60 días han sido divididos en 2 meses) y obtener porcentajes favorables en cada uno de los grupos, mientras que los porcentajes globales son iguales o desfavorables.

Como podréis imaginar, este método es una bendición para los publicistas. Es posible, que un mayor porcentaje de los habitantes de Extremadura piensen que el detergente A es mejor que el detergente B, y a la vez que por separado los de Cáceres crean que B es mejor y los de Badajoz que B es mejor también.


No te creas las estadísticas (6/10)

Esta mañana me puse un polo rojo y fui a pesarme: 71 kg. Más tarde decidí cambiarme de polo y me puse uno azul; volví a pesarme y mi peso eran 82 kg. Como tampoco me convencía el polo azul, me puse uno verde y me pesé por tercera vez: 69 kg.

¿Cuál es mi peso real?

Emilienko azul: Si no te compras una báscula nueva, lo más adecuado es que calcules la media de las tres pesadas, que es de 74 kg. Sin duda tu peso real debe estar cercano a éste.
Emilienkos rojo y verde: El Emilienko azul parece un valor extremo. Si no quieres excluirlo, lo más aconsejable es que en vez del valor medio, uses el valor mediano (que es el que queda en medio al ordenar los datos de mayor a menor) y que asciende a 71 kg. Ése es el valor medio más adecuado en este caso.

En situaciones similares en las que uno de los valores parece ser un valor extremo pero donde no queremos excluirlo “por si acaso”, lo más aconsejable es usar la mediana como valor medio en vez de la media. Hay consenso en que la mediana como valor medio es más adecuada en estos casos, aunque a la larga crea muchos problemas en la potencia de los análisis.

Sin embargo, la elección final de media o mediana siempre queda a gusto del analista de los datos y no hay ninguna regla que obligue a coger ninguna de las dos.

Por ejemplo, si estamos midiendo los beneficios de una dieta, es posible que a algunos les interese decir que el peso al final de la misma es de 74 kg, mientras otros dirán que la dieta es mucho mejor porque el peso al final es de 71 kg. Y todos tienen razón.


No te creas las estadísticas (5/10)

El siguiente desafío de ER-z, nuestro becario marciano, fue estimar la altura de la población adulta sevillana. Como no podía pagar un segundo viaje a la Tierra, ER-z utilizó un rayo muy preciso que midió la altura de seis sevillanos al azar. Los resultados fueron éstos:

114 168 169 173 175 178

Ahora sí que tengo un problema -pensó enfadado- uno de los valores que me ha dado el rayo es 114. Cuando estuve en la Tierra no me pareció que hubiera gente tan bajita; pero como no conozco suficientemente a los terrícolas, es posible que algunos de ellos tengan esta altura. Por otro lado, es posible que me haya equivocado al usar el rayo y me haya dado un valor muy bajo. También es posible que esa persona estuviera sentada y por eso midiera 114…

¿Debería ER-z incluir el 114 en el análisis estadístico?

Esta pregunta no es fácil de contestar; lo que sí es verdad es que ER-z tiene un problema llamado valor extremo. Si ER-z no incluye al 114 en su estudio, es posible que unos supuestos terrestres bajitos no queden representados en su muestra. Si lo incluye y el 114 es un error de medida, los resultados obtenidos estarán sesgados.

Cuando los matemáticos se enfrentan a este problema, que es bastante común, calculan mediante complejas fórmulas cuánto se diferencia el valor extremo del resto. Si se direfencia mucho, el valor queda excluido; si no se diferencia demasiado, el valor se queda dentro. La semana que viene veremos cómo se pueden usar los valores extremos para falsear una estadística.