@Emilienko Cómo convertirse en entrenador Pokémon

Estás dentro de Estadística falaz


No te creas las estadísticas (4/10)

ER-z es un extraterrestre que estudia la carrera de Estadística en la Universidad Marciana. Su proyecto fin de carrera consiste en hacer un estudio acerca del color del pelo de la población sevillana. Para ello, la Universidad Marciana ha costeado a ER-z un viaje al planeta Tierra, a Sevilla, para tomar una muestra de población y así poder hacer su estudio.

He hecho un descubrimiento sorprendente -comentó a la vuelta ER-z a su tutor. Tomé una muestra de cinco personas al azar, les hice esta foto y dio la casualidad de que los cinco eran pelirrojos. Esto me obliga a elaborar una teoría: si el color del pelo fuera igual en Sevilla que en el resto del mundo, sería una casualidad muy improbable haber obtenido un resultado como el mío, con tantos pelirrojos. Así pues, el resultado de mi estudio es que el porcentaje de pelirrojos de esta ciudad debe ser superior al del resto de ciudades terrestres.

¿Es correcto el razonamiento de ER-z?

Aunque nosotros sepamos que en Sevilla la proporción de pelirrojos no es superior al del resto del planeta, ER-z no se ha equivocado en ningún momento, tan sólo ha tenido mala suerte con la muestra que ha tomado de la población sevillana.

Cuando un estudio estadístico dice que una población (en nuestro caso Sevilla) es diferente de las demás cuando en realidad no lo es, se está cometiendo un error llamado error alfa, que es en el que ha caído ER-z.

Por definición, cometeremos un error alfa en el 5% de los estudios en los cuales no haya diferencias reales entre lo esperado y lo observado. Esto es muy fuerte: quiere decir que 1 de cada 20 muestras de sevillanos dirá que los colores de pelo de los sevillanos son diferentes al del resto de España cuando en realidad todos sabemos que no es así.

La parte de la Estadística que se dedica a generalizar los resultados de una muestra a una población general recibe el nombre de Inferencia. La ventaja de esta ciencia es que reconoce que el error alfa siempre estará presente y por tanto permite controlarlo a nuestro antojo, aunque nunca llegue a eliminarlo del todo. Es una ciencia que ha conseguido que el malo esté de nuestra parte.


No te creas las estadísticas (3/10)

Tomemos a 20 personas al azar de los 100 millones de habitantes de Nueva York. A continuación, tomemos otras 20 personas al azar de los 100 habitantes de Villaperdida de la Sierra. ¿Cuál de las dos muestras representa mejor a la población de la que procede?

Si has respondido que la muestra de 20 personas de Villaperdida de la Sierra es más representativa porque supone un 20% de la población, mientras que la muestra de 20 personas de Nueva York es peor porque sólo incluye a un 0,0002% de la población, te has equivocado. Las dos muestras serán igual de buenas (o de malas) siempre que hayan sido tomadas correctamente.

Esto no se lo cree nadie, pero es así. En realidad es lo mismo que ocurre con el acertijo infantil de qué pesa más, si un kilo de plomo o un kilo de paja. Un kilo es un kilo, independientemente del material. Aquí ocurre lo mismo, 20 personas son 20 personas, da igual de dónde vengan.

Un nativo de Villaperdida: ¡Alto! ¿Eso quiere decir entonces que los 100 habitantes de Villaperdida representamos a nuestro pueblo exactamente igual de bien que 100 habitantes al azar de Nueva York?

Emilienko:
Sí, y no sólo eso. 101 habitantes de Nueva York representarían mejor a Nueva York que los 100 habitantes de Villaperdida representan a su pueblo. Es igual que el acertijo infantil: 101 personas pesan más que 100, da igual de dónde vengan.

Esta cuestión, que cuesta trabajo comprender, se utiliza para engañarnos vilmente en el día a día. Cuando os comenten que una determinada muestra constituye un determinado porcentaje de la población general, sospechad: ¡un 80% de la población pueden ser 4 personas de 5! Como el 5 es indiferente para el resultado final, tenemos que la muestra sólo tenía 4 personas, lo cual, en la mayoría de los casos, es demasiado poco.


No te creas las estadísticas (2/10)

La marca de detergente Azul se publicita asegurando que la mayoría de las personas que utilizan su detergente opinan que éste lava más blanco que los demás.

El señor Cuellolimpio compró el detergente Azul engañado por este ardid publicitario, pero su experiencia fue muy negativa: bajo su punto de vista el detergente Azul era peor que los que utilizaba antes. Muy indignado, fue a visitar al gerente de la fábrica de detergente Azul para pedirle explicaciones.

No hay ni trampa ni cartón -afirmó el gerente. Hicimos un estudio con 300 personas que usaron Azul durante un año. Al final del mismo, 120 personas opinaban que nuestro detergente era mejor que los demás, 80 que era igual y 40 que era peor. Es decir, un 83% de las personas que siguieron en el estudio opinaron que nuestro producto es mejor, o por lo menos igual que otros detergentes. Su caso, señor Cuellolimpio, es una excepción.

¿Tenía razón el gerente o utilizó alguna treta para engañar al pobre señor Cuellolimpio?

De nuevo, una interpretación errónea de los datos ha servido al gerente del detergente Azul para hacernos caer en una trampa. Si sumamos las 120 personas que piensan que el detergente es mejor, las 80 que creen que es igual y las 40 que creen que es peor, el resultado es 240. ¿El estudio no comenzó con 300 personas? ¿Dónde están las 60 que nos faltan?

Estas 60 personas reciben el nombre de valores perdidos. Cuando se realiza un estudio es muy normal que algunos sujetos que al principio decidieron participar en él se retiren voluntariamente. Este suceso es tan habitual, que aunque un estudio tenga un alto número de valores perdidos puede llegar a ser considerado válido.

Sin embargo, en este caso concreto, las 60 personas que abandonaron el estudio a la mitad seguramente lo hicieran porque pensaran que el detergente Azul era peor que el que usaban anteriormente y no estarían dispuestos a lavar la ropa con un detergente malo durante un año.

Es sencillo diseñar un estudio en el cual podamos “cansar” a las personas que piensen que el producto es peor; por lo tanto es fácil que estas voces discordantes no nos estropeen unos bonitos resultados estadísticos. Si algún día os intentan convencer con una estadística, pedid siempre un informe de valores perdidos.