Prensa

Ser científico de datos, ¿puede ser menos sexi de lo que te han contado?

Puede que sí, pero no por las razones expuestas en Retina.

[Nota: Perdón por meterme con Retina. Es tan de amateur como criticar los gráficos de Expansión o los argumentos económicos de un peronista.]

En particular, argumenta Retina que esas máquinas a las que les echas unos datos y encuentran por sí solas el mejor modelo nos van a dejar sin trabajo.

Otra vez.

El autoML es como los crecepelos, las dietas milagrosas y los tipos que te cuentan que van a hacerse ricos con su algoritmo de inversión en bolsa: llevan toda la vida anunciándolos, logran cierta exposición mediática gracias a panfletos como Retina y nadie les dedica un mal obituario cuando mueren en el olvido (¿alguien recuerda a KXEN, por ejemplo?).

¡Eh! ¡Atención a la media geométrica!

El insomnio y la serendipia me han hecho transitar por unas líneas en las que se lee:

A plausible guess is to use their arithmetic mean, which is roughly 150 people per square mile. However, the right method is the geometric mean:

$$ \text{best guess} = \sqrt{\text{lower endpoint} \times \text{upper endpoint}}.$$

The geometric mean is the midpoint of the lower and upper bounds—but on a ratio or logarithmic scale, which is the scale built into our mental hardware. The geometric mean is the correct mean when combining quantities produced by our mental hardware.

El día del oxímoron

Han aparecido dos artículos publicados en prensa hoy, en el mismo día:

Tengo más comentarios que hacer que tiempo para escribirlos, así que dejo que cada cual saque su propia conclusión.

Cerebros "hackeados"

Tengo delante Los cerebros ‘hackeados’ votan de Harari, autor de cierta y reciente fama. Elabora sobre un argumento simple y manido: el cerebro funciona como un ordenador y los seres humanos somos no solo perfectamente predecibles sino también perfectamente manipulables. De lo que se derivan muchas funestas consecuencias en lo político y en lo social.

El artículo me ha sido recomendado por dos personas cuyo criterio tengo en muy alta estima. Pero otra lo ha criticado con saña aquí.

Consecuencias indeseadas de la falta de humildad

Me refiero a estas:

Es que es muy ridículo tu afan por aplicar tus promedios frívolamente a los fenómenos más variados para ofrecer predicciones que casi nunca se cumplen. No tiene que ver con el modelo estadístico, sino con el pésimo periodismo paracientífico que haces https://t.co/kD6bxknMFp

– Guillermo López (@GuillermoLPD) 9 de julio de 2018

La historia, resumida, es que Kiko Llaneras publica sus predicciones para el mundial en El País, i.e.,

Invertir relaciones causales plausibles exige mucha, mucha explicación

Si yo digo que X llegó a vivir 95 años con salud y añado que siempre siguió una dieta sana, nos parecería muy raro que alguien nos contestase: ¿para qué se sometió X a una dieta sana si, al final, iba a vivir 95 años?

Si digo que el país Y tiene una tasa de patentes por habitantes muy por encima de la media y añado que el gobierno invierte un porcentaje sustancial en I+D, nos parecería muy raro que alguien apostillase: ¿para qué invertir en I+D si, al final, esa gente no para de patentar?

Más sobre sesgo, varianza y gripe: estimaciones a ojímetro

Después de mi entrada del otro día sobre sesgo, varianza y gripe (¡y gilipollas!) hablé al respecto con una periodista que me tropecé.

Le conté, esencialmente, lo que decía mi entrada: que 472 fallecidos por gripe (o fallecimientos en los que la gripe forma parte de la secuencia causal) es una infraestimación supina. Que el número (superimpreciso, por infinidad de razones) es muy superior y añadí, después de un par de humms mientras calculaba rápidamente, que la cifra real tenía que estar en el entorno de los 10k.

De sesgo, varianza y gilipollas (esta vez, con la gripe como excusa)

Un gilipollas se delatará por preferir una mentira exacta a una verdad aproximada. Y me refiero a La gripe ha causado ya más muertes en España que la pandemia de 2009, donde se lee que

España ha registrado hasta el momento un total de 472 muertes por gripe confirmadas en laboratorio, desde que a primeros de noviembre se registrara el primer fallecimiento de la temporada 2017-2018, que se ha convertido ya en la más letal de la última década, por encima incluso de la pandemia de gripe A (H1N1) que se produjo en 2009.

Mortalidad en carretera (contada de una manera distinta)

Con motivo de fin de año se ha hablado de fallecidos en accidentes de tráfico como por ejemplo en El Mundo o en El País. Y sí, parece que el número observado de muertos ha aumentado.

Lo cual es mucho menos relevante de lo que se da a entender. Si tiras una moneda al aire 100 veces y sacas 48 caras y luego repites el experimento, podrías sacar 53 (y habría aumentado el número observado de caras) o 45 (y habría disminuido). Lo relevante es si ha cambiado o no la probabilidad de cara de la moneda. De lo cual, y volviendo al caso de la siniestralidad, ya me ocupé en su día.

Preludio (de más por venir)

El preludio esto:

Que tiene el interés y la interpretación (muchas de ellas, como se podrá barruntar más abajo, de corte técnico) que cada uno quiera darle.

La cuestión es que he ocerreado todas las portadas de El País y puedo buscar en el texto (adviértase la cursiva) resultante. Creo contar con una voluntaria para construir una aplicación web similar a la de los n-gramas de Google.

Igual subo los datos a algún sitio en algún momento. En tanto, si alguien los quiere, que me los pida.

Más sobre correlaciones espurias y más sobre correlación y causalidad

Hoy toca esto:

Se trata de una invitación para leer el artículo Los picos de contaminación coinciden con un aumento radical en los ingresos hospitalarios, un cúmulo de desafueros epilogados por el ya habitual

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga.

Militancia y datos

Allá por el 2007 publicó The Independent una portada en que se retractaba. El diario había sido un histórico defensor de la legalización de la marihuana. Ese día hizo público su cambio de postura. Al parecer, motivada por las evidencias sobre los efectos sobre la salud mental.

Este fin de semana he asistido a una serie de conferencias. En una de ellas participaba el representante de una organización que:

  • Adoptaba de partida una posición militante, de parte, en cierto asunto de interés público.
  • Se definía como data driven, evidence driven, etc.

La pregunta obvia y que no tuve ocasión de plantear (por eso la traigo aquí) es la siguiente: si los datos y la evidencia se obstinaran en subrayar la bondad de la posición contraria a la que actualmente mantienen, ¿cuál de sus dos principios abandonarían primero?