Artículos

Cuando sea mayor, quiero escribir informes como esos

Ayer buscaba información sobre la historia de la sanidad española y de la pública en particular. Quería averiguar por qué acabamos con un sistema britanoide en lugar del centroeuropeo:

Aún tengo pendiente averiguar el motivo. Pero por el camino di con esto y gracias a ello, con el Euro Health Consumer Index y sus correspondientes informes anuales, escritos con una fina ironía. No hay que ir más allá de la primera frase del de 2018 para encontrar el primer ejemplo (las cursivas son del original):

Mirad lo bien que funciona la hidroxicloroquina

Habréis oído hablar del artículo de la hidroxicloroquina (como tratamiento para el coronavirus). Lo resumo.

Se toman 42 pacientes y a 26 se les administra hidroxicloroquina y a 16 no; en concreto:

A total of 26 patients received hydroxychloroquine and 16 were control patients.

Luego pasan cosas y se llega a que

At day6 post-inclusion, 70% of hydroxychloroquine-treated patients were virologicaly cured comparing with 12.5% in the control group (p= 0.001).

Cuantificación y riesgo

Economics After Neoliberalism, es una reescritura más de un argumento bastante manido y que se ha visto tratar desde la izquierda, como en esta ocasión, como desde la derecha: el libro Seeing Like a State es una perífrasis libertaria de casi 500 páginas que viene a decir lo mismo. O, según se mire, lo contrario.

El nudo del argumento es que la cuantificación (de los fenómenos económicos y sociales) no es solo una herramienta relativamente moderna de ayuda a la decisión sino que la condiciona, que, diríase, la contiene. Solo que si lees el primer artículo, parece contener neoliberalismo y si lees el segundo, colectivismo soviético con estética Le Corbusier.

¿Se puede calcular la letalidad (del coronavirus, digamos) sin el análisis de la supervivencia?

Pues no lo sé. Pero con él, sí, según Methods for estimating the case fatality ratio for a novel, emerging infectious disease:

During the course of an epidemic of a potentially fatal disease, it is important that the case fatality ratio be well estimated. The authors propose a novel method for doing so based on the Kaplan-Meier survival procedure, jointly considering two outcomes (death and recovery), and evaluate its performance by using data from the 2003 epidemic of severe acute respiratory syndrome in Hong Kong, People’s Republic of China. They compare this estimate obtained at various points in the epidemic with the case fatality ratio eventually observed; with two commonly quoted, naïve estimates derived from cumulative incidence and mortality statistics at single time points; and with estimates in which a parametric mixture model is used. They demonstrate the importance of patient characteristics regarding outcome by analyzing subgroups defined by age at admission to the hospital.

Análisis de la supervivencia cuando todas las observaciones están censuradas

[Retomando un tema que dejé inconcluso y que tampoco remataré hoy aquí.]

Imagina que quieres saber cuánto le dura a la gente el portátil. Para eso preguntas por ahí cuándo se compraron el último.

Lo que obtienes es un conjunto de datos donde todas las observaciones están censuradas. Y no, el análisis de la supervivencia clásico no funciona.

Buscando en la literatura he encontrado, sin embargo, Survival Analysis of Backward Recurrence Times, donde se discute el problema y al que, bueno, otro día con menos penas volveré.

Agoreros

Anderson et al. (2015) documented the existence of customers who systematically purchase new products that fail.

Tal se lee en The Surprising Breadth of Harbingers of Failure un artículo que abunda sobre la cuestión de la existencia ya no solo de clientes agoreros sino, incluso de códigos postales agoreros donde aquellos se arraciman.

Desafortunadamente, el artículo omite decirnos cuáles son, dónde están y, por supuesto, alguna foto de quienes los habitan.

"Deep learning": una evaluación crítica

Tal vendría a ser la traducción del título de este artículo con el que, mentándolo, hago contrapeso a opiniones enlatadas con sabor a gominola.

Por no dejarlo todo en dos líneas, enumero aquí los diez mayores retos (¿problemas?) que encuentra hoy en día el autor en el deep learning:

  1. Que necesita demasiados datos
  2. Que apenas tiene capacidad de transferencia (i.e., de trasladar lo aprendido en un contexto a otro)
  3. Que no sabe gestionar sistemas jerárquicos
  4. Que no es bueno infiriendo
  5. Que no es lo suficientemente transparente (en este punto cita, por supuesto, a nuestra autora favorita, Catherine O’Neill)
  6. No usa conocimiento previo (¡uh, uh, bayesianos!)
  7. No distingue correlación y causalidad (¿y quién sí?)
  8. Presume un mundo estable, inmutable
  9. Funciona bien como aproximación, pero no es enteramente fiable
  10. Plantea problemas de ingeniería, de integración con otros componentes para crear sistemas

GoF para modelos bayesianos

Existe una muy perezosa escuela de pensamiento que sostiene que dado que las probabilidades son subjetivas, cualquier modelo y, en particular, los bayesianos, como expresión de la subjetividad de sus autores, no necesita ser contrastado con la realidad. Porque, de hecho, la realidad no existe y es una construcción que cada cual hace a su manera, deberían añadir.

Existe, por supuesto, una escuela realista tan mayoritaria que ni siquiera es consciente de que lo es. Basta leer la primera página de Statistical Modeling: The Two Cultures para hacerse una idea muy clara de a lo que me refiero.

Gente que toma la causalidad en vano

Me refiero a los autores de El impacto de Airbnb en el mercado de vivienda de Barcelona, que a partir de datos puramente observacionales y en un artículo de apenas 1500 palabras, mencionan la causalidad siete veces. Además, escriben joyas como

[N]uestra investigación se basa en un modelo de econometría lineal (y no de econometría espacial) ya que nuestro objetivo principal es hacer un análisis causal robusto.

Ya sabes: si quieres un análisis causal robusto, el modelo lineal (chupatesa, Pearl).

Proporciones pequeñas y "teoremas" de "imposibilidad"

Esta entrada responde y complementa Malditas proporciones pequeñas I y II_ _trayendo a colación un artículo que ya mencioné en su día y que cuelgo de nuevo: On the Near Impossibility of Measuring the Returns to Advertising. ¡Atención al teorema de la imposibilidad de la Super Bowl!

Y el resumen breve: cada vez estamos abocados a medir efectos más y más pequeños. La fruta que cuelga a la altura de la mano ya está en la fragoneta del rumano. Solo nos queda la morralla y cada vez va a costar más separar grano y paja.