Artículos

Bagging y boosting, hermanados

Ambas son heurísticas para construir modelos buenos a partir de la combinación de modelos malos. Con la diferencia —¿recordáis los condensadores de la física de bachillerato?— de que en un caso se colocan en paralelo y en el otro, en serie.

Entran Friedman y Popescu (algoritmo 1):

Y, tachán:

  • Bagging, si $latex \nu = 0$
  • Boosting otherwise.

Sobre "Predicción, estimación y atribución"

Subrayo hoy aquí tres cuestiones que considero importantes del reciente artículo Prediction, Estimation, and Attribution de B. Efron (para otra visión, véase esto).

La primera es que existe una cadena de valor en la modelización estadística que va del producto más ordinario, la predicción, a la estimación y de este, al más deseable, la atribución. En la terminología de Efron,

  • estimación consiste en la determinación de los parámetros subyacentes (e importantes) del modelo; específicamente se refiere a la estimación puntual;
  • atribución tiene que ver con intervalos de confianza, p-valores, etc. de esos parámetros.

La segunda es que la predicción es un problema fácil, mientras que la estimación (y la atribución) son mucho más complicados. Lo ilustra con un ejemplo sencillo: comparando la eficiencia de dos modelos, uno el óptimo y otro ligeramente inferior para:

¿Estos son los argumentos para "un debate riguroso sobre las transferencias de renta"?

Eso, que he estado leyendo Un debate riguroso sobre las transferencias de renta, donde se anuncia que

A raíz de la pandemia ha vuelto al debate público la pregunta de cómo organizar nuestro estado del bienestar para proteger a los más vulnerables. Uno de los protagonistas del debate ha sido la idea de una renta –sea básica o mínima– que reduzca los efectos de la crisis económica y quizá también se convierta en una pieza permanente de nuestro sistema de prestaciones.

Cuando sea mayor, quiero escribir informes como esos

Ayer buscaba información sobre la historia de la sanidad española y de la pública en particular. Quería averiguar por qué acabamos con un sistema britanoide en lugar del centroeuropeo:

Aún tengo pendiente averiguar el motivo. Pero por el camino di con esto y gracias a ello, con el Euro Health Consumer Index y sus correspondientes informes anuales, escritos con una fina ironía. No hay que ir más allá de la primera frase del de 2018 para encontrar el primer ejemplo (las cursivas son del original):

Lo que queda cuando has eliminado tantas cosas que ya no se entiende nada se llama "paper"

Para un observador externo objetivo, eso que llaman ciencia es un conjunto de tinglados absolutamente intrascendente en para su día a día que opera de acuerdo con un sistema torcido de incentivos orquestados alrededor de una suerte de moneda ficticia que se llama paper que permite acumular avatares de todo tipo.

Esa economía ficticia mantiene nexos con la real. Por ejemplo, una acumulación suficiente de papers genera un avatar llamado sexenio que genera euros contantes y sonantes mes a mes en la cuenta corriente de quien lo ostenta. En ocasiones, también, los partícipes de ese enorme Monopoly pagan euros contantes y sonantes a terceros a condición de que estos elaboren papers (o partes significativas de ellos) para poder así firmarlos y canjearlos en el mercado de los avatares.

Mirad lo bien que funciona la hidroxicloroquina

Habréis oído hablar del artículo de la hidroxicloroquina (como tratamiento para el coronavirus). Lo resumo.

Se toman 42 pacientes y a 26 se les administra hidroxicloroquina y a 16 no; en concreto:

A total of 26 patients received hydroxychloroquine and 16 were control patients.

Luego pasan cosas y se llega a que

At day6 post-inclusion, 70% of hydroxychloroquine-treated patients were virologicaly cured comparing with 12.5% in the control group (p= 0.001).

Densidades unidimensionales en R

R

Es un asunto tangencial que, además, se soluciona las más de las veces con density. Pero parece que tiene mucha más ciencia detrás.

Por algún motivo, acabé un día en la página del paquete logspline, que ajusta densidades usando splines. Su promesa es que puede realizar ajustes de densidades tan finos como

que está extraído de Polynomial Splines and their Tensor Products in Extended Linear Modeling, el artículo que le sirve de base teórica. El algoritmo subyacente es capaz, como da a entender el gráfico anterior, de graduar la resolución en la determinación de la densidad para representar debidamente tanto las zonas con detalles finos sin difuminarlos como las regiones más aburridas sin crear irregularidades espurias.

Cuantificación y riesgo

Economics After Neoliberalism, es una reescritura más de un argumento bastante manido y que se ha visto tratar desde la izquierda, como en esta ocasión, como desde la derecha: el libro Seeing Like a State es una perífrasis libertaria de casi 500 páginas que viene a decir lo mismo. O, según se mire, lo contrario.

El nudo del argumento es que la cuantificación (de los fenómenos económicos y sociales) no es solo una herramienta relativamente moderna de ayuda a la decisión sino que la condiciona, que, diríase, la contiene. Solo que si lees el primer artículo, parece contener neoliberalismo y si lees el segundo, colectivismo soviético con estética Le Corbusier.

¿Se puede calcular la letalidad (del coronavirus, digamos) sin el análisis de la supervivencia?

Pues no lo sé. Pero con él, sí, según Methods for estimating the case fatality ratio for a novel, emerging infectious disease:

During the course of an epidemic of a potentially fatal disease, it is important that the case fatality ratio be well estimated. The authors propose a novel method for doing so based on the Kaplan-Meier survival procedure, jointly considering two outcomes (death and recovery), and evaluate its performance by using data from the 2003 epidemic of severe acute respiratory syndrome in Hong Kong, People’s Republic of China. They compare this estimate obtained at various points in the epidemic with the case fatality ratio eventually observed; with two commonly quoted, naïve estimates derived from cumulative incidence and mortality statistics at single time points; and with estimates in which a parametric mixture model is used. They demonstrate the importance of patient characteristics regarding outcome by analyzing subgroups defined by age at admission to the hospital.

Análisis de la supervivencia cuando todas las observaciones están censuradas

[Retomando un tema que dejé inconcluso y que tampoco remataré hoy aquí.]

Imagina que quieres saber cuánto le dura a la gente el portátil. Para eso preguntas por ahí cuándo se compraron el último.

Lo que obtienes es un conjunto de datos donde todas las observaciones están censuradas. Y no, el análisis de la supervivencia clásico no funciona.

Buscando en la literatura he encontrado, sin embargo, Survival Analysis of Backward Recurrence Times, donde se discute el problema y al que, bueno, otro día con menos penas volveré.