Supervivencia

La recurrente vuelta de la frenología y algunos asuntos más

En A Conversation with Sir David Cox se lee:

Reid: Me gustaría preguntarle sobre su trabajo al principio de su carrera en la Wool Industries Research Association. ¿Qué tipo de lugar era y qué tipo de puesto tenía usted allí?

Cox: Bueno, Henry Daniels lo ha descrito un poco en una entrevista reciente (Whittle, 1993). Era un tipo de organización muy común en el Reino Unido en ese momento, financiada por el gobierno y por dinero obtenido de un impuesto al sector, para realizar investigaciones básicas sobre problemas relacionados con la industria; y en ese momento tenía un director extraordinario que simplemente tenía la idea de contratar a personas y, en gran medida, dejarlas trabajar por su cuenta, con su apoyo. […]

Sobre la verosimilitud de distribuciones "compuestas"

Si tenemos una distribución continua (que depende de un parámetro $\alpha$) $f_\alpha$ y una muestra blablablá $x_1, \dots, x_n$, la verosimilitud asociada es

$$\prod_{i = 1}^n f_\alpha(x_i).$$

Si tenemos una distribución discreta (que depende de un parámetro $\beta$) $p_\beta$ y una muestra blablablá $y_1, \dots, y_m$, la verosimilitud asociada es

$$\prod_{i = 1}^m p_\beta(y_i).$$

Pero si tenemos una mezcla de distribuciones, una continua $f_\alpha$ y una discreta $p_\beta$ y una muestra blablablá $x_1, \dots, x_n, y_1, \dots, y_m$, ¿la verosimilitud asociada sigue siendo

El principio de mediocridad como instrumento para estimar duraciones

Esta entrada trata de explicar cómo utilizar el llamado principio de mediocridad para la estimación de la duración de cosas cuando apenas se sabe nada al respecto. En ese sentido, extiende y fundamente lo que puede leerse aquí.

Planteamiento

Consideremos el conjunto $A$ de todos los pares de números (reales, que todo hay que decirlo) $0 < a < b$.

En todo lo que sigue, $b$ se interpretará como la duración total de algo (la existencia de la especie humana, el número de semanas que una obra teatral estará en cartel, etc.) y $a$ el momento en el que un observador ha contemplado la existencia de ese algo.

¿Viven más los ganadores de los Óscars (que otros actores no premiados)?

La respuesta es sí. Al menos, si haces caso a las principales cuñadofuentes que puedes encontrar buscando en Google sobre el asunto o el cuñadolibro que critiqué el otro día (y que, dicho sea de paso, ilustra el nivel de los sujetos a los que encomendamos la educación de las futuras generaciones patrias).

Pero la respuesta es no. Un estudio de esas características tiene un serio riesgo de selección efectivamente, para ganar un Óscar tienes que haber sobrevivido lo suficiente que el primer y descuidado estudio sobre el asunto no tuvo la precaución de corregir.

La ley de la cerveza para pintar nubes (y su relación con el análisis de la supervivencia)

El otro día pregunté a en un grupo de amigos, físicos mayormente, si les sonaba de alguna esquinita teórica de la carrera en que apareciese alguna función de la forma

$$ x(t) = \exp\left(-\int_0^t f(x) dx\right)$$

y uno, que trabaja en el mundo del videojuego dio con la línea 401 del código que aparece aquí y que sirve para pintar las nubes hiperrealistas que aparecen en la misma página.

Es una aplicación de la ley de Beer en la que mis lectores más sofisticados reconocerán el estrecho vínculo con el análisis de la superviencia. En este caso, la que trata de sobrevivir es una intensidad luminosa que atraviesa diversos medios que la van atenuando. Al ser potencialmente heterogéneos, la función de supervivencia adquiere la forma

No leáis nada de lo que diga este inepto: no sabe por dónde le pega el aire

Hay gente que va dándoselas de nosequé y luego resulta que no sabe por dónde le pega el aire. Veámoslo hablando de análisis de la supervivencia:

En cualquier caso, con datos de esa naturaleza (isótopos radioactivos, enfermos de cáncer, etc.) no se informa la vida media sino, generalmente, la semivida. Es decir, cuánto tiempo pasa hasta que se liquida la mitad de una cohorte. En este caso, lo suyo sería estimar la semivida ponderada por importe.

Sobre la función de riesgo en el análisis de la supervivencia

Tienes una función de supervivencia

y piensas que es posible aproximarla usando segmentos de exponencial usando primero una rejilla gruesa,

y luego cada vez más fina,

hasta que sean indistinguibles.

Las distintas aproximaciones son

$$ \hat{S}(t) = \exp\left(-\sum_{i \le n} \lambda_i \Delta - \lambda_n (t - t_n)\right)$$

donde $latex n$ es el índice del intervalo que contiene a $latex t$ los $latex \lambda_i$ son los coeficientes en los segmentos de exponencial. Esa expresión que converge a

¿Se puede calcular la letalidad (del coronavirus, digamos) sin el análisis de la supervivencia?

Pues no lo sé. Pero con él, sí, según Methods for estimating the case fatality ratio for a novel, emerging infectious disease:

During the course of an epidemic of a potentially fatal disease, it is important that the case fatality ratio be well estimated. The authors propose a novel method for doing so based on the Kaplan-Meier survival procedure, jointly considering two outcomes (death and recovery), and evaluate its performance by using data from the 2003 epidemic of severe acute respiratory syndrome in Hong Kong, People’s Republic of China. They compare this estimate obtained at various points in the epidemic with the case fatality ratio eventually observed; with two commonly quoted, naïve estimates derived from cumulative incidence and mortality statistics at single time points; and with estimates in which a parametric mixture model is used. They demonstrate the importance of patient characteristics regarding outcome by analyzing subgroups defined by age at admission to the hospital.

Análisis de la supervivencia cuando todas las observaciones están censuradas

[Retomando un tema que dejé inconcluso y que tampoco remataré hoy aquí.]

Imagina que quieres saber cuánto le dura a la gente el portátil. Para eso preguntas por ahí cuándo se compraron el último.

Lo que obtienes es un conjunto de datos donde todas las observaciones están censuradas. Y no, el análisis de la supervivencia clásico no funciona.

Buscando en la literatura he encontrado, sin embargo, Survival Analysis of Backward Recurrence Times, donde se discute el problema y al que, bueno, otro día con menos penas volveré.

¿Cómo se mide el número medio de días para pagar una factura?

[Esta entrada tiene una errata de la que doy fe aquí.]

Pues casi seguro que mal. Por eso hay que enfrentarse a noticia como esta con escepticismo. En el cuerpo del artículo aparece el gráfico

Que invita a preguntarse cosas como: ¿habrán tenido en cuenta las facturas aún no pagadas? (Es decir, las censuradas, en la nomenclatura del análisis de la supervivencia). Si se ignoran, el tiempo se estará infraestimando seriamente.