Estadística

ABC (I)

Que quiere decir approximate Bayesian computation. Es un truco para pobres y desafortunados que no pueden quitarle la A a BC y usar directamente cosas como Stan o similares. El que no quiera prioris, además, puede usar el ABC para estimar la forma de la verosimilitud alrededor de una estimación puntual.

Por supuesto, el objetivo es obtener una estimación de la posteriori para poder medir la incertidumbre de parámetros, etc. La idea es que se dispone de unos datos, $latex X$ y un mecanismo de generación de datos $latex X^\prime = f(\theta)$, donde $latex \theta$ es un vector de parámetros.

¿Funcionan los programas sociales?

En España estamos acostumbrados a que los programas sociales se implementan y ya. Se convierten, como la semana santa o las navidades, en fenómenos culturales que, simplemente, están ahí (p.e., el PER) y tienen que estarlo necesariamente.

En otros países se evalúan, se miden y cabe preguntarse: ¿funcionan?

Pues en otros sitios donde se miden esas cosas, se han obtenido números como estos (que es de donde traduzco):

  • Tal vez el 80% de los que se han medido usando técnicas rigurosas y con una muestra suficiente no funcionan, es decir, producen un efecto que compense el coste.
  • Tal vez un 1-10% tiene efectos negativos.
  • Los proyectos que no han sido medidos son probablemente peores (porque se tiende a investigar más los más promisorios).

Lo anterior tiene, no obstante, una lectura positiva: ¡el ~20% funcionan! Es decir, que si este tipo de proyectos se evaluasen tempranamente y pudiesen ser cancelados de no funcionar, aplicando una especie de metáfora del reinforcement learning, en unos años casi todos serían buenos.

Como no podemos medir X, usamos Y; pero luego, en las conclusiones, no criticamos Y sino X

Ayer estuve leyendo un artículo (arg, y perdí la referencia; pero da igual para la discusión, porque es genérica) en el que trataba de atribuir diferencias de mortalidad a diversas causas: diabetes, tabaco, alcohol,… y SES (estado socioeconómico).

El gran resultado más reseñable (por los autores) era que un SES bajo implicaba nosecuántos años menos de vida, incluso descontando el efecto del resto de los factores (y no recuerdo si estudiaban las correlaciones entre ellos, etc., como se debe en un estudio con pretensiones causales).

kamila: Clústering con variables categóricas

La codificación de las variables categóricas en problemas de clústering es la fuente de la mayor parte de los problemas con que se encuentran los desdichados que se ven forzados a aplicar este tipo de técnicas.

Existen algoritmos que tratan de resolver el problema sin necesidad de realizar codificaciones numéricas. kamila es un paquete de R que implementa uno de ellos. El artículo que lo acompaña, A semiparametric method for clustering mixed data aporta los detalles, que en resumen son:

Las tres culturas

Breiman habló de las dos. Dice, y tiene razón, que:

Según él, la estadística tradicional rellena la caja negra con:

¡Aburrido, aburrido, aburrido! Aburrido y limitado (aunque, hay que admitirlo, útil en ocasiones muy concretas). Breiman sugiere sustituir las cajas negras que encontramos en la naturaleza por otras cajas negras conceptuales:

Que es aún más aburrido y patrimonio, además, de toda suerte de script kiddies.

La tercera cultura reemplaza la caja negra por un modelo generativo que simula el comportamiento de la naturaleza (i.e., del sistema generador de números aleatorios pero con estructura). Y usa Stan (o sus alternativas) para estimar, predecir y, en última instancia, facilitar decisiones informadas.

Inmigrantes y la historia del que se comió un pollo y el otro no

La historia del pollo es conocido: que si un tipo se come un pollo y otro ninguno, el estadístico de turno diría que se han comido medio cada uno. Lo de los inmigrantes viene a cuenta de noticias de la índole de

Vamos mojarnos un poco: 1/5 Recogida de refugiados: Siempre bien. Incluso con efecto llamada. Toda la literatura sobre entrada de inmigrantes, refugiados, repatriados,… a un país con una sociedad y economía abiertas muestra efectos positivos.

Estadística descriptiva y teoría de la decisión

Agradezco mucho el comentario de José Luis a mi entrada/pregunta ¿Existiría algún caso de uso de la estadística que no sea materia prima para la toma de decisiones informadas?. Dice:

¿Y la mera estadística descriptiva que aparece en la investigación científica? Distribución de tallas de especies no conerciales, dinámicas de población, descripciones ecológicas….?

Y creo que es una aportación tan valiosa que merece toda una entrada más que una mera contestación: la pregunta que plantea es tan legítima y como fructífera y fomentadora de debate. Aunque creo, y de aquí la entrada, la objeción no se tiene en pie.

Prioris informativas: un ejemplo

Imagina que tienes que generar (reitero: generar) datos compatibles con el siguiente modelo:

  • Tienes n sujetos a los que se proporciona un remedio para dormir en distintas dosis (conocidas) en distintos días.
  • El número adicional de horas que duerme cada sujeto es lineal con una pendiente que depende de la dosis (una serie de dosis fijas).
  • Esa recta tiene un término independiente (el número de horas que duerme el sujeto con una dosis igual a cero del remedio).

Argumento que para generar los términos independientes usarías algo así como una normal de media igual a 8 horas. Seguro que usarías alguna otra distribución razonable para las pendientes (p.e., que prohibiese que con dosis pequeñas se durmiese, p.e., 80 horas).