Estadística

Estadística, ciencia de datos y la revalorización del no

Ya están disponibles las diapositivas de mi charla del lunes. En los próximos días iré desarrollando algunas de las ideas, prometo que para nada estándares, que recorre en estas páginas. Les pondré un par de rombos en la esquina para avisar de que pueden resultar (lo comprobé el lunes aunque no entiendo por qué) ofensivas para personas de cierto perfil.

Ajustad vuestras prioris: la mayoría de los "programas sociales" carecen de efectos positivos

Muy frecuentemente, economistas, sociólogos, etc. publican artículos en los que se recoge la evaluación de algún tipo de programa social: políticas activas de empleo, cheques de nosequé, etc. Para ser publicados, como siempre, estos estudios tienen que tener las tres propiedades habituales: No ser obvios. Ser interesantes. No ser manifiestamente falsos (es decir, que de serlo, no se note demasiado, posiblemente, haciendo uso de tahuromaquia estadística). Esos resultados son datos observacionales que tenemos que componer con una priori para corregir el entusiasmo de los investigadores y ese amor tan cegador que suelen acabar desarrollando por el objeto de sus pesquisas. Pero, ¿cuál usar? ...

No lo busquéis porque no existe

Pero en Bélgica sí y es este. ¿A que es chulo? Nota: Está hecho con dc.js.

17 no es estadística

Me llama la atención El problema de la mortalidad infantil en Melilla que ningún científico logra resolver. Porque la tasa de mortalidad infantil sea alta (alrededor de 11 por cada 1000 nacimientos). Y porque ningún científico, parece, sea capaz de resolver el misterio. Igual es porque no han llamado al científico adecuado. Porque con 17 neonatos fallecidos al año, basta con repasar uno a uno los casos y poco más para averiguar por qué. Llevaría, a lo más, media mañana.

Militancia y datos

Allá por el 2007 publicó The Independent una portada en que se retractaba. El diario había sido un histórico defensor de la legalización de la marihuana. Ese día hizo público su cambio de postura. Al parecer, motivada por las evidencias sobre los efectos sobre la salud mental. Este fin de semana he asistido a una serie de conferencias. En una de ellas participaba el representante de una organización que: Adoptaba de partida una posición militante, de parte, en cierto asunto de interés público. Se definía como data driven, evidence driven, etc. La pregunta obvia y que no tuve ocasión de plantear (por eso la traigo aquí) es la siguiente: si los datos y la evidencia se obstinaran en subrayar la bondad de la posición contraria a la que actualmente mantienen, ¿cuál de sus dos principios abandonarían primero? ...

Triste vida

Recorrer multitud de senderos que se bifurcan. Maximizar la correlación. Alegar causalidad. Facturar. Iterar.

Trucos cutrebayesianos

El contexto Cada día $i$ ocurren eventos de cierta naturaleza (transacciones, fallecimientos, infartos, etc.) que interesa contar. El problema El número de eventos $n_i$ que ocurren el día $i$ no se conoce el día $i$ sino que va siendo conocido progresivamente los días $i+1, \dots$. Pero hace falta una estimación de $n_i$ antes del fin del mundo. Los datos La distribución de los $n_i$ (basados en el histórico). La proporción (probabilidad) $p_\Delta$ de eventos del día $i$ que se conocen el día $i+\Delta$. La solución prebayesiana ...

Pues los SVMs, al final, no son tan exóticos

Impartí un curso sobre máquinas de vector soporte (SVMs en lo que sigue) en Lima el pasado mes de agosto. Las SVMs (o más propiamente, los clasificadores de margen máximo) son exóticos dentro del repertorio del científico de datos. Lo que buscan es un hiperplano que maximiza el margen entre tirios o troyanos, con o sin penalización para los puntos que insisten en permanecer en la región del espacio que no les corresponde. El modelo se ajusta resolviendo un problema de minimización inhabitual: uno de los llamados programas cuadráticos convexos. (Del que no nos tenemos que preocupar habitualmente porque delegamos la resolución en el software). ...

Predecir a los predictores por incordiar

Sirve esta entrada para hacer saber lo fundamental del trabajo de fin de master (TFM en lo que sigue) de Susana Huedo (que busca trabajo y es una chica muy sabida, aplicada y espabilada) en el CIFF. Los TFM que propongo y acabo supervisando jamás tienen vocación de criogénesis anaquélica. A Susana le sugerí un tema muy punk y con recorrido: [tratar de] predecir a los predictores. Fundamentalmente, para joder. Los chefs de encuestas electorales tienen dos discursos —uno previo y otro posterior a la publicación de los resultados—, una serie de recetas y datos que solo excepcionalmente publican. Dirán que se ciñen a una metodología científica, etc. Literatura. ...

Gelmaneando

Hoy, gelmaneo así: bar <- function(n, reps = 1e4){ foo <- function(n){ x <- rnorm(n) tmp <- t.test(x) c(tmp$p.value, abs(mean(x))) } res <- replicate(reps, foo(n)) tmp <- t(res) tmp <- tmp[tmp[,1] < 0.05,] tmp[,2] } res <- lapply(c(3, 10, 20, 50, 100), bar) sapply(res, mean) #[1] 0.8662636 0.6583157 0.4934551 0.3240322 0.2337086 Resumo: Fabrico un montón de errores de tipo I. Recuérdese: error de tipo I implica artículo publicado. Hago variar el número de sujetos (3, 10, etc.), n. Mido el tamaño (promedio) del efecto, E; el estudio de su distribución, ejercicio para el lector. Y efectivamente, E es función decreciente de n. ...