Estadística

Modelos directos, inversos y en los que tanto da

Continúo con esto que concluí con una discusión que me negué a resolver sobre la geometría de los errores.

Que es la manera de entender que los problemas directos e inversos no son exactamente el mismo. Digamos que no es una medida invariante frente a reflexiones del plano (que es lo que hacemos realmente al considerar el modelo inverso).

¿Pero y si medimos la distancia (ortogonal) entre los puntos $latex (x,y)$ y la curva $latex y = f(x)$ (o, equivalentemente, $latex x = f^{-1}(x)$)? Entonces daría (o debería dar) lo mismo.

#ardeAsturias, #ardeAvilés? Ah, ¡mierda!

#ardeAsturias

#ardeAvilés?

Ah, ¡mierda!

Notas:

  • Las imágenes están sacadas de aquí. La página es muy entretenida, pero no es exactamente lo que promete, como evidencia esta entrada.
  • Si no has estado nunca en Avilés, igual no entiendes de qué va la cosa. La manera recomendable de solucionar el problema es problema es yendo: vale la pena.

Para esto que me da de comer no vale XGBoost

Los físicos crean modelos teóricos. Los economistas crean modelos teóricos. Los sicólogos crean modelos teóricos. Todo el mundo crea modelos teóricos: epidemiólogos, sismólogos, etc.

Estos modelos teóricos se reducen, una vez limpios de la literatura que los envuelve, a ecuaciones que admiten parámetros (sí, esas letras griegas). Frecuentemente, esos parámetros tienen un significado concreto: son parámetros físicos (con sus unidades, etc.), son interpretables como el grado de influencia de factores sobre los fenómenos de interés, etc. Frecuentemente, casi toda la ciencia de la cosa reside en ellos.

Modelos no lineales directos e inversos

Las malandanzas de Circiter la han conducido al siguiente entuerto: estimar $latex \alpha$ donde

$$ y = f_\alpha(x) + \epsilon$$

y $latex f_\alpha$ es una función no lineal horrible. Sin embargo, $latex f^{-1}_\alpha$ es mucho más manejable y podría plantearse el modelo

$$ x = f^{-1}_\alpha(y) + \epsilon$$

(donde este nuevo $latex \epsilon$ no coincide con el anterior: piénsese en el método delta y léase la nota final).

Un ejemplo. Que arranca con unos datos autoexplicativos:

La estadística (y la ingenería, y la medicina, y...) es una tecnología

Abundo aquí en un punto polémico de mi charla de Pamplona: el que define la estadística como una tecnología (bajo una definición bastante particular de ella).

Pero es conveniente comenzar por el concepto de técnica. Que el DRAE define horripilantemente:

Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.

Y no, no, no… No solo las ciencias o las artes se sirven de técnicas para alcanzar sus fines. También los homeópatas, los curanderos, los chamanes, los echadores de cartas, etc. se sirven de técnicas sin que su actividad pueda calificarse de ciencia (¿o es que se trata de artes?).

Vivir del ruido

  1. Tienes acceso a la serie histórica de hospitalizaciones (p.e. en Madrid) por diversas (muchas) causas.

  2. Tienes acceso a la serie histórica de mediciones de distintos factores ambientales (p.e., en Madrid): ruido, óxidos de nitrógeno, partículas en suspensión,…

  3. Buscas correlaciones (y, por supuesto, las encuentras).

  4. Les asocias p-valore espurios.

  5. Lo escribes en inglés (frecuentemente) y publicas:

    • Effect of Environmental Factors on Low Weight in Non-Premature Births: A Time Series Analysis
    • Effects of noise on telephone calls to the Madrid Regional Medical Emergency Service (SUMMA 112)
    • Short-term association between environmental factors and hospital admissions due to Dementia in Madrid
    • Impacto de la contaminación asociada al tráfico y la temperatura sobre variables adversas al nacimiento en Madrid. Un análisis de series temporales.
    • Short-term association between road traffic noise and demand for health care generated by Parkinson’s disease in Madrid
    • Traffic noise and adverse births outcomes in Madrid
    • Evaluation of short-term mortality attributable to particulate matter pollution in Spain
    • Impact of road traffic noise on cause-specific mortality in Madrid (Spain)
    • Association between environmental factors and emergency hospital admissions due to Alzheimer’s disease in Madrid
    • Saharan dust intrusions in Spain: Health impacts and associated synoptic conditions
    • Emergency multiple sclerosis hospital admissions attributable to chemical and acoustic pollution: Madrid (Spain), 2001-2009

¡Eso es a lo que Lakatos llama un señor programa de investigación científica!

Ajustad vuestras prioris: la mayoría de los "programas sociales" carecen de efectos positivos

Muy frecuentemente, economistas, sociólogos, etc. publican artículos en los que se recoge la evaluación de algún tipo de programa social: políticas activas de empleo, cheques de nosequé, etc. Para ser publicados, como siempre, estos estudios tienen que tener las tres propiedades habituales:

  • No ser obvios.
  • Ser interesantes.
  • No ser manifiestamente falsos (es decir, que de serlo, no se note demasiado, posiblemente, haciendo uso de tahuromaquia estadística).

Esos resultados son datos observacionales que tenemos que componer con una priori para corregir el entusiasmo de los investigadores y ese amor tan cegador que suelen acabar desarrollando por el objeto de sus pesquisas. Pero, ¿cuál usar?

17 no es estadística

Me llama la atención El problema de la mortalidad infantil en Melilla que ningún científico logra resolver. Porque la tasa de mortalidad infantil sea alta (alrededor de 11 por cada 1000 nacimientos). Y porque ningún científico, parece, sea capaz de resolver el misterio.

Igual es porque no han llamado al científico adecuado. Porque con 17 neonatos fallecidos al año, basta con repasar uno a uno los casos y poco más para averiguar por qué. Llevaría, a lo más, media mañana.

Militancia y datos

Allá por el 2007 publicó The Independent una portada en que se retractaba. El diario había sido un histórico defensor de la legalización de la marihuana. Ese día hizo público su cambio de postura. Al parecer, motivada por las evidencias sobre los efectos sobre la salud mental.

Este fin de semana he asistido a una serie de conferencias. En una de ellas participaba el representante de una organización que:

  • Adoptaba de partida una posición militante, de parte, en cierto asunto de interés público.
  • Se definía como data driven, evidence driven, etc.

La pregunta obvia y que no tuve ocasión de plantear (por eso la traigo aquí) es la siguiente: si los datos y la evidencia se obstinaran en subrayar la bondad de la posición contraria a la que actualmente mantienen, ¿cuál de sus dos principios abandonarían primero?

Trucos cutrebayesianos

El contexto

Cada día $latex i$ ocurren eventos de cierta naturaleza (transacciones, fallecimientos, infartos, etc.) que interesa contar.

El problema

El número de eventos $latex n_i$ que ocurren el día $latex i$ no se conoce el día $latex i$ sino que va siendo conocido progresivamente los días $latex i+1, \dots$. Pero hace falta una estimación de $latex n_i$ antes del fin del mundo.

Los datos

  • La distribución de los $latex n_i$ (basados en el histórico).
  • La proporción (probabilidad) $latex p_\Delta$ de eventos del día $latex i$ que se conocen el día $latex i+\Delta$.

La solución prebayesiana