Estadística

"Intervalos" de confianza creativos que excluyen el 0

Es el de b:

(A ver cuál es el primero de mis excolegas que protesta que pinto la unión de dos intervalos de confianza y no un intervalo propiamente dicho).

Ahora un poco más en serio: esta entrada se me ocurrió mientras pensaba en las distintas opciones existentes para crear intervalos de confianza, desde las canónicas (simétricos, de longitud mínima) a cualquier otra elección de algo que contenga la debida cantidad de probabilidad.

¿Cómo está distribuida la renta? No, más bien, cómo son de grandes las provincias

El gráfico

ha estado dando vueltas por el ciberespacio. Lo vi en Twitter de mano de alguien que lo usaba para justificar que la distribución de la renta no es tan desigual en España al fin y al cabo. Está comentado desde el punto de vista de la interpretación y tufneado en términos de la forma

aquí.

Pero lo que no he visto comentar es que las variaciones reflejan más cómo es el tamaño de las provincias (o regiones, estados, o las divisiones administrativas que se haya considerado) en cada uno de los países que si la renta está mejor o peor repartida.

No, no soy hípster; tampoco soy más guay; solo es que tengo más RAM

Trabajo en un ámbito fiel a una tradición metodológica. Que está construida alrededor de una serie de técnicas desarrolladas en los 90, 80, 70 y 60, incluso. Las desarrolló gente muy capaz y talentosa. Bajo coordenadas emic, sin tacha.

Pero desde coordenadas etic, están mandadas a recoger. Han envejecido mal. Porque aquellos beneméritos metodólogos no describieron lo que querían hacer sino lo que podían hacer.

Así que no soy un estadístico hípster, ni me considero más guay que ellos; es solo que tengo más RAM.

Mismo trabajo, nosequé cosa

Hoy han surgido tuits reclamando que a mismo trabajo correspondiesen yo qué sé que cosas estupendas. Razonaré que son peticiones propias de quienes ignoran de qué va el mundo.

Los estadísticos nos encargamos de decir NO razonadamente. Analizamos ocurrencias de otros y decimos: pues mira, NO, lo que crees señal es solo ruido. A eso se reduce (casi, lo admito) todo.

El ruido aparece por todas partes. Habitualmente, como efecto de variables no observadas. Aplicando una definición lata de variable no observada, siempre. Aunque por deslindar, frecuentemente se atribuye ruido imprecisión en la medida de los fenómenos de interés.

Tres de seis consejos para mejorar las regresiones

Por si alguien se lo perdió, están aquí. De los seis, mencionaré tres que me están resultando muy útiles en un proyecto actual.

De todos ellos, el que más a rajatabla sigo es el primero: ajustar muchos modelos. Pudiera parecer trampa: buscar y rebuscar por si sale algo. Sin embargo, es una técnica que plantearse como una manera de familiarizarse y aprender la estructura de los datos. Los modelos (explicativos, como los que justifican esta entrada) no dejan de ser resúmenes de conjuntos de datos y no es sino ajustando diversos modelos que uno aprende si, por ejemplo, un coeficiente varía por año o provincia.

Modelos directos, inversos y en los que tanto da

Continúo con esto que concluí con una discusión que me negué a resolver sobre la geometría de los errores.

Que es la manera de entender que los problemas directos e inversos no son exactamente el mismo. Digamos que no es una medida invariante frente a reflexiones del plano (que es lo que hacemos realmente al considerar el modelo inverso).

¿Pero y si medimos la distancia (ortogonal) entre los puntos $latex (x,y)$ y la curva $latex y = f(x)$ (o, equivalentemente, $latex x = f^{-1}(x)$)? Entonces daría (o debería dar) lo mismo.

#ardeAsturias, #ardeAvilés? Ah, ¡mierda!

#ardeAsturias

#ardeAvilés?

Ah, ¡mierda!

Notas:

  • Las imágenes están sacadas de aquí. La página es muy entretenida, pero no es exactamente lo que promete, como evidencia esta entrada.
  • Si no has estado nunca en Avilés, igual no entiendes de qué va la cosa. La manera recomendable de solucionar el problema es problema es yendo: vale la pena.

Para esto que me da de comer no vale XGBoost

Los físicos crean modelos teóricos. Los economistas crean modelos teóricos. Los sicólogos crean modelos teóricos. Todo el mundo crea modelos teóricos: epidemiólogos, sismólogos, etc.

Estos modelos teóricos se reducen, una vez limpios de la literatura que los envuelve, a ecuaciones que admiten parámetros (sí, esas letras griegas). Frecuentemente, esos parámetros tienen un significado concreto: son parámetros físicos (con sus unidades, etc.), son interpretables como el grado de influencia de factores sobre los fenómenos de interés, etc. Frecuentemente, casi toda la ciencia de la cosa reside en ellos.

Modelos no lineales directos e inversos

Las malandanzas de Circiter la han conducido al siguiente entuerto: estimar $latex \alpha$ donde

$$ y = f_\alpha(x) + \epsilon$$

y $latex f_\alpha$ es una función no lineal horrible. Sin embargo, $latex f^{-1}_\alpha$ es mucho más manejable y podría plantearse el modelo

$$ x = f^{-1}_\alpha(y) + \epsilon$$

(donde este nuevo $latex \epsilon$ no coincide con el anterior: piénsese en el método delta y léase la nota final).

Un ejemplo. Que arranca con unos datos autoexplicativos:

La estadística (y la ingenería, y la medicina, y...) es una tecnología

Abundo aquí en un punto polémico de mi charla de Pamplona: el que define la estadística como una tecnología (bajo una definición bastante particular de ella).

Pero es conveniente comenzar por el concepto de técnica. Que el DRAE define horripilantemente:

Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.

Y no, no, no… No solo las ciencias o las artes se sirven de técnicas para alcanzar sus fines. También los homeópatas, los curanderos, los chamanes, los echadores de cartas, etc. se sirven de técnicas sin que su actividad pueda calificarse de ciencia (¿o es que se trata de artes?).

Vivir del ruido

  1. Tienes acceso a la serie histórica de hospitalizaciones (p.e. en Madrid) por diversas (muchas) causas.

  2. Tienes acceso a la serie histórica de mediciones de distintos factores ambientales (p.e., en Madrid): ruido, óxidos de nitrógeno, partículas en suspensión,…

  3. Buscas correlaciones (y, por supuesto, las encuentras).

  4. Les asocias p-valore espurios.

  5. Lo escribes en inglés (frecuentemente) y publicas:

    • Effect of Environmental Factors on Low Weight in Non-Premature Births: A Time Series Analysis
    • Effects of noise on telephone calls to the Madrid Regional Medical Emergency Service (SUMMA 112)
    • Short-term association between environmental factors and hospital admissions due to Dementia in Madrid
    • Impacto de la contaminación asociada al tráfico y la temperatura sobre variables adversas al nacimiento en Madrid. Un análisis de series temporales.
    • Short-term association between road traffic noise and demand for health care generated by Parkinson’s disease in Madrid
    • Traffic noise and adverse births outcomes in Madrid
    • Evaluation of short-term mortality attributable to particulate matter pollution in Spain
    • Impact of road traffic noise on cause-specific mortality in Madrid (Spain)
    • Association between environmental factors and emergency hospital admissions due to Alzheimer’s disease in Madrid
    • Saharan dust intrusions in Spain: Health impacts and associated synoptic conditions
    • Emergency multiple sclerosis hospital admissions attributable to chemical and acoustic pollution: Madrid (Spain), 2001-2009

¡Eso es a lo que Lakatos llama un señor programa de investigación científica!

Ajustad vuestras prioris: la mayoría de los "programas sociales" carecen de efectos positivos

Muy frecuentemente, economistas, sociólogos, etc. publican artículos en los que se recoge la evaluación de algún tipo de programa social: políticas activas de empleo, cheques de nosequé, etc. Para ser publicados, como siempre, estos estudios tienen que tener las tres propiedades habituales:

  • No ser obvios.
  • Ser interesantes.
  • No ser manifiestamente falsos (es decir, que de serlo, no se note demasiado, posiblemente, haciendo uso de tahuromaquia estadística).

Esos resultados son datos observacionales que tenemos que componer con una priori para corregir el entusiasmo de los investigadores y ese amor tan cegador que suelen acabar desarrollando por el objeto de sus pesquisas. Pero, ¿cuál usar?