Estadística

Inferencia fiduciaria: una ocurrencia, afortunadamente, muerta

Hay ocurrencias la mar de extravagantes que sobreviven el paso del tiempo (p.e., la homeopatía o el marxismo). Otras mueren. Como requetemuertas que están, no somos conscientes de que alguna vez existieron.

Una de ellas es la inferencia fiduciaria, un inventillo del mismo Fisher que no lo convenció enteramente ni a él mismo. La Wikipedia lo cita escribiendo que lo tenía not clear in the head (¡ah!, la misma sensación que tuve yo al enfrentarme a los p-valores, a la estadística bajo la perspectiva econométrica (OLS por doquier, etc.) y a algunas cosas más de las que me redimió el reverendo).

Interacciones "mecánicas" en regresiones logísticas

En general, dos variables interaccionan cuando el efecto de una cambia al modificarse el nivel de la otra. Un caso particular (aunque notable) de interacción es el habitual en los modelos lineales, generalizados o no. En ellos, al introducir en el modelo términos del tipo x1 * x2, estamos indicando que el coeficiente de la segunda variable, $latex x_2$, es $latex \alpha + \beta x_1$. El efecto de un incremento de una unidad de $latex x_2$ depende entonces de $latex x_1$.

Mortalidad y tramos de edad gordotes

Cuando se estudia la mortalidad, hay que tener cuidado con los tramos de edad considerados. Véase, por ejemplo, esto, que se resume en un “tenemos que ajustar el incremento de la edad media en la categoría de las personas en el rango de edad comprendido entre los 45 y los 54 años [para evitar meter la pata mucho]”.

Sí, incluso trabajando con rangos de edad tan estrechos, hay problemas de heterogeneidad que pueden dar lugar a resultados espurios.

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales.

mgm (no la de las pelis sino la de los modelos gráficos)

Cayeron en mis manos unos datos que no puedo publicar, pero me atreveré a presentar algunos resultados anonimizados. Se trata de una tabla de puntuaciones numéricas (18 en total, cada una en su columna) proporcionadas por unos cuantos centenares de sujetos (filas). Era de interés un estudio cualitativo de las posibles relaciones de dependencia entre las variables.

La manera más rápida de comenzar, un heatmap(cor(dat)), para obtener

Y luego PCA y todas esas cosas.

Insospechadas aplicaciones de la estadística en arqueología

Se ve que hace 4000 años existió una incipiente actividad comercial entre protociudades situadas en las actuales Turquía, Siria e Irak:

Se han descubierto tablillas tales como

(que es el primer bono del que se tiene constancia) en las que se lee que alguien llevó tanta plata de la ciudad X a la Y, etc.

Los autores Trade, Merchants and Lost Cities of the Bronze Age, usando una muestra de unas 5000 tablillas, modelaron este tráfico usando un modelo de gravedad, es decir,

¿Quitar variables no significativas?

Contexto: modelos de regresión con de varias a muchas variables. Muy particularmente cuando interesa la predicción.

Pseudoproblema: ¿quitamos las variables no significativas?

Los manualitos (muy queridos de enseñantes, porque les dan reglas sencillitas; muy queridos también de los aprendientes, por el mismo motivo) rezan que sí. Se quitan y a otra cosa.

La regla adulta es:

  • Si el coeficiente es grande y tiene el signo correcto, ¡enhorabuena!
  • Si el coeficiente es pequeño, la variable no hace ni bien ni mal. Y hay más motivos para dejarla que para quitarla.
  • Pero si el coeficiente es grande y el signo es contrario a lo que cabría esperar (p.e., a más gripe menos fallecidos, a más capacidad económica menos compra media, etc.), ¡ah!, toca volver a replantear el modelo seriamente.

Nota: en lo anterior no he usado la palabra significativo. Si alguien quiere traducir grande y pequeño en términos de la ocurrencia de hace ochenta años de un inglés que sostenía que el tabaco era sano, allá él.

Lecturas recomendadas: sobre la anonimización de currículos y su impacto en la "diversidad"

Recomiendo la lectura de Going blind to see more clearly: unconscious bias in Australian Public Service shortlisting processes por varios motivos.

El primero, porque es el producto de un equipo de trabajo de una naturaleza inaudita en nuestras latitudes: el grupo de trabajo de economía conductual del gobierno australiano. Seguro que hacen cosas muy interesantes.

Segundo, porque es un ejemplo estupendo de cómo se describe un experimento estadístico: planteamiento, resultados, etc. están descritos sin que sobre ni falte una coma y en un lenguaje llano, preciso y accesible.

¿Lo publico y nos echamos unas risas todos?

Estos días, haciendo limpieza de cajones, estanterías y directorios, he dado con un documentito que se me quedó accidentalmente pegado al disco duro hace muchos, muchos años.

Es la documentación metodológica y técnica, firmada por una consultora de postín, de los algoritmos de cálculo de la probabilidad de impago en una de esas entidades financieras que quebraron en su día con enorme estrépito (y perjuicio para el erario público, sea dicho de paso).

Mortalidad en carretera (contada de una manera distinta)

Con motivo de fin de año se ha hablado de fallecidos en accidentes de tráfico como por ejemplo en El Mundo o en El País. Y sí, parece que el número observado de muertos ha aumentado.

Lo cual es mucho menos relevante de lo que se da a entender. Si tiras una moneda al aire 100 veces y sacas 48 caras y luego repites el experimento, podrías sacar 53 (y habría aumentado el número observado de caras) o 45 (y habría disminuido). Lo relevante es si ha cambiado o no la probabilidad de cara de la moneda. De lo cual, y volviendo al caso de la siniestralidad, ya me ocupé en su día.