Estadística

Mi búsqueda de ejemplos de aplicaciones con prioris informativas me ha conducido a Physiological pharmacokinetic analysis using population modeling and informative prior distributions, un artículo en el que se plantea un modelo jerárquico con dos tipos de distribuciones a priori:

Distribuciones muy informativas. Por ejemplo, el parámetro que representa la proporción del peso del hígado en un adulto, alrededor del 3.3% en promedio, que se modela con una distribución centrada en ese valor y una desviación estándar baja.

La estadística bayesiana se enseña en cursos de estadística (y, frecuentemente, envuelto en un aparataje matemático tan ofuscante como innecesario). Lo malo es que en los cursos y textos de estadística no existe información previa. La información previa sobre los fenómenos en los que se utilizaría la estadística bayesiana están en las aplicaciones, extramuros del muy agnóstico mundo de la estadística y la matemática.

Por eso, a los autores de los libros de estadística bayesiana y quienes enseñan cursos sobre lo mismo, enfrentados al problema de llenar de sentido la problemática distribución a priori, no se les ocurre nada mejor que discutir muy sesudamente la excepción (la priori no informativa) en lugar de la regla (la priori informativa). Reto al lector escéptico a que repase cualquier manual en la materia (que no haya sido escrito por Gelman) y compare el espacio que dedican a la selección de prioris no informativas con el de convenir una priori informativa decente.

La pregunta, a propósito, es esta.

La búsqueda de la causa más probable de un efecto tiene un nombre: razonamiento abductivo. Que el visitante al enlace anterior aprenderá distinto del deductivo y el inductivo.

Y que los viejos de estas páginas reconocerán en esta entrada que la formaliza y cuantifica en un caso concreto.

Sabemos y se sabe desde hace mucho que un sistema lineal de n ecuaciones con m incógnitas, cuando n > m (y especialmente cuando n » m), muy probablemente no tenga solución. No obstante, sistemas así ocurren naturalmente: ahí está el modelo lineal.

En tiempos, al cálculo de los mejores coeficientes para ajustar un conjunto de datos, cuando el número de observaciones excedía el de coeficientes se lo llamó combinación de observaciones. Desde muy pronto se observó que más observaciones conducían a mejores estimaciones. Pero se tardó mucho en establecer cómo.

Aparentemente, porque así lo establece el protocolo de actuación, del ayuntamiento de la villa. Lo resume la imagen

que bajé de Twitter y que me llamó la atención sobremanera. Algún gobierno municipal decidió en su día que estaba fuera de lugar tanto prevenir como estimar.

Me preocupa que dicho gobierno municipal estuviese reñido con el refranero en lo concerniente a la prevención. Pero no es el asunto, entiendo, por el que mis lectores me visitan.

Esta entrada es la continuación de otra casi homónima, El curioso caso de los suicidios en Madrid. Los datos de aquella ocasión eran dos cosas: raros y provinciales. Los de esta son otras dos: mucho más raros y muncipales. En efecto,

¡Ni jarto de vino!

Y, ahora, las notas:

Los datos de causa de muerte a nivel municipal no son públicos pero se pueden solicitar al INE. De hecho, es el INE la fuente primaria de los datos del gráfico.
La secundaria es un documental de EL Español sobre los suicidios. Mañana comentaré por qué aparezco en sus agradecimientos, aunque tal vez alguien lo pueda adivinar hoy.

La estadística cualitativa es una disciplina que, creo, no existe. Igual, simplemente, no existe porque no tiene razón de ser. No he buscado aún sistemáticamente, pero mi memoria no da con algo que se le parezca.

No es Statistics for Dummies: en la misma portada del libro dice que te quiere enseñar los cálculos y fórmulas esenciales. Como diré más abajo, no van por ahí los tiros.

Tampoco es la estadística descriptiva, que es lo menos estadístico que existe. Al menos, la que yo he visto, que tiende a ignorar, entre otras cosas, la variabilidad. La estadística descriptiva (insisto, la que yo conozco, como yo la he visto) es una rama de la aritmética, no de la estadística.

La primera es la factorización positiva de matrices positivas. La otra, como bien titula la entrada, los procesos de Poisson autoexcitados.

Por eso no podía dejar de traer a la atención de mis lectores seismic. Aunque lo de Twitter ya huela.

Traigo hoy dos artículos interesantes sobre un mismo tema: la ciencia de datos reescribiendo de manera interesada resultados estadísticos más o menos conocidos, presentando como nuevos los que no lo son del todo y omitiendo interesadamente referecias bibliográficas.

Son este y este (aunque el segundo trata de más temas).

Es muy interesante el concepto de plagio inteligente en oposición al de plagio literal que denuncia el primer enlace.

Estadística

Prioris muy informativas y vagamente informativas: un ejemplo

Las prioris no informativas están manifiestamente sobrevaloradas

La respuesta es: "Yo no"

La búsqueda de la causa más probable de un efecto

La combinación de observaciones y el método de mínimos cuadrados: una revisión histórica

Contaminación y restricciones de tráfico en Madrid: ¿por qué no se puede ni prevenir ni "estimar"?

El curioso caso de los suicidios en la villa de Madrid

¿Estadística cualitativa?

Mi otra debilidad: procesos de Poisson "autoexcitados"

Reescrituras interesadas (de resultados estadísticos más o menos conocidos)