Explicación de los scorings de "ciertos" modelos

Esta entrada la hago por petición popular y para rematar de alguna manera lo que incoé hace unos días. Seré breve hasta lo telegráfico:

  1. Tomo las observaciones con scorings más altos (en un árbol construido con ranger y cariño).
  2. Veo cuáles son los árboles que les asignan scorings más altos.
  3. Anoto las variables implicadas en las ramas por donde bajan las observaciones (1) en los árboles (2).
  4. Creo una matriz positiva: filas = casos, columnas = variables, valores = conteos.
  5. Y la descompongo (vía NMF). 6. Etc.

Es hasta paquetizable.

IGN + R + leaflet

Iba a escribir una entrada técnica al respecto, pero resulta que ya la había hecho hace un tiempo y no me acordaba.

Solo quiero abundar en el tema para recordaros que si os interesa mostrar mapas de España vía leaflet, en lugar de usar las capas por defecto, que vaya a saber uno de dónde las sacan, uno siempre puede tirar de la cartografía oficial.

Uno de los motivos puede ser que el mapa forme parte de una aplicación seria. Y las (o ciertas) capas por defecto de leaflet muestran hasta los puticlús,

Explicación de modelos como procedimiento para aportar valor a un "scoring"

El principal asunto preambular en todo lo que tiene que ver con la explicación de modelos es ético (ético en la versión ñoña de la palabra, hay que dejar claro). Pero tiene sentido utilizar técnicas de explicación de modelos para aportarles valor añadido. En particular, un modelo puede proporcionar un determinado scoring, pero se le puede pedir más: se le puede pedir una descripción de los motivos que justifican ese scoring, particularísimanete, en los casos más interesantes: los valores más altos / bajos.

Usa uno u otro mapa, según tus intereses

El primero, El mapa de la renta de los españoles, calle a calle. Puedes ver en él (haciendo un poco de zum) cosas como que la renta per cápita de la zona más fina de Alcobendas, La Moraleja, dizque es de poco más de 29 k€.

El segundo, Matadepera y Pozuelo de Alarcón, los municipios más ricos de España. Encuentre la renta media de su localidad, donde uno aprende cosas como que la renta per cápita media de Alcobendas (promediando las zonas pobres con las ricas mencionadas más arriba) es de 45 k€.

El modelo de Poisson es razonablemente robusto (pero atención a lo de "razonablemente")

Una de las consencuencias del coronavirus es que vamos a tener que replantearnos lo que significa ajustar series temporales. Es decir, comenzar a ajustar series temporales y no repetir la consabida teoría que subyace a los modelos ARIMA simplemente porque es guay.

También tendremos que replantearnos qué hacer con los outliers que la pandemia va dejando tras de sí. Y tratar de hacerlo más elegantemente que cierta gente, por supuesto. En particular, habrá que ver cuál y cómo es el efecto de los outliers en determinados modelos. En particular, en esos en los que yo más trabajo últimamente, que son los de Poisson.

Neyman y la definición original de los intervalos de confianza

Se atribuye a Neyman (y particular por su artículo de 1935 On the Problem of Confidence Intervals) la paternidad del concepto de intervalo de confianza. Aunque, leyéndolo y de acuerdo con las referencias bibliográficas de la cosa parece haber precedentes en el innombrable F (sí, el que osaba publicar en el también innombrable Journal of E.).

Lo interesante del tema es que, contrariamente a las reinterpretaciones posteriores, los define tal y como se le ocurrirían a un lego medianamente inteligente:

Una potencial consecuencia positiva de lo del coronavirus

Veo

y consulto en uno (de los más usados y famosos) de esos manuales españoles (ergo, hiperclásicos) de introducción a la modelización de series temporales y no veo capítulo con el que pueda tratarse razonablemente.

¡Tiempo de actualizarse (p.e., así)!

Socialismo y fascismo en Italia: una reflexión sobre la causalidad y las microcausas

[Una entrada más bien especulativa acerca de esbozos de ideas ocurridas durante un paseo vespertino por Madrid y que apunto aquí por no tener una servilleta a mano.]

El artítulo War, Socialism and the Rise of Fascism: An Empirical Exploration me ha hecho volver a reflexionar sobre el asunto de la causalidad (al que, además, debo un apartado en siempre inacabado libro de estadística para los mal llamados científicos de datos).