¿A que les ha jugado una mala pasada el Excel?

Se ha dado por cabal en muchos medios lo que espero que no llegue a más que a un borrador. Ha sido publicado por el Banco de España y contiene párrafos como

En cambio, la menor cualificación, por término medio, de los trabajos desempeñados por los jóvenes licenciados españoles sugiere que su nivel de desempleo comparativamente mayor que el de sus homólogos del área del euro podría obedecer, entre otros factores, a una menor calidad de la educación superior.

Sobre los orígenes de la falacia ecológica

Dice la Wikipedia que la primera denuncia de luego conocida como la falacia ecológica hay que buscarlos en Ecological Correlations and the Behavior of Individuals de un tal W. S. Robinson. Cuenta, entre otros ejemplos, cómo existía una correlación positiva entre ser inmigrante y ser analfabeto (según el censo de 1930 de EE.UU.), evidenciada por la tabla

en tanto que si se examinan los mismos datos por divisiones (ciertas agrupaciones de estados que, se conoce, eran más habituales hace tiempo que ahora), se obtiene una representación de la forma

Distancias (V): el colofón irónico-especulativo

Remato la serie sobre distancias con una entrega especulativa. Según se la mire, o bien nunca se ha hecho esa cosa o bien nunca ha dejado de hacerse.

El problema es que ninguna de las propuestas desgranadas por ahí, incluidas las de mis serie, responde eficazmente la gran pregunta:

¿Son más próximos un individuo y una individua de 33 años o una individua de 33 y otra de 45?

La respuesta es contextual, por supuesto, y en muchos de esos contextos habría que tener en cuenta las interacciones entre variables, que es a lo que apunta la pregunta anterior.

Distancias (IV): la solución rápida y sucia

Prometí (d)escribir una solución rápida y sucia para la construcción de distancias cuando fallan las prêt à porter (euclídeas, Gower, etc.).

Está basada en la muy socorrida y casi siempre falsa hipótesis de independencia entre las distintas variables $latex x_1, \dots, x_n$ y tiene la forma

$$ d(x_a, x_b) = \sum_i \alpha_i d_i(x_{ia}, x_{ib})$$

donde los valores $latex \alpha_i$ son unos pesos que me invento (¡eh!, Euclides también se inventó que $latex \alpha_i = 1$ y nadie le frunció el ceño tanto como a mí tú ahora) tratando de que ponderen la importancia relativa que tiene la variable $latex i$ en el fenómeno que me interesa.

La "cocina", para anumeristas y conspiranoicos

El otro día —no importa dónde— presencié los denodados y desencaminados esfuerzos de alguien —tampoco importa quién— por explicar primero y convencer después de los beneficios de la llamada cocina de las encuestas electorales. Constantado la inoperancia de los argumentos técnicos, estuve pensando un buen rato en buscar símiles cotidianos. Di con este, que es el que comparto por referencia para mí y puede que para otros.

Tienes ese amigo que dizque va a llegar en 30 minutos y lo hace al cabo de una hora. Cuando dice 15 minutos, tarda 30. Convierte los 10 en 20. Etc. Por un lado están las cifras declaradas (30, 15, 10,…) y, por otro, las observadas (60, 30, 20,…). No hace falta ser muy lince para

¿Qué números admiten la distribución de Benford?

[Esta entrada es casi una caracterización de lo que promete el título. Quitarle el casi sería prolijo. Pero creo que casi, casi, se adivina de lo que sigue.]

Siempre que hablamos de distribuciones de probabilidad, somos muy conscientes de los requisitos y condiciones bajo las que aplican. Con una excepción: al hablar del manido Benford. En tales casos se suele argumentar de una manera un tanto mística. Y doblemente mística, como consecuencia, cuando toca explicar por qué en ciertos datos concretos no aplica.

Inferencia causal: entrevista a Pearl (el 2020-11-17, es decir, mañana)

No suelo hacer anuncios de eventos de terceros, pero este puede ser del interés de muchos dado, en particular, el creciente interés por las cuestiones causales. Se trata de una entrevista a Judea Pearl que tendrá lugar el día 2020-11-17 (mañana, a la hora de escribir esto) y que se retransmitirá vía Zoom.

Los detalles para los interesados, aquí.

Addenda: La entrevista ha sido publicada en

De A/B a DiD

Un test A/B consiste en (o aspira a) estimar (y tal vez promediar) las diferencias

predict(modelo_t, x) - predict(modelo_c, x)

donde modelo_t y modelo_c son modelos construidos en grupos tratados y no tratados de cierta manera.

Entra el tiempo.

Ahora ya no se trata de medir esas diferencias sino las diferencias entre los incrementos antes y después. Que se hace construyendo cuatro modelos para con ellos obtener

(predict(modelo_td, x) - predict(modelo_ta, x)) -

Codificación de categóricas: de (1 | A) a (B | A)

La notación y la justificación de (1 | A) está aquí, una vieja entrada que no estoy seguro de que no tenga que retocar para que no me gruña el ministerio de la verdad.

Esta entrada lo es solo para anunciar que en uno de nuestros proyectos y a resultas de una idea de Luz Frías, vamos a implementar una versión mucho más parecida al lo que podría representar el término (B | A), que es, casi seguro, chorrocientasmil veces mejor.

No es tanto sobre la media como sobre la maldición de la multidimensionalidad

El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad.

Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta:

Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.

Distancias (III): la gran pregunta

Dejemos atrás los puntos en el plano. Olvidemos al Sr. Gower. La gran pregunta a la que uno se enfrenta al construir una distancia es en términos de qué se espera proximidad entre sujetos. Y eso genera una cadena de subpreguntas del tipo:

¿Son más próximos un individuo y una individua de 33 años o una individua de 33 y otra de 45?

Las dos entradas restantes de la serie (una sucia, rápida y práctica; la otra más especulativa) van sobre opciones disponibles para atacar (nótese que digo atacar y no resolver) el problema.

Canales (o estéticas), de mejor a peor, según Healy

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después.

Una muestra del libro:

Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad.

[Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.]

PIB trimestral: una alternativa gráfica a la representación tradicional para los tiempos del coronavirus

Gráficas que muestran la velocidad a la que varía el PIB como

han sido habituales para representar la evolución de la economía. En particular, porque antes de los espasmos de los últimos trimestres eran más o menos fáciles de intepretar. Pero ahora ya no.

La velocidad es una medida útil en tanto que varía de manera más o menos suave. En momentos de botes y rebotes, es mejor saber dónde se está que a la velocidad a la que uno no sabe si sube o baja. Por eso es más ilustrativo