Números

Unas preguntas incómodas

Que la mujer promedio gana menos que el hombre promedio es un hecho conocido. A los usuarios de R que estén al tanto de mi paquete MicroDatosEs no hace falta siquiera que se lo cuenten: pueden bajar los datos de la Encuesta de Estructura Salarial del INE y hacer el cálculo por sí mismos.

Que las mujeres ganen menos en promedio aun teniendo en cuenta las variables recogidas en dicha encuesta (nivel de formación, antigüedad en el puesto de trabajo, etc.) es también un hecho. Los usuarios de R también pueden crear un modelo descriptivo: el fenómeno se manifiesta claramente. O pueden (sepan o no R) leer cualquiera de los informes publicados al respecto para llegar a la misma conclusión.

Varianzas y variaciones de netos

Muchas cifras de interés son netos de dos magnitudes. Por ejemplo el déficit/superávit comercial, que es la diferencia entre exportaciones e importaciones; o los beneficios/pérdidas de una empresa, diferencia de ingresos y gastos.

Por un lado, las magnitudes subyacentes pueden estar sujetas a error estadístico. Incluso aunque el coeficiente de variación sea minúsculo para cada una de ellas por separado (p.e., del orden del 1%), pudiera ser que el error correspondiente a la diferencia (¡las varianzas se suman!) hiciesen del neto un valor no significativamente distinto de cero en muchas ocasiones.

Sí, señor ministro... y encuestas

Cayó en mis manos

ss_netconfusion

que son los resultados de una encuesta en la que la misma pregunta (en puridad, una pregunta sobre una cuestión global y otra sobre un asunto particular de la anterior) reciben respuestas manifiestamente contrarias y contradictorias por parte de una muestra del ostentador de la soberanía.

Lo cual me recordó que hacía tiempo había dado con https://www.youtube.com/watch?v=G0ZZJXw4MTA extraído de Yes, Minister y que en inglés no subtitulado ilustra muy amenamente los efectos que sobre el público tiene la manera en que se plantean las cuestiones.

Gráficos e interactividad: una ocasión desaprovechada

Cuando los gráficos son estáticos, los compromisos mandan. ¿Mostramos las diferencias relativas? ¿O las magnitudes absolutas? Ocurre casi indefectiblemente que cuando uno opta por una opción siempre alguien en la audiencia levanta el dedo y sugiere la alternativa. ¿Mostramos ambas a la vez? Entonces abusamos de la usualmente limitada superficie construible de nuestro informe y, además, violentamos ese principio de que lo bué, si bré, dos ve bué.

La interactividad en los gráficos permite superponer vistas diversas de unos datos en un recinto acotado. Pagamos un peaje: tenemos que descubrir nosotros mismos la que más nos interesa y navegar hasta ella. Pero, por lo general, compensa.

Como no tengo tiempo, voy a publicar una chorrada (y una coda)

Como no tengo tiempo, voy a publicar una chorrada. Voy a coger unos datos que encuentre por ahí, voy a tomar alguna variable, voy a pintarla (en un mapa, si puede ser) y luego voy a construir una narrativa. Espero que no os deis cuenta y me lo creáis todo.

Comienzo.

Los datos del World Values Survey (aquí podéis obtenerlos) son importantes y guays. De todas las variables que contiene, voy a extraer una, la variable importante (VMI).

Boceto de entrada sobre bits y referéndums

El tema tenía que salir por ser español —y todos sabemos que es recurrente allá— y pasar muchos días al mes en Suiza, país en el que se piensa cuando se habla de referéndums. Más que salir —corrijo— me lo sacan tanto aquí como allá. Así que escribo sobre él. Pero en lugar de una entrada bien articulada, para la que no tengo tiempo, voy a limitarme a esbozar una serie de argumentos, los que, cuando llega el caso y tengo ocasión, pongo sobre la mesa.

Proyecciones, estimaciones, previsiones, operaciones... y churros

¿Os acordáis de lo de las proyecciones de población a largo plazo del INE? Atentos a lo que dice el instituto sobre ellas aquí (en la sección de acuracidad):

La elaboración de esta operación no está basada en una estimación estocástica de la evolución demográfica futura. En rigor, sus resultados no deben considerarse como una estimación del futuro, ni siquiera como una previsión. No cabe, por tanto, hablar de precisión o acuracidad de los mismos.

Dislexia probabilística

Esta entrada trata de cuadrados. Tales como estos

cuadros_separados

Son dos cuadrados de area 10 y 2.

En realidad, mi entrada trata de una configuración de cuadrados solo marginalmente más complicada, esta:

cuadros_solapados

Todo el mundo podría decir (y es cierto) que el área de la intersección de los cuadrados es el 3.3% de la del mayor y el 16.5% de la del menor. Son dos afirmaciones ambas ciertas y, por supuesto, compatibles.

¿Y si no se mantuvieran?

Comienzo mi entrada de hoy con una foto de Madrid en la nochevieja de 1964.

almacenes-arias_anos-601

Esta es otra de los hinchas del equipo nacional el mismo año en los prolegómenos de la final de la Eurocopa del mismo año, que le ganamos a la Unión Soviética.

espana_urss

Aquí encontrarán mis lectores otras escenas de lo que era costumbre en aquellas fechas de hace cincuenta años.

Y no, no quiero reconvertir mi bitácora en otras Escenas Matritenses. Solo quiero advertir que tal vez alguno de los que aparecen en esas fotos trabajaban en el INE de antaño y recibió uno de esos días que se retratan el encargo de predecir la evolución de la población española hasta la actualidad. A ese señor, sin barruntar siquiera el Franco ha muerto; el se sienten, coño; el a este país no lo va a conocer ni la madre que lo parió; el nosotras parimos, nosotras decidimos; el váyase Sr. González; el España va bien; ni, vamos, la famélica legión del Gurugú, le habría tocado armarse de escuadra y cartabón y proyectar rectas de tinta china con tiralíneas hasta el mismo día de hoy para contarnos algo que sabemos mucho mejor que él: cuántos españolitos somos ahora.

Amanece, me cuentan, que no es poco

El amanecer es una cosa que ocurre a diario, me cuentan, pero que yo apenas he visto. Casi hablo de lo que no sé. Por otra parte, la discusión de los horarios, de si deberíamos tener la hora de Londres y no la de Berlín, me parece puro nominalismo. Unos llaman a la hora a la que se levantan sechs, otros seven, otros huit y yo diez y veinte. Y no pasa nada.

Va sobre el número de palabras

Trataré de usar pocas hoy. El otro día vi

fomc

aquí. Me recordó que uno de mis proyectos abandonados sine die es el de estimar la rentabilidad real de productos financieros en función del número de palabras en sus correspondientes folletos.

Nota: curioso el gráfico anterior. Una de las variables es un stock y la otra es un flujo.

Otra nota: ahora que veo el gráfico me acuerdo de esto. Superpones dos funciones más o menos monótonas en una gráfica de doble escala y ya tienes la entrada/artículo del día.

¿Tienen sentido las tasas municipales de desempleo?

Sigo los artículos de periodismo de datos de El Confidencial. Los recomiendo, de hecho. Es bueno que alguien se encargue de divulgar noticias que tienen que ver con números.

Y ahora llega el pero. Una parte —y sus autores la consideran importante porque la elevan al titular— de lo que se discute en Nueve de cada diez municipios tienen más paro ahora que antes de comenzar la crisis es amarillismo numérico. Que quiero pensar que involuntario. El nivel municipal, y más habida cuenta del micromunicipalismo español, es demasiado fino para capturar algo que no sea ruido.

60 generaciones

Tú eres un conjunto de cardinalidad 1. Tú y tus padres conformáis un conjunto de cardinalidad 3. Añade a tus abuelos y tendrás un conjunto de cardinalidad 7. Aplica la inducción y tendrás conjuntos de cardinalidad $latex 2^n -1$.

Esto viene a cuenta de lo que me contó un colega el otro día: que en Corea tiene un libro en el que aparecen sus ancestros desde 54 generaciones atrás. Yo le pregunté cómo almacenaba esos 18014398509481983 nombres. A razón de 20 caracteres por nombre, eso son unos 350 millones de GB.