Números

¿Y si no se mantuvieran?

Comienzo mi entrada de hoy con una foto de Madrid en la nochevieja de 1964.

almacenes-arias_anos-601

Esta es otra de los hinchas del equipo nacional el mismo año en los prolegómenos de la final de la Eurocopa del mismo año, que le ganamos a la Unión Soviética.

espana_urss

Aquí encontrarán mis lectores otras escenas de lo que era costumbre en aquellas fechas de hace cincuenta años.

Y no, no quiero reconvertir mi bitácora en otras Escenas Matritenses. Solo quiero advertir que tal vez alguno de los que aparecen en esas fotos trabajaban en el INE de antaño y recibió uno de esos días que se retratan el encargo de predecir la evolución de la población española hasta la actualidad. A ese señor, sin barruntar siquiera el Franco ha muerto; el se sienten, coño; el a este país no lo va a conocer ni la madre que lo parió; el nosotras parimos, nosotras decidimos; el váyase Sr. González; el España va bien; ni, vamos, la famélica legión del Gurugú, le habría tocado armarse de escuadra y cartabón y proyectar rectas de tinta china con tiralíneas hasta el mismo día de hoy para contarnos algo que sabemos mucho mejor que él: cuántos españolitos somos ahora.

Amanece, me cuentan, que no es poco

El amanecer es una cosa que ocurre a diario, me cuentan, pero que yo apenas he visto. Casi hablo de lo que no sé. Por otra parte, la discusión de los horarios, de si deberíamos tener la hora de Londres y no la de Berlín, me parece puro nominalismo. Unos llaman a la hora a la que se levantan sechs, otros seven, otros huit y yo diez y veinte. Y no pasa nada.

Va sobre el número de palabras

Trataré de usar pocas hoy. El otro día vi

fomc

aquí. Me recordó que uno de mis proyectos abandonados sine die es el de estimar la rentabilidad real de productos financieros en función del número de palabras en sus correspondientes folletos.

Nota: curioso el gráfico anterior. Una de las variables es un stock y la otra es un flujo.

Otra nota: ahora que veo el gráfico me acuerdo de esto. Superpones dos funciones más o menos monótonas en una gráfica de doble escala y ya tienes la entrada/artículo del día.

¿Tienen sentido las tasas municipales de desempleo?

Sigo los artículos de periodismo de datos de El Confidencial. Los recomiendo, de hecho. Es bueno que alguien se encargue de divulgar noticias que tienen que ver con números.

Y ahora llega el pero. Una parte —y sus autores la consideran importante porque la elevan al titular— de lo que se discute en Nueve de cada diez municipios tienen más paro ahora que antes de comenzar la crisis es amarillismo numérico. Que quiero pensar que involuntario. El nivel municipal, y más habida cuenta del micromunicipalismo español, es demasiado fino para capturar algo que no sea ruido.

60 generaciones

Tú eres un conjunto de cardinalidad 1. Tú y tus padres conformáis un conjunto de cardinalidad 3. Añade a tus abuelos y tendrás un conjunto de cardinalidad 7. Aplica la inducción y tendrás conjuntos de cardinalidad $latex 2^n -1$.

Esto viene a cuenta de lo que me contó un colega el otro día: que en Corea tiene un libro en el que aparecen sus ancestros desde 54 generaciones atrás. Yo le pregunté cómo almacenaba esos 18014398509481983 nombres. A razón de 20 caracteres por nombre, eso son unos 350 millones de GB.

Si participase en MadData...

El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).

Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.

Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.

Ni-nis y estados transitorios

Imaginemos un país feliz en el que mucha gente trabaja durante dos años y luego se toma un mes para buscar otro trabajo mejor. ¿Cuál sería su tasa de paro? Del 4 %: la gente pasaría en el paro uno de cada 25 meses. Ese estado transitorio de un mes se manifestaría así en la EPA de dicho país, como un stock de desempleados.

Descrita como flujo, la situación parecería propicia. Descrita como stock, habría quien le pusiera pegas.

Facetas para entender, tal vez, la evolución del paro

La verdad, no sé de dónde los sacan porque la EPA es trimestral. Pero el INE publica datos mensuales de la tasa de desempleo y las cuelga de una de esas URLs que tienen pinta de cambiar con cualquier soplo (es decir, aviso de que en cualquier momento el enlace deja de funcionar). Por ssi acaso, estos son los datos a día de hoy.

También aparecen publicados regularmente en prensa. Y los expertos opinan sobre si la cifra es buena y o mala. Pero, ¿buena o mala con respecto a qué? Así que hoy voy a ensayar un marco en el que plantear la pregunta:

Demasiado bueno para ser cierto

O el porqué de la importancia de los outliers.

outlier1

Hace unos días me presentaron unos datos. Demasiado buenos para ser ciertos. Casi seguro que reflejan un efecto que no es el que se quiere medir. Estaban muy fuera de rango.

Leí los 93 folios del informe de Gotham sobre Gowex. Si algo debió llamar la atención de esa gente era que la información pública de Gowex estaba plagada de outliers: consistía en una sistemática comparación de ciertas métricas públicas de la empresa con las de sus competidores. Outliers por doquier. El resto de la historia, conocido: ponerse en corto, publicar y hacer dinero.

El primer DataBeers de Madrid, el martes en MartinaCocina

Este martes 6 de mayo tendrá lugar el primer encuentro de DataBeers de Madrid. A las 19:30 de la tarde, en MartinaCocina (plaza de Cascorro, 11), habrá minicharlas relacionadas con el mundo de los datos y cervezas.

mad_data_beers

El programa, que incluye a algunos viejos conocidos, es el siguiente: