Cosas de Twitter (y encuestas)

Hoy (día en que escribo, no en que lees) se han publicado los resultados de intención electoral del CIS (los de los barómetros), de cuya cocina ha salido

Esos números han producido una avalancha de comentarios en Twitter sobre la ecuanimidad del CIS. Sobre todo en el sentido de que hincha los resultados de los partidos de la derecha. Nada nuevo bajo el sol.

Los datos son de la primera semana de abril, del 1 al 8. Lo sorprendente es que con datos de los cinco primeros días del mismo mes, Celeste-Tel, publicó para eldiario.es, un medio de izquierda,

¿Es Vd. de izquierdas o de derechas?

En una escala (de enteros) del 1 al 10, ¿cuál es el punto medio? ¿Cuál indicaría indiferencia entre ambas opciones? No, no es 5; es 5.5.

Cuando el CIS, en sus barómetros, como el de abril, pregunta

obtiene las respuestas

en las que se aprecian fenómenos sesgantes como, por ejemplo:

  • Toda esa gente que se define ni fú ni fá (véase el pico en el 5), va a elegir 5 pero ¿por qué no 6? El 5 está tan alejado del valor medio, 5.5, como 6.
  • Si damos por bueno que la gente que no sabe calcular medias va a cosiderar 5 el valor neutro, quedan 4 casillas de izquierdas (1:4) y 5 de derechas (6:10).
  • Como consecuencia de lo anterior, solo te dejan ser muy, muy, muy, muy de izquierdas pero no muy, muy, muy, muy, muy de izquierdas; pero sí muy, muy, muy, muy, muy de derechas.

Es folk knowledge que España es un país sociológicamente de izquierdas. Y ese conocimiento está fundamentado en esa pregunta (y, obviamente, sus respuestas).

¿Cómo fue R antes de R?

R

La década le ha dejado nuevas sintaxis a R. Algunos, precarcas, fruncimos el entrecejo. Esta entrada nos administrará un poco de medicina histórica.

R es una reimplementación (libre, para más señas) de S. La sintaxis actual de S (que es la del R de toda la vida) es del año 88. Antes, durante los 80, era otra. Pero es difícil dar con ella en internet.

Pero no imposible. El libro S: An Interactive Environment for Data Analysis and Graphics, de Chambers y Becker, ha sido escaneado por Google y, aunque no completo, nos permite echar un vistazo a algunas páginas, las suficientes para no hacer carraspear desaprobatoriamente al copyright.

Contratos por diffs

Hace unos días recibí de mi banco una actualización del contrato general de prestación de servicios. El nuevo contrato es un PDF de 76 páginas, más largo y mucho más farragoso —diríase que redactado por abogados aficionados a Benet— que, por ejemplo, la vigente constitución española.

Nadie va a leer eso. Y menos, entenderlo. Pero seguro que contiene puntos referidos a nuestra información personal y el uso que pueden hacer de ella, nos ata a draconieces, etc. Y todo escondido en kilobytes de hojarasca jurídica.

Curso de introducción a R en Gijón

Tenía que haberlo publicado antes, pero… ahí va:

Esta semana se va a impartir un curso de introducción a R en el que participo. Está organizado por la UNED y se puede asistir presencialmente (si estás en Gijón esos días) o en remoto desde cualquier parte.

La info, aquí.

¿Dónde dejar de leer? Un caso práctico

Hay mucho por leer. El tiempo es finito y valioso. Es imperativo contar con criterios para dejar de leer. Identificar señales tempranas que indiquen que no merece la pena seguir. Generalmente, porque te están tratando de vender una moto.

En una de las primeras diapositivas de la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt) se muestran las respuestas a la siguiente pregunta:

WolframAlfa al rescate de exmatemáticos

Tengo el sistema

$$ m = \frac{a}{a+b}$$ $$ v = \frac{ab}{(a+b)^2 (a+b+1)}$$

en los que alguien descubrirá cosas relativas a la distribución beta.

Interesa despejar $latex a$ y $latex b$. Pero solo soy un exmatemático perezoso, disléxico y con déficit de tiempo y atención. Así que tacacata y…

$$ a = \frac{-m^3 + m^2 - mv}{v}$$ $$ b = \frac{m^3 - 2m^2 + mv + m -v}{v}$$

Avisos recibidos, avisos resueltos y la creciente suma acumulada

El ayuntamiento de Madrid publica información (desde 2015) de los avisos recibidos por los ciudadanos a través de los distintos canales puestos a su disposición (010, LineaMadrid, la app, etc.).

He bajado los datos y he pintado

que es la suma acumulada de la diferencia entre los avisos entrantes y los resueltos día a día usando

library(data.table)
library(xts)

recibidos <- rbindlist(lapply(dir(pattern = "recibi"), fread))
resueltos <- rbindlist(lapply(dir(pattern = "resu"), fread))

recibidos.fecha <- recibidos[, .(n.recibidos = .N), by = "FECHA_DE_RECEPCION"]
resueltos.fecha <- resueltos[, .(n.resueltos = .N), by = "FECHA_DE_RECEPCION"]

ambos <- merge(recibidos.fecha, resueltos.fecha)

ambos$fecha <- as.Date(ambos$FECHA_DE_RECEPCION, format = "%d/%m/%Y")
ambos$FECHA_DE_RECEPCION <- NULL

ambos <- ambos[order(ambos$fecha),]
ambos$pendientes <- cumsum(ambos$n.recibidos - ambos$n.resueltos)

tmp <- xts(ambos$pendientes, order.by = ambos$fecha)
plot(tmp, main = "Avisos pendientes en Avisa Madrid (010, etc.)" ,
        ylab = "cola de pendientes")

Comentarios:

Así se inventó el nudo gordiano del "hombre medio"

Lo cuenta muy bien Todd Rose en How the Idea of a ‘Normal’ Person Got Invented.

Hay tres grandes eras en la estadística moderna:

  • La queteliana, resumida en la imagen del hombre medio: existe un prototipo sobre el que, tal vez, se consideran variaciones. Es decimonónica, pero colea.
  • La kamediana, que es una versión pizza partida en ocho de la anterior. Es de mitad del siglo pasado y perdura en paleomentes.
  • La contemporánea, que contempla cada sujeto en su individualidad (aunque inserta en su circunstancia). Es propia del big data bien hecho.

Que se desenvuelva exige deshacer (¿cortar a tajos?) un par de nudos gordianos.