Cis

Cosas de Twitter (y encuestas)

Hoy (día en que escribo, no en que lees) se han publicado los resultados de intención electoral del CIS (los de los barómetros), de cuya cocina ha salido

Esos números han producido una avalancha de comentarios en Twitter sobre la ecuanimidad del CIS. Sobre todo en el sentido de que hincha los resultados de los partidos de la derecha. Nada nuevo bajo el sol.

Los datos son de la primera semana de abril, del 1 al 8. Lo sorprendente es que con datos de los cinco primeros días del mismo mes, Celeste-Tel, publicó para eldiario.es, un medio de izquierda,

¿Es Vd. de izquierdas o de derechas?

En una escala (de enteros) del 1 al 10, ¿cuál es el punto medio? ¿Cuál indicaría indiferencia entre ambas opciones? No, no es 5; es 5.5.

Cuando el CIS, en sus barómetros, como el de abril, pregunta

obtiene las respuestas

en las que se aprecian fenómenos sesgantes como, por ejemplo:

  • Toda esa gente que se define ni fú ni fá (véase el pico en el 5), va a elegir 5 pero ¿por qué no 6? El 5 está tan alejado del valor medio, 5.5, como 6.
  • Si damos por bueno que la gente que no sabe calcular medias va a cosiderar 5 el valor neutro, quedan 4 casillas de izquierdas (1:4) y 5 de derechas (6:10).
  • Como consecuencia de lo anterior, solo te dejan ser muy, muy, muy, muy de izquierdas pero no muy, muy, muy, muy, muy de izquierdas; pero sí muy, muy, muy, muy, muy de derechas.

Es folk knowledge que España es un país sociológicamente de izquierdas. Y ese conocimiento está fundamentado en esa pregunta (y, obviamente, sus respuestas).

Tres grandes problemas que ocupan pero, según el CIS, no preocupan

Plañe el periodista porque dizque hay tres graves problemas que, a pesar de lo que ocupan (en los medios), a la hora del CIS, no preocupan.

Aggiorno una vieja entrada para ver, por ejemplo, cómo ha variado en los últimos años la preocupación de los encuestados por el CIS acerca de uno de los tres graves problemas:

De hecho, el porcentaje que se muestra indica la proporción de los encuestados que mencionaron el asunto como uno de los tres principales problemas de España. La pregunta, de respuesta abierta, aparece así formulada en los cuestionarios:

El número efectivo de partidos

El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula

$$ N = \frac{1}{\sum_i p_i^2}$$

y excipiente alrededor.

Aplicada a España (usando datos del CIS como proxy),

Como casi siempre, el código:

library(rvest)
library(rvest)
library(reshape2)
library(plyr)
library(zoo)

url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html"

raw <- read_html(url)
tmp <- html_nodes(raw, "table")
tmp <- html_table(tmp[[2]], fill = TRUE)

colnames(tmp)[1] <- "partido"

tmp <- tmp[!is.na(tmp$partido),]
tmp <- tmp[1:30,]

tmp <- melt(tmp, id.vars = "partido")
tmp <- tmp[tmp$value != ".",]
tmp$value <- as.numeric(tmp$value)

tmp$variable <- gsub("ene", "01-", tmp$variable)
tmp$variable <- gsub("abr", "04-", tmp$variable)
tmp$variable <- gsub("jul", "07-", tmp$variable)
tmp$variable <- gsub("oct", "10-", tmp$variable)

tmp$variable <- gsub("-0", "-200", tmp$variable)
tmp$variable <- gsub("-1", "-201", tmp$variable)
tmp$variable <- gsub("-9", "-199", tmp$variable)

tmp$variable <- paste0("01-", tmp$variable)

tmp$variable <- as.Date(tmp$variable, format = "%d-%m-%Y")

dat <- tmp

dat <- ddply(dat, .(variable), transform, total = value / sum(value))
res <- ddply(dat, .(variable), summarize, enp = 1 / (sum(total^2)))

res <- zoo(res$enp, order.by = res$variable)

plot(res, main = "Número efectivo de partidos\nen España(1996-2016)",
        xlab = "", ylab = "número efectivo de partidos")

Barómetros del CIS con R

El CIS realiza barómetros todos los meses menos uno. Pasado un tiempo (es octubre y el último publicado es de julio) coloca los microdatos en su banco de datos.

Aparte de ficheros .pdf que lo explican todo (pero que no dejan de ser .pdf), publica dos ficheros. Uno de datos en ancho fijo (prefijo DA) y otro con código SPSS (prefijo ES) con los consabidos (¿lo son? ¡felicidades si no!) encabezados DATA LIST, VARIABLE LABELS, VALUE LABELS, y MISSING VALUES.

Encuestas electorales: una propuesta

No estoy muy al tanto de la regulación que afecta a la confección de encuestas electorales. Me consta la existencia de algunas normas, como la prohibición de publicarlas durante los últimos días de la campaña. No sé si fiarme de mi memoria a la hora de añadir alguna relativa a cuestiones técnicas, como la de que vayan acompañadas de una ficha metodológica.

Pero, y aunque sea alérgico a la regulación en general, me atrevo a apuntar una modificación que podría tener sus méritos. Está basada en algunas experiencias anteriores. Por ejemplo, la que sugiere este artículo del NYT. En él se cuenta cómo el periódico hizo llegar a cuatro grupos de expertos los datos brutos de una encuesta electoral en Florida. Los resultados obtenidos por esos grupos se resumen en la siguiente tabla:

¿Alguien podría identificar tirios y troyanos?

Con los datos

pcts <- cbind(
  c(35.7, 19.6, 6.6, 16.6, 9.6),
  c(0.3, 0.2, 0.2, 0.3, 0.8),
  c(25.0, 14.9, 10.7, 32.7, 12.9),
  c(1.6, 8.0, 8.5, 6.5, 7.9),
  c(11.0, 18.7, 7.9, 12.7, 8.0),
  c(3.2, 21.5, 52.9, 16.7, 47.9)
)

totales <- c(1102, 975, 596, 638,	174)
tabla <- round(t(pcts * totales / 100))

y el concurso de

library(MASS)
biplot(corresp(tabla, nf = 2))

genero

partidos_cadenas

que a lo mejor no resulta demasiado interesante si no añado que las columnas se refieren a partidos políticos y las filas a cadenas en las que, según el CIS, sus votantes prefieren para seguir la actualidad política. Eso sabido, ¿cuál es cuál?

Voy a partir una lanza a favor de Rosell a cuenta de la EPA

Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.

Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?

Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.