Nuevo vídeo en YouTube. Esta vez, sobre encuestas.
Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.
Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.
El otro día —no importa dónde— presencié los denodados y desencaminados esfuerzos de alguien —tampoco importa quién— por explicar primero y convencer después de los beneficios de la llamada cocina de las encuestas electorales. Constantado la inoperancia de los argumentos técnicos, estuve pensando un buen rato en buscar símiles cotidianos. Di con este, que es el que comparto por referencia para mí y puede que para otros.
Tienes ese amigo que dizque va a llegar en 30 minutos y lo hace al cabo de una hora. Cuando dice 15 minutos, tarda 30. Convierte los 10 en 20. Etc. Por un lado están las cifras declaradas (30, 15, 10,…) y, por otro, las observadas (60, 30, 20,…). No hace falta ser muy lince para
Muestreo. Se trata de seleccionar unas unidades experimentales (proceso caro) y tratar de estimar una proporción (p.e.) en la población total.
Existen técnicas para estimar el valor N mínimo para garantizar cierto margen de error. Pero dichas técnicas requieren conocer (algo d-) el resultado del experimento para estimar N (p.e. una estimación de la proporción que cabe esperar).
Circulus in demonstrando.
Bayes. Ve examinando unidades y actualiza tus intervalos de credibilidad hasta que tengan la anchura solicitada.
La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza:
El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior.
Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así:
library(MicroDatosEs)
dat <- ees2010("md_EES_2014.txt")
# Días año
dat$DIASRELABA <- dat$DRELABAM * 30.42 +
dat$DRELABAD
dat$DIASRELABA[dat$DIASRELABA > 365]<- 365
dat$DIASANO <- dat$DIASRELABA -
dat$DSIESPA2 - dat$DSIESPA4
# Salario bruto anual
dat$SALANUAL = (365/dat$DIASANO) *
(dat$SALBRUTO + dat$VESP)
Ahora sí que se puede definir, por ejemplo,
Leo (fuente):
[…] en su comparecencia del año pasado comentó algo sobre un pago al exterior de 174 000 euros, correspondiente a la cuota del consorcio de infraestructuras científicas, ERIC, que, como bien sabe, es el consorcio internacional que se encarga de realizar la encuesta social europea. El año pasado dijo que le preocupaba que 2017 fuese el último año en el que España formase parte de esa encuesta social europea porque teníamos cuota de país invitado y no de socio de la infraestructura, algo que nos parece preocupante. Veo que este año en los presupuestos hay un pago al exterior, pero de menor importe, de 139 000 euros. En este sentido, le quería preguntar si nos han hecho un descuento, una tarjeta de socios, una de país pobre…
Tenía tan bien guardados en el disco duro una serie de enlaces de interés parasociológico que no había forma humana de dar con ellos.
Para que no me vuelva a pasar y por su potencial interés para otros, los cuelgo aquí.
El primero de ellos (que no sé por qué lo guardé) son las diapositivas de una charla acerca de cómo transformar porcentajes de votos en escaños en España.
Los otros tres se refieren a la metodología que utiliza la gente de electionforecast.co.uk:
Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros.
El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $latex x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $latex y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido. La llamada cocina es simplemente una función $latex f$ tal que $latex \hat{y} = f(x)$ es próxima a $latex y$. Esta función se construye gracias a que históricamente, cada vez que se convocan elecciones, se han observado parejas $latex (x, y)$.
(Por referencia, el enlace).
Pues no se sabe bien. Además, habrá quién pudiéndola haber averiguado, prefirió dejarse llevar por la intuición y errar. Pero volvamos a los hechos. Dado
En un país hipotético, las familias tienen críos hasta que nace el primer varón. En un año, en promedio, nacen:
— Carlos Gil Bellosta (@gilbellosta) December 10, 2017
la pregunta urgente es: ¿cuántos podrían haber conocido la respuesta? Suponiendo que el conocimiento de la respuesta es algo binarizable (¿lo es?), la distribución del número de respuestas correctas sería $latex pN + X$, donde $latex N$ es el número total de respuestas, $latex p$ es la proporción de quienes sabe la respuesta y $latex X \sim B(N - pN, 1/3)$, suponiendo siempre que $latex pN$ es entero.
Sirve esta entrada para hacer saber lo fundamental del trabajo de fin de master (TFM en lo que sigue) de Susana Huedo (que busca trabajo y es una chica muy sabida, aplicada y espabilada) en el CIFF. Los TFM que propongo y acabo supervisando jamás tienen vocación de criogénesis anaquélica. A Susana le sugerí un tema muy punk y con recorrido: [tratar de] predecir a los predictores. Fundamentalmente, para joder.
Los chefs de encuestas electorales tienen dos discursos —uno previo y otro posterior a la publicación de los resultados—, una serie de recetas y datos que solo excepcionalmente publican. Dirán que se ciñen a una metodología científica, etc. Literatura.