Encuestas

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados.

Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta.

Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos. Hoy quiero mencionar dos evidencias de lo contrario. De las que se induce que el error muestral de las encuestas podría ser una mera cota inferior que poca idea nos da de cuál podría ser la cota más interesante: la superior.

¿Por qué cabe argumentar que estos resultados infraestiman la efectividad de las vacunas contra el covid?

Me refiero a los mostrados en el siguiente gráfico (del que he sido una microcausa):

En él se ve, por ejemplo, como la probabilidad de acabar en la UCI para la gente entre 60 y 80 años es hasta 23 veces mayor entre los no vacunados que entre los vacunados.

[Nota: en una segunda aproximación a ese análisis habría que tratar de estimar el error asociado a ese múltiplo. Nótese que depende muy críticamente de un denominador minúsculo y que, casi seguro, varía notablemente de día en día, según van llegando datos nuevos.]

La "cocina", para anumeristas y conspiranoicos

El otro día —no importa dónde— presencié los denodados y desencaminados esfuerzos de alguien —tampoco importa quién— por explicar primero y convencer después de los beneficios de la llamada cocina de las encuestas electorales. Constantado la inoperancia de los argumentos técnicos, estuve pensando un buen rato en buscar símiles cotidianos. Di con este, que es el que comparto por referencia para mí y puede que para otros.

Tienes ese amigo que dizque va a llegar en 30 minutos y lo hace al cabo de una hora. Cuando dice 15 minutos, tarda 30. Convierte los 10 en 20. Etc. Por un lado están las cifras declaradas (30, 15, 10,…) y, por otro, las observadas (60, 30, 20,…). No hace falta ser muy lince para

Bayes no había previsto esto

Muestreo. Se trata de seleccionar unas unidades experimentales (proceso caro) y tratar de estimar una proporción (p.e.) en la población total.

Existen técnicas para estimar el valor N mínimo para garantizar cierto margen de error. Pero dichas técnicas requieren conocer (algo d-) el resultado del experimento para estimar N (p.e. una estimación de la proporción que cabe esperar).

Circulus in demonstrando.

Bayes. Ve examinando unidades y actualiza tus intervalos de credibilidad hasta que tengan la anchura solicitada.

Encuesta de Estructura Salarial y R: propedéutica

La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza:

El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior.

Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así:

library(MicroDatosEs)
dat <- ees2010("md_EES_2014.txt")

# Días año
dat$DIASRELABA <- dat$DRELABAM * 30.42 +
    dat$DRELABAD
dat$DIASRELABA[dat$DIASRELABA > 365]<- 365
dat$DIASANO <- dat$DIASRELABA -
    dat$DSIESPA2 - dat$DSIESPA4

# Salario bruto anual
dat$SALANUAL = (365/dat$DIASANO) *
    (dat$SALBRUTO + dat$VESP)

Ahora sí que se puede definir, por ejemplo,

Encuesta Social Europea: un cociente

Leo (fuente):

[…] en su comparecencia del año pasado comentó algo sobre un pago al exterior de 174 000 euros, correspondiente a la cuota del consorcio de infraestructuras científicas, ERIC, que, como bien sabe, es el consorcio internacional que se encarga de realizar la encuesta social europea. El año pasado dijo que le preocupaba que 2017 fuese el último año en el que España formase parte de esa encuesta social europea porque teníamos cuota de país invitado y no de socio de la infraestructura, algo que nos parece preocupante. Veo que este año en los presupuestos hay un pago al exterior, pero de menor importe, de 139 000 euros. En este sentido, le quería preguntar si nos han hecho un descuento, una tarjeta de socios, una de país pobre…

Enlaces parasociológicos

Tenía tan bien guardados en el disco duro una serie de enlaces de interés parasociológico que no había forma humana de dar con ellos.

Para que no me vuelva a pasar y por su potencial interés para otros, los cuelgo aquí.

El primero de ellos (que no sé por qué lo guardé) son las diapositivas de una charla acerca de cómo transformar porcentajes de votos en escaños en España.

Los otros tres se refieren a la metodología que utiliza la gente de electionforecast.co.uk:

Acerca del CIS y la cocina

Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros.

El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido. La llamada cocina es simplemente una función $f$ tal que $\hat{y} = f(x)$ es próxima a $y$. Esta función se construye gracias a que históricamente, cada vez que se convocan elecciones, se han observado parejas $(x, y)$.