Encuestas

¿A quién crees que van a votar tus vecinos?

La historia, telegráficamente, es así:

  1. Hubo unas elecciones hace unos pocos días en EEUU.
  2. Existieron las concomintantes encuestas, predicciones y… mercados de apuestas.
  3. De entre los últimos, Polymarket se destacó por asignar unas probabilidades de victoria a Trump muy superiores a las del bendito consenso.
  4. Hubo gente muy sabida que criticó mucho a Polymarket. El argumento principal era:
    1. En Polymarket se juega con dinero.
    2. La gente rica tiende a tener más querencia por Trump.
    3. La gente rica tiende a tener más querencia por los mercados, las apuestas, etc.
    4. La gente rica que apoya a Trump está sobrerrepresentada entre los usuarios de Polymarket —a diferencia de lo que ocurre, por ejemplo, en Metaculus— y eso sesga el mercado.
  5. Se supo que un solo inversor había realizado pujas muy elevadas en Polymarket.
  6. Incluso se especuló si ese inversor era realmente Elon Musk (y que intervenía en él para influir maliciosamente en el proceso electoral).
  7. Este inversor ha acabado ganando bastante dinero (unas cuantas decenas de millones de euros) con sus apuestas.

Se ha sabido, no obstante, que el inversor en cuestión es un tal Théo, de Francia.

Problemas de los promedios de encuestas electorales

El otro día, al hablar de las encuestas electorales y su relación con la predicción electoral, me referí tangencialmente —y, ahora que lo pienso, un tanto confusamente— a los promedios de encuestas. Vine a decir que los promedios de encuestas como

de la Wikipedia constituyen una primera aproximación —burda— al problema de la predicción electoral cuando, realmente, deberían considerarse otro nowcast.

Estos promedios de encuestas deberían ser más fiables que las encuestas particulares, aunque solo sea porque utilizan más información. Sin embargo, están expuestas a una serie de problemas como los que se anuncian/denuncian aquí.

Encuestas vs predicciones electorales

I.

Imaginemos que estamos viendo un partido de fútbol en la tele. Arriba, a la izquierda, hay un par de cifras: es el marcador que nos dice cómo va el partido.

En un mundo paralelo, en lugar del resultado provisional (p.e., 0-0 al comenzar el partido), el marcador podría mostrar la predicción del resultado al acabar el encuentro. Podría suceder que en el minuto cero indicase algo así como 3-2 si tal fuese la mejor estimación posible del resultado final.

Buscándole las cosquillas al "Indicador Multidimensional de Calidad de Vida"

El IMCV es esto. (Brevemente: un indicador experimental del INE que combina datos de varias encuestas, las agrega con unos pesos y produce unos números que permiten comparar CCAA entre sí y a lo largo del tiempo).

Una característica muy amena del IMCV es que permite recalcular en índice con pesos ad hoc aquí.

Con los pesos originales, el indicador (de 2021) queda así:

Por probar algo, he puesto a cero todos los pesos menos el que se refiere, nada menos, que a Ocio y relaciones sociales por ver qué pasa:

Variaciones de la opinión sobre fenómenos pretéritos

Los fabricantes de encuestas suelen estudiar opinión de la ciudadanía acerca de un fenómeno futuro: unas elecciones, etc. Esas opiniones suelen variar en el tiempo, dando lugar a los sesudos análisis que nos regala la prensa habitual.

Pero en alguna rara ocasión, estudian también nuestra opinión sobre fenómenos pasados y es entretenido preguntarse por los motivos de la fluctuación de los resultados.

Comienzo por un ejemplo clásico. Por si no se lee bien, el título del gráfico explica que se trata de los resultados de una encuesta realizada en Francia acerca de la nación que más contribuyó a la derrota de Alemania en 1945.

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados.

Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Sobre la sistemática infraestimación del error en las encuestas

Las encuestas que se publican suelen estar acompañadas de una ficha técnica en la que, entre otras cosas, se especifica el error muestral. El error muestral está relacionado con la posibilidad de que la muestra no represente fidedignamente la población de interés, que tenga un sesgo producto exclusivamente del azar. Es decir, ignora el resto de los posibles sesgos que tengan una causa distinta.

Pero aquellas que recaban opiniones, etc. de personas humanas suelen dar por hecho que los datos recogidos de los sujetos muestrales son ciertos. Hoy quiero mencionar dos evidencias de lo contrario. De las que se induce que el error muestral de las encuestas podría ser una mera cota inferior que poca idea nos da de cuál podría ser la cota más interesante: la superior.

¿Por qué cabe argumentar que estos resultados infraestiman la efectividad de las vacunas contra el covid?

Me refiero a los mostrados en el siguiente gráfico (del que he sido una microcausa):

En él se ve, por ejemplo, como la probabilidad de acabar en la UCI para la gente entre 60 y 80 años es hasta 23 veces mayor entre los no vacunados que entre los vacunados.

La "cocina", para anumeristas y conspiranoicos

El otro día —no importa dónde— presencié los denodados y desencaminados esfuerzos de alguien —tampoco importa quién— por explicar primero y convencer después de los beneficios de la llamada cocina de las encuestas electorales. Constantado la inoperancia de los argumentos técnicos, estuve pensando un buen rato en buscar símiles cotidianos. Di con este, que es el que comparto por referencia para mí y puede que para otros.

Tienes ese amigo que dizque va a llegar en 30 minutos y lo hace al cabo de una hora. Cuando dice 15 minutos, tarda 30. Convierte los 10 en 20. Etc. Por un lado están las cifras declaradas (30, 15, 10,…) y, por otro, las observadas (60, 30, 20,…). No hace falta ser muy lince para

Bayes no había previsto esto

Muestreo. Se trata de seleccionar unas unidades experimentales (proceso caro) y tratar de estimar una proporción (p.e.) en la población total.

Existen técnicas para estimar el valor N mínimo para garantizar cierto margen de error. Pero dichas técnicas requieren conocer (algo d-) el resultado del experimento para estimar N (p.e. una estimación de la proporción que cabe esperar).

Circulus in demonstrando.

Bayes. Ve examinando unidades y actualiza tus intervalos de credibilidad hasta que tengan la anchura solicitada.

Encuesta de Estructura Salarial y R: propedéutica

La nota de prensa que acompaña a los resultados definitivos de la EES de 2014 reza:

El salario bruto medio anual fue de 22.858,17 euros por trabajador en el año 2014, un 0,7% superior al del año anterior.

Para poder replicar esa cifra y poder comparar manzanas con manzanas hay que preprocesar los datos crudos de la EES así:

library(MicroDatosEs)
dat <- ees2010("md_EES_2014.txt")

# Días año
dat$DIASRELABA <- dat$DRELABAM * 30.42 +
    dat$DRELABAD
dat$DIASRELABA[dat$DIASRELABA > 365]<- 365
dat$DIASANO <- dat$DIASRELABA -
    dat$DSIESPA2 - dat$DSIESPA4

# Salario bruto anual
dat$SALANUAL = (365/dat$DIASANO) *
    (dat$SALBRUTO + dat$VESP)

Ahora sí que se puede definir, por ejemplo,