Encuestas (electorales), medios y sesgos

Me he entretenido estos días en crear un modelo que represente la siguiente hipótesis de trabajo:

Los encuestadores electorales combinan tres fuentes de información: sus propios datos, el consenso de los restantes encuestadores y la voz de su amo, es decir, el interés de quien paga la encuesta.

Es un modelo en el que se introduce (y se mide) el sesgo que introduce cada casa en los resultados. De momento (¡no fiarse!, léase lo que viene después) he obtenido cosas como estas (para el PP):

La lotería del hardware y la cámara de resonancia académica

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.

Máxima verosimilitud vs decisiones

En Some Class-Participation Demonstrations for Introductory Probability and Statistics tienen los autores un ejemplo muy ilustrativo sobre lo lo relativo (en oposición a fundamental) del papel de la máxima verosimilitud (y de la estadística puntual, en sentido lato) cuando la estadística deja de ser un fin en sí mismo y se inserta en un proceso más amplio que implica la toma de decisiones óptimas.

Se trata de un ejemplo pensado para ser desarrollado en una clase. Consiste en un juego en el que el profesor muestra a los alumnos un bote con monedas y les propone que traten de acertar su número exacto. En tal caso, los alumnos se la quedan y pueden repartirse el contenido.

En respuesta a los que me preguntan si pondré "la vacuna"

[Dejo aquí por escrito la respuesta detallada a esa pregunta por, primero, una cuestión de eficiencia: poder contestarla con un enlace cuando me vengan de nuevo con ella. Pero también por la relación que guarda con temas como el riesgo o la teoría de la decisión que a estas página mías no les son ajenos.]

I.

¿Me vacunaré?

Espero que no, ojalá que no. Lo digo solo porque soy penúltimo o antepenúltimo en esa lista de prelaciones que parecen haber publicado nuestras beneméritas autoridades (y que tanto me recuerda a esto). Simplemente, espero que para cuando me toque ya no sea necesaria.

Sobre la "Carta de Derechos Digitales"

No cualquier ministerio sino precisamente el de economía (lo subrayo: es muy relevante para lo que sigue) ha colgado de su portal una (propuesta de) Carta de Derechos Digitales para su pública consulta.

Se trata de un documento confuso, en el que se mezclan propuestas que afectan a ámbitos muy heterogéneos, desde el transhumanismo,

[L]a ley regulará aquellos supuestos y condiciones de empleo de las neurotecnologías que, más allá de su aplicación terapéutica, pretendan el aumento cognitivo o la estimulación o potenciación de las capacidades de las personas.

Análisis de eventos recurrentes

He sido fan del análisis de los eventos recurrentes desde antes incluso de saber que existía tal cosa formalmente.

Es una extensión del análisis de la supervivencia donde resucitas y vuelves a morirte a lo Sísifo. Es decir, en el análisis de la supervivencia, te mueres y ya; por eso, si quieres extender el análisis de la supervivencia a asuntos tales como compras de clientes es necesario usar el calzador muy heterodoxamente.

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Acabo de subir:

  • Modificaciones y correcciones a los dos primeros capítulos.
  • Un tercer capítulo sobre distribuciones de probabilidad.

Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo.

Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico.

¿A que les ha jugado una mala pasada el Excel?

Se ha dado por cabal en muchos medios lo que espero que no llegue a más que a un borrador. Ha sido publicado por el Banco de España y contiene párrafos como

En cambio, la menor cualificación, por término medio, de los trabajos desempeñados por los jóvenes licenciados españoles sugiere que su nivel de desempleo comparativamente mayor que el de sus homólogos del área del euro podría obedecer, entre otros factores, a una menor calidad de la educación superior.

Sobre los orígenes de la falacia ecológica

Dice la Wikipedia que la primera denuncia de luego conocida como la falacia ecológica hay que buscarlos en Ecological Correlations and the Behavior of Individuals de un tal W. S. Robinson. Cuenta, entre otros ejemplos, cómo existía una correlación positiva entre ser inmigrante y ser analfabeto (según el censo de 1930 de EE.UU.), evidenciada por la tabla

en tanto que si se examinan los mismos datos por divisiones (ciertas agrupaciones de estados que, se conoce, eran más habituales hace tiempo que ahora), se obtiene una representación de la forma

Distancias (V): el colofón irónico-especulativo

Remato la serie sobre distancias con una entrega especulativa. Según se la mire, o bien nunca se ha hecho esa cosa o bien nunca ha dejado de hacerse.

El problema es que ninguna de las propuestas desgranadas por ahí, incluidas las de mis serie, responde eficazmente la gran pregunta:

¿Son más próximos un individuo y una individua de 33 años o una individua de 33 y otra de 45?

La respuesta es contextual, por supuesto, y en muchos de esos contextos habría que tener en cuenta las interacciones entre variables, que es a lo que apunta la pregunta anterior.