Nuevo vídeo en YouTube. Esta vez, sobre encuestas.
Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.
Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.
En esta entrada voy a tratar de reconstruir históricamente el concepto de intervalo de confianza (IC) para tratar de explicar por qué el concepto ha llegado a tener una definición e interpretación tan precisa como confusa (e inútil). La interpretación de lo que realmente son los IC son el coco —el que se lleva a los diletantes que saben poco— con el que amenazar a quienes tienen inseguridades metodológicas y una marca de erudición incontestable para quienes son capaces de enunciarla sin que se les trabe la lengua.
Una de las notas que tenía de la lectura del libro de visualización de datos de Healy se refería a los problemas de comparación que crean los rectángulos largos y estrechos. Es decir, cuando el tamaño de ciertas variables se codifica usando el área de rectángulos con dimensiones muy desiguales.
Reflexionando sobre el asunto, vi que el fenómeno de los rectángulos largos y estrechos (o mucha base y poca altura, si se quiere) es el que subyace al llamado problema de la conclusión repugnante, que aparece en ética cuando el criterio de bondad es el de la maximización de la suma de las utilidades individuales: una infinita (base) famélica (altura) legión podría tener unos niveles agregados de utilidad (base $latex \times$ altura) superiores a una población pequeña y feliz.
Esta es una entrada breve no tanto para comentar el vídeo
como para dejar constancia de algunas notas y referencias a vuelapluma que me sugirió. A saber:
Cierro con una nota personal:
Después de haber estado un tiempo —hasta tener que interrumpirlo para convertirme en un elemento socialmente productivo— leyendo sobre cómo la teoría de la probabilidad extiende la lógica (Jaynes, Hacking y compañía), he incurrido en Probability theory does not extend logic. Se trata de un ensayito recomendable pero sobre el que advierto a sus posibles lectores que decae rápidamente de mucho al fango.
De él extraigo una interpretación muy heterodoxa de la probabilidad condicional expresada en términos de la lógica de predicados. Dice el autor que una expresión del tipo
Se hablará mucho de Nutri-Score y de cómo es pernicioso dejar en manos de un algoritmo la decisión sobre la conveniencia o no de ciertos alimentos. Nutri-Score se convertirá en otra de esas malévolas encarnaciones de las matemáticas con vocación de destrucción masiva.
Pero que conste que Nutri-Score es, como algoritmo, solamente esto (fuente):
Al menos, esta vez no se lo podrá tachar de opaco.
La falacia, para aquellos que no la conozcan, está descrita aquí. El ejemplo más citado al respecto es el de Linda:
Linda tiene 31 años de edad, soltera, inteligente y muy brillante. Se especializó en filosofía. Como estudiante, estaba profundamente preocupada por los problemas de discriminación y justicia social, participando también en manifestaciones anti-nucleares. ¿Que es más probable?
Linda es una cajera de banco.
Linda es una cajera de banco y es activista de movimientos feministas.
Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue.
Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie. La encontraron en la MBI, que es una técnica:
El vídeo es
y su objetivo es refutar cierta visión muy extraña de la probabilidad que se oye sostener a cierto tipo de personas de vez en cuando, la de que es un fenómeno subjetivo, acompañado frecuentemente por la todavía más extravagante afirmación de que el azar no existe (salvo, tal vez, en el nivel subatómico).
[Del que ya hablé hace un tiempo desde una perspectiva diferente.]
Prioris
A y B (dos personas) tienen la misma priori Beta(1, 1) —que es uniforme en [0, 1]— sobre la probabilidad de cara de una moneda.
Datos
Entonces A presencia una tirada de la moneda (a la que no asiste B) y es cara. Su priori se actualiza a una Beta(1, 2).
Luego B presencia una tirada de la moneda (a la que no asiste A) y es cruz. Su priori se actualiza a una Beta(2, 1).
Llegaré a la normal. Antes, algo sobre la entropía.
Nos interesa saber y medir el grado de concentración de una distribución. Por ejemplo, si X es una variable aleatoria con función de densidad $latex f(x)$ y $latex x_1, \dots, x_n$ es una muestra de X, entonces, la expresión
$$ \frac{1}{n} \sum_i f(x_i)$$
da una idea de la concentración vs dispersión de X:
La expresión anterior converge a
El vídeo es
y si habéis seguido este blog en los últimos tiempos, no hace falta que lo veáis: trata de asuntos la mar de manidos aquí, solo que esta vez en formato audiovisual y dramatizado.
En mi entrada anterior mencioné cómo la suma de cuadrados de normales, aun cuando tengan varianzas desiguales, sigue siendo aproximadamente $latex \chi^2$. Es el resultado que subyace, por ejemplo, a la aproximación de Welch que usa R por defecto en t.test
. Puede verse una discusión teórica sobre el asunto así como enlaces a la literatura relevante aquí.
Esta entrada es un complemento a la anterior que tiene lo que a la otra le faltan: gráficos. Al fin y al cabo, es un resultado que se prueba a ojo: efectivamente, la suma de […] tiene aspecto de $latex \chi^2$, determinemos su parámetro.