Información

Chocolatada informacional

Supongamos que el vector $u$ codifica cierta información A y el vector $v$ (de la misma dimensión), la información B. Hay quien sostiene que, entonces, el vector $u + v$ codifica simultáneamente A y B. En esta entrada voy a demostrar que la afirmación anterior es falsa. Luego, también, que es cierta. Terminaré explicando por qué el asunto es relevante. Que es falsa es obvio: si $u$ y $v$ tienen dimensión 1, $u = 2$ y $v = 3$, a partir de la suma $u + v = 5$ es imposible recomponer los vectores originales.

¿Dónde son más frecuentes las muestras de una distribución en dimensiones altas?

Esta es una cosa bastante contraintituiva. Uno diría que en la moda, pero no es exactamente así. Veamos qué pasa con la distribución normal conforme aumenta la dimensión. En una dimensión son más frecuentes los valores próximos al centro: hist(abs(rnorm(10000)), breaks = 100, main = "distribución de la distancia al centro") Pero en dimensiones más altas (p.e., 10), la cosa cambia: library(mvtnorm) muestra <- rmvnorm(10000, rep(0, 10), diag(rep(1, 10))) distancias <- apply(muestra, 1, function(x) sqrt(sum(x^2))) hist(distancias, breaks = 100, main = "distribución de la distancia al centro") Lo más frecuente es obtener observaciones ya no próximas al centro sino en un anillo alrededor de él y a cierta distancia del mismo.

Si los prejuicios son prioris, entonces...

Esto es muy bueno y elabora sobre la conclusión lógica de algo que ya he discutido antes por aquí: que los prejuicios (justos o no: la justicia es una categoría de otro orden) son prioris con las que operamos a falta de más información. Ergo…

El principio de información

Tramontando el recetariado, llegamos a los principios. Y el más útil de todos ellos es el de la información (o cantidad de información). (Sí, de un tiempo a esta parte busco la palabra información por doquier y presto mucha atención a los párrafos que la encierran; anoche, por ejemplo, encontré un capitulito titulado The Value of Perfect Information que vale más que todo Schubert; claro, que Schubert todavía cumple la función de proporcionar seudoplacer intelectual a mentes blandas y refractarias al concepto del valor de la información perfecta).

Tres metaprincipios estadísticos que se quedan en dos que se quedan en uno

Son: El principio de la información: la clave de un método estadístico no está basado en la filosofía subyacente o el razonamiento matemático, sino más bien la información que nos permite utilizar. El problema de la atribución, según el cual, el mérito de un análisis estadístico se lo lleva el procedimiento utilizado (por poner un ejemplo moderno, xgboost) y no quien lo aplicó. Y otro más que no acabo de entender del todo; o tal vez sí pero que no veo como encajar aquí.

Las prioris no informativas están manifiestamente sobrevaloradas

La estadística bayesiana se enseña en cursos de estadística (y, frecuentemente, envuelto en un aparataje matemático tan ofuscante como innecesario). Lo malo es que en los cursos y textos de estadística no existe información previa. La información previa sobre los fenómenos en los que se utilizaría la estadística bayesiana están en las aplicaciones, extramuros del muy agnóstico mundo de la estadística y la matemática. Por eso, a los autores de los libros de estadística bayesiana y quienes enseñan cursos sobre lo mismo, enfrentados al problema de llenar de sentido la problemática distribución a priori, no se les ocurre nada mejor que discutir muy sesudamente la excepción (la priori no informativa) en lugar de la regla (la priori informativa).

La información es sorpresa

Hace unos días publiqué esto en Twitter: "A mayor proliferación de controles, más oportunidades para la corrupción, que suelen acabar en más corrupción" http://t.co/UHPBYXmDsU — Carlos Gil Bellosta (@gilbellosta) April 10, 2015 David Cabo, muy oportunamente, denunció @gilbellosta joder, lo del artículo es un correlation is not causation de libro, no? — David Cabo (@dcabo) April 10, 2015 Cosa que no niego. La frase que resumía el enlace tiene esa pintaza.