Usos de la versión barata de la entropía

Aquí argumenté que

$$\sum_i p^2_i$$

es una versión barata de la entropía. Que sin embargo se usa para:

La versión barata de la entropía tiene una ventaja y una desventaja con respecto a la buena; la ventaja, que es más fácil de calcular, comunicar, etc.; la desventaja, que no goza de sus propiedades algebraicas (que transforman la independencia en una suma). Pero esta última es bastante intrascendente para los dos fines que menciono hoy.

Nuevo vídeo en YouTube: "Modelos estadísticos vs comportamiento estratégico"

En el vídeo se hace referencia a una serie de materiales. Sus coordenadas son:

¿Converge Bayes demasiado rápido?

Siempre he tenido la sensación de que las posterioris convergen demasiado rápidamente. Fue, de hecho, la primera objeción que hizo el cliente hace ya muchos, muchos, años a los resultados de mi primer proyecto puramente bayesiano y desde entonces guardo la espinita clavada.

Por eso me siento reivindicado por What’s wrong with Bayes, una entrada de Andrew Gelman en su blog y en la que discute una inferencia ridícula. Es la siguiente:

Un gráfico para quitarse el sombrero

No existe un curso de idiomas que lleve por título algo así como Aprenda a decir la verdad, toda la verdad y solo la verdad en búlgaro y donde te enseñen a construir frases justas, necesarias y adheridas a la evidencia científica y nunca lo contrario. Uno aprende búlgaro y lo usa para aquello que más le convenga. Los niños, al comenzar a hablar, usan el lenguaje tanto para decir verdades como mentiras; frecuentemente, además, para manipular todavía más eficazmente a los demás. Y nadie se escandaliza.

Exámenes probabilísticos

I.

Es habitual tener dos modelos $m_1$ y $m_2$ y querer compararlos. Supongamos que son modelos de clasificación binaria —aunque nada de lo que sigue cambia realmente si son de clasificación categórica en un sentido más amplio—; vamos a suponer también que son modelos probabilísticos, en el sentido de que no producen directamente una predicción sino una probabilidad que puede luego convertirse en una predicción de acuerdo con cierta regla (p.e., predecir la categoría más probable).

Otra correlación del siglo XXI

En 2011 escribí sobre la correlación del siglo XXI, un esfuerzo por crear un tipo de coeficiente de correlacion mejor. En 2018 me volví a preguntar sobre el estado de la cosa y a dónde había conducido. Tengo la sensación de que se publicó y, realmente, nunca más se supo del asunto.

Casi diez años después tenemos A New Coefficient of Correlation, sin duda mucho mejor que sus antecesores y con un futuro igualmente prometedor. El lector interesado puede aprender más sobre él aquí.

El sesgo de supervivencia: más allá del manido avión de la IIGM

Todos tenemos una serie de neuronas en la cabeza que se chutan de dopamina cuando oyen “sesgo de supervivencia” y proyectan

en nuestra imaginación. Pero existen alternativas.

La primera es la que describe Émile-Auguste Chartier en su obra Propos d’un Normand 1906-1914 de 1908 cuando habla de cómo se diseñan las canoas polinesias:

Tout bateau est copié sur un autre batea… Raisonnons là-dessus à la manière de Darwin. Il est clair qu’un bateau très mal fait s’en ira par le fond après une ou deux campagnes, et ainsi ne sera jamais copié… On peut donc dire, en toute rigueur, que c’est la mer elle-même qui façonne les bateaux, choisit ceux qui conviennent et détruit les autres.

El efecto "pierna rota"

Esa entrada tiene que ver con dos cosas. Una, la que escribí hace un tiempo sobre el análisis de modelos a la vista de información que nosotros tenemos y ellos, por lo que sea, no. La segunda, que es además la que da nombre a esta, un fenómeno que menciona Paul Meehl en su libro Clinical Versus Statistical Prediction.

El libro describe y las compara predicciones clínicas (subjetivas, basadas en la experiencia y usando como datos dossieres más o menos extensos) y las estadísticas, basadas en puntuaciones (o scores) construidos a partir de en unas cuantas variables. El tema central del libro (¡de los años 50!) es cómo esos modelos estadísticos que apenas usan unos cuantas variables funcionan generalmente tan bien o mejor que las predicciones clínicas. Lo hace, además, a través de un metaanálisis de la literatura existente en la época (y actualizado algunas décadas después por el autor sobre una base evidentemente mucho más amplia de estudios).

¿Qué nos enseña la historia de los granos de trigo sobre el muestreo de las posterioris?

No hace falta que cuente aquella historia del tablero de ajedrez, los granos de trigo, etc. ¿verdad? (Desavisados: leed esto.) La entrada de hoy se ocupa de un problema dual: el número de granos de trigo será fijo, pero hay que repartirlo en un número explosivamente creciente de casillas.

Imagina ahora que quieres ajustar un modelo bayesiano usando MCMC. Imagina que tienes 1, 2, 3,… variables. Imagina el espacio de dimensión $n$ definido por dichas variables. El número de cuadrantes es $2^n$.

Abundancia roja: una miniperspectiva matemática e informática

Este, a mitad de la tarde del día en cuya mañana he debido personarme en el quinto pino cargado de originales y sus correspondientes fotocopias para que una enjuta y adusta funcionaria de una de esas onerosas manifestaciones del estado metiese la entrometida nariz en un contrato firmado libérrimamente por dos mayores de edad en pleno uso y disfrute de sus facultades mentales [pausa, pausa, ¡pausa!], es momento sin igual para minirreseñar