Historia

Kant: probabilidad y apuestas

Hace tres años mencioné la definición de probabilidad que Savage inculcó en su prole:

My father, Leonard Jimmie Savage, was an early advocate of subjective probability. He encouraged me from a young age to think of the probability of an event as the amount I would pay for a gamble that would pay $100 if the event occurred.

Sam Savage, 2004 (fuente)

Pero hay (!por supuesto!) antecedentes. Kant, en su Crítica de la Razón Pura, escribe (con mi subrayado):

Una entrada para desocupados que buscan causas que libren al mundo de todo neomal

Esta es una entrada que dedico a un sector de la sociedad que, generalmente, tengo muy desantendido: gente con mucho tiempo libre pero con infinitas ganas de librar al mundo de esos pésimos males que ni siquiera era consciente que tenía.

Resulta que en The elimination of Spurious Correlation due to position in Time or Space de “Student” (en realidad, Gosset, que es el que inventó el test que no lleva su nombre), principia así:

El origen de uso moderno del término "variable aleatoria" podría estar en un artículo publicado en italiano en una revista oscura en 1913

Sería muy difícil haber aprendido algo de probabilidad sin haber oído o leído a alguien quejarse de que el término “variable aleatoria” es desafortunado; que, en puridad, una “variable aleatoria” es una función; pero que todo el mundo lo hace y que no queda otra que cargar —¡una vez más!— con el peso del consenso y la tradición.

Pero cabe preguntarse: ¿hasta dónde y cuándo se remonta? El término tiene evocaciones viejunas y uno está tentado de buscar sus orígenes en, no sé, algún Bernoulli —¿Jacobo?—, Laplace o el mismo Pascal. Pero estos autores todavía no habían alcanzado el nivel de abstracción al que estamos acostumbrados hoy: donde nosotros usaríamos “variable aleatoria” ellos hablan de eventos, bolas, tiradas de monedas, ganancias de un jugador u otras concreciones.

¿Una nueva afición para los próximos 10-15 años?

Ayer estuve disfrutando como un enano leyendo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido Sir Ronald Fisher. Y me fijé que fue publicado en 1922. En él se cita —y nada elogiosamente, hay que decirlo— el A Treatise on Probability de Keynes, que fue, a su vez, publicado en 1921.

Aquellas cosas que constituyen el temario de las oposiciones al INE se estaban escribiendo hace cien años. Solo que de una manera muy amena, con pullas, con reconocimientos explícitos de que, bueno, se hacen las cosas así porque no tenemos potencial de cálculo suficiente para hacerlas de otra manera —esas cosas que hoy hacemos como en 1922 no porque ya no podamos hacerlas de otra manera sino porque se dejaron así escritas entonces—, que usamos tales distribuciones y no otras porque están tabuladas, etc.

¿Cómo aleatorizan las columnas los RRFF?: un experimento mental y una coda histórica

I. El experimento mental

Tienes una variable binaria y y 100 variables predictoras de las cuales 99 son puro ruido y la última es igual a y. En código,

n <- 1000
y <- as.factor(rbinom(n, 1, .4))
x <- matrix(rnorm(n*100), n, 100)
x[,100] <- y

El objetivo consiste, obviamente, en predecir y en función de x.

II. RRFF

Los RRFF, como es bien sabido, son conjuntos de n árboles construidos sobre los mismos datos. La predicción final se realiza por consenso. Obviamente, si todos los árboles se construyen sobre las mismas filas y las mismas columnas, el resultado es equivalente a construir un único árbol. Por eso, aleatorizan. Aleatorizan filas y columnas. Voy a obviar el asunto de las filas y me voy a concentrar en el de las columnas.

¿Quién inventó los "random forests"?

[Este artículo tiene una corrección —tachado en el texto que sigue— posterior a la fecha de publicación original. Véase la entrada "¿Cómo aleatorizan las columnas los RRFF?: un experimento mental y una coda histórica" para obtener más información al respecto.]

Si hacemos caso, por ejemplo, a la gente que estaba allí entonces, la que estaba al día de todo lo que se publicaba en la época, la que conocía personalmente a los presuntos implicados y la que seguramente había tenido constancia previa de la idea en alguna pizarra o en la servilleta de una cafetería, fue Leo Breiman en 2001. Así nos lo cuentan, por ejemplo, Hastie et al. al principio del capítulo 15 de The Elements of Statistical Learning (2ª edición):

Cournot sobre el "efecto Roseto", 120 años antes de tal

Esta entrada abunda sobre una de la semana pasada sobre el llamado efecto Roseto. El Cournot al que alude el titulo es el Cournot famoso (1801-1877) al que, a pesar de ser más conocido por sus aportaciones a la economía, debemos una Exposition de la théorie des chances et des probabilités de 1843.

En su párrafo 114 critica explícitamente el tipo de conclusiones a las que llegan los descuidados exégetas del asunto Roseto y que Stigler comenta así:

De "la fiebre amarilla de Cádiz y pueblos comarcanos" de 1800

Esta entrada está motivada, en última instancia, por la lectura del libro (muy recomendable, por otra parte), The Art of Statistics: Learning From Data, de David Spiegelhalter. Sus muchas virtudes hacen, por contraste, que relumbre particularmente un defecto característico de toda esa creciente literatura sobre el tema: su aburridor anglocentrismo. Que si el médico devenido asesino en serie, que si los cirujanos de Bristol, que si el manidísimo John Snow (que esta vez, en este libro, de casualidad, no aparece),…

Turing y la telepatía

Turing dejó escrito:

[T]he statistical evidence [for extra sensorial perception], at least for telepathy, is overwhelming.

He visto usarse esta cita como evidencia de que Turing, al igual que Newton y muchos otros, daba una de cal y otra de arena. Sin embargo, el párrafo completo de donde se extrae la cita admite la ironía como muy probable interpretación alternativa:

I assume that the reader is familiar with the idea of extra-sensory perception, and the meaning of the four items of it, viz. telepathy, clairvoyance, precognition and psycho-kinesis. These disturbing phenomena seem to deny all our usual scientific ideas. How we should like to discredit them! Unfortunately the statistical evidence, at least for telepathy, is overwhelming. It is very difficult to rearrange one’s ideas so as to fit these new facts in. Once one has accepted them it does not seem a very big step to believe in ghosts and bogies. The idea that our bodies move simply according to the known laws of physics, together with some others not yet discovered but somewhat similar, would be one of the first to go.

Un acto fallido: la pregunta sigue, pues, abierta

Jot Down es una publicación recomendable. Aunque frecuentemente peque de a lo que tienden las publicaciones de letras (en el sentido menos amable del término): que prime el escribir bonito sobre la sustancia, el argumento y su coherencia.

El artículo que motiva este se anuncia como Especulación inmobiliaria, tradición centenaria y recoge tres episodios (¿anécdota? ¿categoría?) bien conocidos pero florida y amenamente descritos:

  • El del duque de Lerma a principios del XVII.
  • El del marqués de Salamanca, en el XIX.
  • El que se deriva de la ley del suelo de 1998.

Se habla abundantemente de los aspectos negativos de los tres (recuérdese: de letras). Al tratar el último, el más interesante en términos efectivos, se arrima pero no llega a plantear (y, por supuesto, tratar de dar respuesta a) la pregunta más obvia. Es algo así como si en una película de intriga, en los últimos minutos, tras la escalada de la tensión, en lugar de resolver el misterio e identificar y detener al asesino, cambiase súbitamente el género y una horda de zombis se comiese el cerebro de todos los implicados.

España, Platón, Madrid

En 1871-1872 se publicó la primera edición de las obras completas de Platón traducidas al español. Hubo 500 suscriptores en toda España (que entonces incluía, recuérdese, Cuba, Puerto Rico y quién sabe si algún desafortunado lugar más). Y uno más de Uruguay, que solicitó dos copias.

En total, 11 volúmenes de 250-350 páginas de texto no demasiado prieto.

La distribución provincial de suscriptores fue:

Ciertamente curiosa.

Más información (incluida la lista de los suscriptores, tanto institucionales como privados), aquí.