Estadística

Turing y la telepatía

Turing dejó escrito:

[T]he statistical evidence [for extra sensorial perception], at least for telepathy, is overwhelming.

He visto usarse esta cita como evidencia de que Turing, al igual que Newton y muchos otros, daba una de cal y otra de arena. Sin embargo, el párrafo completo de donde se extrae la cita admite la ironía como muy probable interpretación alternativa:

I assume that the reader is familiar with the idea of extra-sensory perception, and the meaning of the four items of it, viz. telepathy, clairvoyance, precognition and psycho-kinesis. These disturbing phenomena seem to deny all our usual scientific ideas. How we should like to discredit them! Unfortunately the statistical evidence, at least for telepathy, is overwhelming. It is very difficult to rearrange one’s ideas so as to fit these new facts in. Once one has accepted them it does not seem a very big step to believe in ghosts and bogies. The idea that our bodies move simply according to the known laws of physics, together with some others not yet discovered but somewhat similar, would be one of the first to go.

Siete llaves al sepulcro del método delta

El desafortunado tuit

es de lo más parecido a que me repitan unos chorizos que me ha ocurrido últimamente. Salvo que en lugar de chorizos, lo que se me manifestaban fueron años estudiando matemáticas y, por extensión, las partes más analíticas de la estadística.

Con inmerecida delicadeza, se me respondió:

Estadística "sin el dolor agónico"

Acabo de ver

y:

  • Me parece increíble que se pueda ir a una conferencia seria a describir el t-test. ¿Así está el cotarro?
  • En tanto que anacrónica (critica hoy una tecnología de 1908), tanto la critica y como su tono me parecen injustos.
  • En tanto que no (¡aún se enseña casi tal cual!), entiendo muchas cosas.

Regresiones con discontinuidad y grados de libertad

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores

que ilustra el resultado principal del artículo discutido aquí.

Mario, un lector del artículo nos quita la palabra de la boca a todos:

No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos. […]

La probabilidad, ¿algo subjetivo?

Esta entrada es una contestación a

I.

Habrá quien sostenga que la geometría (plana, euclídea, por antonomasia) es subjetiva, que es una construcción de la mente, de cada mente. Igual queda todavía alguno de los que, por el contrario, creían que los triángulos equiláteros residen en una especie de edén donde tienen una existencia ideal y que nuestra mente, de alguna manera, se limita a reflejarlos.

P-valores y decisiones

Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos.

Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto:

La población envejece pero, ¿envejecen también los grupos de edad?

La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo?

No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión. En EE.UU., claro, no en España.

Sobre los coeficientes de los GLM en Scikit-learn

Pensé que ya había escrito sobre el asunto porque tropecé con él en un proyecto hace un tiempo. Pero mi menoria se había confundido con otra entrada, Sobre la peculiarisima implementacion del modelo lineal en (pseudo-)Scikit-learn, donde se discute, precisamente, un problema similar si se lo mira de cierta manera o diametralmente opuesto si se ve con otra perspectiva.

Allí el problema era que Scikit-learn gestionaba muy sui generis el insidioso problema de la colinealidad. Precisamente, porque utiliza un optimizador ad hoc y no estándar para ajustar el modelo lineal.

Los factores de Bayes son las hamburguesas veganas

Si eres vegano, vale, come tu lechuga y tu berenjena. Pero, ¿qué necesidad tienes de hamburguesas veganas? ¿Y a qué viene ufanarte de que saben casi igual?

[Nota: el párrafo anterior está escrito en condicional y aplica a ciertos veganos, entrellos alguno que conozco.]

Siempre he visto todo lo que rodea a los factores de bayes un tufillo a hamburguesa vegana. Es decir, un intento por reproducir lo más fidedignamente posible aquello que —¿por razones metodológicas?— rechazamos.

A más gripe, ¿menos mortalidad? En determinados submundos frecuentistas, sí

Estos días he tenido que adaptar y ejecutar con datos españoles una serie de modelos para medir la virulencia de diversos subtipos de gripe. Y todo bien, salvo que para uno de ellos y determinados grupos de edad… a mayor prevalencia, menor mortalidad. ¡Estupendo!

Todo sucede porque un coeficiente que debería haber sido necesariamente positivo fue estimado como negativo (además, significativamente).

Y el coeficiente tenía el signo cambiado (¡error de tipo S!) debido a una serie de problemas sobradamente conocidos: