Sobre la hipótesis de la variedad

Dice (y traduzco) François Chollet en su libro sobre aprendizaje profundo:

[…] la hipótesis de la variedad [manifold hypothesis] consiste en que todos los datos naturales están situados sobre una variedad de dimensión baja dentro del espacio de alta dimensionalidad en el que están cosificados. Es una hipótesis muy fuerte sobre la estructura de la información en el universo. Pero, por lo que sabemos hasta la fecha, no solo se cumple sino que es el motivo por el que el aprendizaje profundo funciona.

Sumas de variables de Bernuilli heterogénas

I.

El otro día planteé en Twitter la siguiente encuesta:

Como bien puede apreciarse, 16 personas tuvieron a bien contestar y nada menos que siete, casi la mitad, dieron con la respuesta acertada. Me gustaría saber qué cuentas de Twitter pueden presumir de una audiencia tan cualificada.

¿Por qué es esa respuesta correcta? Sean $p_i$ las probabilidades de éxito de $n$ bernoullis y $p$ el valor medio de las $p_i$. Entonces, la varianza de $Y$ es $np(1-p) = np - np^2$ y la de $X$ es

"Frente a la aspiración de una representación precisa, debemos considerar las limitaciones conceptuales, matemáticas y computacionales"

La cita que da título a la entrada procede —con mi ¿mala? traducción— del artículo Philosophy and the practice of Bayesian statistics que, en realidad, trata de otra cosa. Pero que resume muy bien algo que mucha gente tiende a ignorar: mucho del corpus de lo que actualmente llamamos positivamente estadística está condicionado por las circunstancias conceptuales, matemáticas y, muy especialmente, computacionales del momento en el que fueron concebidos.

Un ejemplo: hace cien años, aún se discutía cómo calcular la $\sigma$ de una muestra. Los calculadores preferían estimar

Una aplicación/ilustración casi "full Bayesian" del filtro de Kalman

Cuestiones que no vienen al caso me empujaron finalmente a escribir una entrada que llevaba creo que años aparcada: ilustrar el uso del filtro de Kalman desde una perspectiva explícitamente bayesiana, luego accesible.

Introducción

Esto va, en resumidas cuentas, de mejorar la precisión de un sensor (un GPS, p.e.) que proporciona información ruidosa sobre la posición de un objeto que se mueve en el espacio obedeciendo ciertas ecuaciones. En particular, voy a utilizar el caso de un móvil que parte del origen ($x_0 = 0$), con una velocidad inicial de $10$ y que está sometido a una aceleración constante de $-0.3$.

Matrices de confusión, sensibilidad, especificidad, curva ROC, AUC y todas esas cosas

Esta entrada es una breve introducción a los conceptos indicados en el título. Está motivada por una pregunta que se formuló en Twitter acerca de la existencia o no de lo que voy a escribir en español y a que ninguna de las respuestas aportadas me satisfizo.

Todos esos conceptos hacen referencia al estudio de la bondad de un modelo de clasificación (es decir, un modelo que trata de predecir una etiqueta (o una variable categórica, si se quiere) a partir de ciertos datos). Comenzaré por una descripción exenta de esos conceptos y terminaré con una discusión desde la perspectiva de su aplicación práctica que, espero, sirva para ponerlos en su lugar.

Un matemático visita los modelos de difusión (generativos)

Los modelos generativos —aunque aquí generativo se use en un sentido distinto del habitual en estas páginas— están de moda (véase esto o esto). Estas aplicaciones están basadas en una serie de técnicas que el siguiente diagrama (extraído de aquí) resume estupendamente:

La más reciente de todas estas técnicas y la que subyace a las últimas y más sorprendentes aplicaciones es la de los llamados modelos de difusión. Les he estado echando un vistazo y esta entrada resume lo que he aprendido de ellos.

Umbralistas vs antiumbralistas

Dentro de ese submundo de la estadística (¿o de la epidemiología?) que estudia qué es seguro y qué no y los riesgos para la salud de diversos productos o prácticas, existen dos familias de difícil reconciliación: los umbralistas y los antiumbralistas.

Sus posiciones pueden ilustrarse gráficamente así:

Las posiciones típicas de los umbralistas quedan resumidas aquí.

Los antiumbralistas suelen ser más mediáticos (a la prensa le encantan afirmaciones del tipo: ¡el alcohol causa X desde la primera gota!) y tienen más hinchada en las clases populares.

Vale, el modelo es y = f(x) + error y f es importante, pero lo que le da significado es y

Esta es una entrada sobre la semántica de los modelos que resume mi planteamiento en una discusión que tuve hace un tiempo en Twitter. La he buscado sin éxito, así que la resumo. Alguien —no recuerdo bien— quería explicar cómo hace AEMET las predicciones meteorológicas probabilísticas. Pero con un error de planteamiento. Venía a decir que una predicción meteorológica probabilística (p.e., la probabilidad de que mañana llueva en Madrid) no significa algo así como que de tantos días parecidos a los de hoy, al día siguiente llovió en tal proporción sino otra cosa distinta.

"Generalized random forests": una introducción

Los generalized random forests (GRF en lo sucesivo) han cobrado cierta relevancia recientemente porque una de sus potenciales variantes son los llamados causal forests: RRFF adaptados para medir el tamaño de una intervención causal.

Lo que voy a contar aquí es un resumen de lo que aprendí echándole un vistazo al artículo relevante de la cosa.

[Nota: voy a simplificar un poco con respecto a lo que aparecen en el artículo por aligerar la introducción; recuérdese: este es un mapa del territorio y el territorio en sí mismo.]

Cómo organizar un proyecto de análisis de datos: primeros pasos

Esta es una entrada básica orientada a quienes comienzan en el mundo del análisis de datos y se enfrentan a uno de sus primeros retos en solitario. Contiene consejos que no son de aplicación universal, dependen del contexto y están sometidos a revisión y adecuación a las circunstancias concretas. Cada maestrillo tiene su librillo y esta es una versión simplificada del mío.

Un proyecto vive un directorio

Un proyecto vive en un directorio. Proyecto nuevo, directorio nuevo. Con un nombre que lo identifique adecuadamente, etc. Importante: ¡sin espacios en el nombre! (Utilizar espacios en el nombre de directorios y ficheros es, aparte de enojoso en sí mismo, fuente de problemas; afortunadamente, es trivial evitarlos: nunca espacios en el nombre y ya.)