artículos

Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations. Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí): Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo

Muchos cocineros con la misma receta...

[Iba a guardar un enlace a este artículo entre mis notas, pero, qué demonios, lo dejo aquí, público, porque así lo encuentro yo y lo encontramos todos.] ¿Qué pasa/puede llegar a pasar si muchos científicos de datos analizan los mismos datos en busca de una respuesta a la misma cuestión? Una de las posibles respuestas está en Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results.

El pozo aristotélico

[Hoy voy a tratar ciertas reflexiones suscitadas por el artículo más relevante que he leído este verano.] La física aristotélica tiene mala prensa. Sin embargo, Carlo Rovelli, en _Aristotle’s Physics: a Physicist’s Look _ofrece una visión alternativa y más optimista de la generalizada, que resume así: I show that Aristotelian physics is a correct and non-intuitive approximation of Newtonian physics in the suitable domain (motion in fluids), in the same technical sense in which Newton theory is an approximation of Einstein’s theory.

Rarezas: ML algebraico

Alguien (¡gracias!) me pasa Algebraic Machine Learning, que abunda sobre lo que escribí hace varios años. Confieso no haber entendido gran cosa en una primera (y última) lectura diagonal, pero tal vez alguno de mis lectores sí.

Análisis de arquetipos

De eso trata un artículo de los noventa de Breiman. Es decir, de encontrar dentro de conjuntos de datos conjuntos finitos de sujetos puros que permiten representar cualquier otro como una mezcla (o combinación convexa) de ellos. Ideas a vuelapluma: Cuando leo sobre el asunto, la palabra que no deja de aparecérseme es outlier. Curiosamente, la busco en el texto y se resiste a aparecer. Pero me aterra la posibilidad de estar caracterizando a los sujetos normales (¿aún se puede usar la expresión?

Más sobre el artículo raro, raro, raro

No he podido evitar darle vueltas al artículo que comenté el otro día aquí, Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification, de la manera más caritativa posible. En particular, me he preguntado: ¿Por qué se escribió (en lugar de no haberse escrito)? ¿Por qué se escribió en esos términos (en lugar de en otros)? Obviamente, el artículo no enseña nada desde el punto de vista técnico.

¿Qué queda de la "estadística robusta" clásica?

Estos días estoy muy atento a todo lo que tiene que ver con estadística robusta. El motivo es doble: Estoy involucrado en un proyecto donde quieren ajustar ciertos modelos usando funciones de pérdida robustas (Huber, Tukey, etc.). Hay una $latex 1 > p > 0$ de que me toque meter mano a MOMO y sus derivados para que lo del coronavirus no joda los contrafactuales de 2021 y sucesivos (¿bastará con eliminar unos cuantos meses de 2020?

Regresión polinómica vs redes neuronales

Hace un tiempo se publicó un artículo, Polynomial Regression as an Alternative to Neural Nets, que se anunciaba como lo que anuncia su título: que usar redes neuronales (clásicas, al menos), equivalía a hacer regresión polinómica. El quid de la cosa es cosa simple, de primeros de carrera. Solo que los autores solo lo desvelan después de haber puesto a prueba la perseverancia de los lectores con montañas de frases que aportan poco.

Un artículo muy raro, raro, raro

Hoy voy a comentar un artículo muy raro que me ha llegado recientemente y que se titula nada menos que Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification. Argumenta el artículo alrededor de lo siguiente (que creo que ya sabemos todos: son ejercicios matemáticos básicos de un curso introductorio de probabilidad): Que la inferencia bayesiana con prioris planas (degeneradas, de ser necesario) es equivalente a la inferencia frecuentista.

AI (o ML, o DM, o...) y la "crítica de Lucas"

Supongo que ya sabéis la historia de los pañales y la cerveza (¡y acabo de averiguar que pudiera haberse publicado en el 92!): dizque usando DM, ML o AI (dependiendo de la década en que se cuente la historia) se ha identificado una correlación entre las ventas de cerveza y pañales. Una manera de proceder que me espantaba cuando comencé a trabajar en esto pero a la que me he ido acostumbrando con el tiempo es la siguiente.

Escalabilidad (y estructuras cooperativas)

Esta entrada es una breve nota (en parte, para mí) sobre On the Scalability of Cooperative Structures, un artículo sobre lo que el título indica (sí, que existen estructuras cooperativas como, p.e., las cooperativas o determinados sistemas políticos defendidos desde ciertas posiciones ideológicas, que tienen muy serios problemas de escalabilidad) y que a pesar de su interés no cabría en estas páginas si no fuese por este parrafito: What I would like to do, instead, is introduce a concept to the discussion that I believe has the potential to elucidate several aspects in an extremely helpful way.

Bagging y boosting, hermanados

Ambas son heurísticas para construir modelos buenos a partir de la combinación de modelos malos. Con la diferencia —¿recordáis los condensadores de la física de bachillerato?— de que en un caso se colocan en paralelo y en el otro, en serie. Entran Friedman y Popescu (algoritmo 1): Y, tachán: Bagging, si $latex \nu = 0$ Boosting otherwise.

Sobre "Predicción, estimación y atribución"

Subrayo hoy aquí tres cuestiones que considero importantes del reciente artículo Prediction, Estimation, and Attribution de B. Efron (para otra visión, véase esto). La primera es que existe una cadena de valor en la modelización estadística que va del producto más ordinario, la predicción, a la estimación y de este, al más deseable, la atribución. En la terminología de Efron, estimación consiste en la determinación de los parámetros subyacentes (e importantes) del modelo; específicamente se refiere a la estimación puntual; atribución tiene que ver con intervalos de confianza, p-valores, etc.