Por motivos que no vienen al caso, me ha tocado ponderar el artículo The use of controls in interrupted time series studies of public health interventions. Lo comento hoy porque hace referencia a temas que me ha gustado tratar en el pasado.
El artículo, prima facie, es un poco viejuno. De hecho, casi todo lo que se escribe sobre metodología en el mundo de las aplicaciones (y el que cito tiene que ver con salud pública) tiene tufillo de naftalina.
X escribe en 2020:
In particular, panel A presents the results when the municipalities are divided according to the real average Internet speed (Mbps). As is evident, the effect of extreme-right mayors on hate crimes is concentrated in municipalities where Internet speed is high, especially when the intensive margin is considered […]
Y escribe también en 2020:
Results show that Internet availability between 2008 and 2012 is associated with a better knowledge of (national) immigration dynamics and that it leads to an overall improvement in attitudes towards immigrants.
En esta entrada abundo en una que escribí hace ocho años: Conceptos estadísticos que desaprender: la suficiencia. Lo hago porque casualmente he tropezado con su origen y justificación primera, el afamado artículo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido R.A. Fisher.
Criticaba en su día lo inútil del concepto. Al menos, en la práctica moderna de la estadística: para ninguno de los conjuntos de datos para los que trabajo existe un estadístico suficiente que no sea la totalidad de los datos.
He publicado esto en Youtube:
Igual no lo debería haber hecho. Trata del manido tema “alguien ha publicado un artículo científico con serios errores metodológicos”. Que es una versión del más popular
(No hace falta que indique la fuente, ¿verdad? Sabéis que sé que sabéis de dónde lo he sacado, ¿no?)
Lo he hecho únicamente por lo popular que me da la impresión que se ha hecho en las redes sociales, por las lecciones que se pueden extraer para no cometer los mismos errores por ahí y, finalmente, por la contumacia de gente que debería saber más y mejor.
Este artículo (sobre si los estadísticos se autoaplican el mismo rigor metodológico a la hora de seleccionar herramientas de análisis que luego exigen a otros) me llevó a este otro artículo donde se menciona una técnica, la inferencia basada en magnitudes, MBI en lo que sigue, por sus siglas en inglés, de la que trata lo que sigue.
Buscaban las autoras del segundo artículo un ejemplo de una técnica de esas que se publican en revistas de metodología estadística que acabara no teniéndose de pie.
El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.
Se ha dado por cabal en muchos medios lo que espero que no llegue a más que a un borrador. Ha sido publicado por el Banco de España y contiene párrafos como
En cambio, la menor cualificación, por término medio, de los trabajos desempeñados por los jóvenes licenciados españoles sugiere que su nivel de desempleo comparativamente mayor que el de sus homólogos del área del euro podría obedecer, entre otros factores, a una menor calidad de la educación superior.
Dice la Wikipedia que la primera denuncia de luego conocida como la falacia ecológica hay que buscarlos en Ecological Correlations and the Behavior of Individuals de un tal W. S. Robinson. Cuenta, entre otros ejemplos, cómo existía una correlación positiva entre ser inmigrante y ser analfabeto (según el censo de 1930 de EE.UU.), evidenciada por la tabla
en tanto que si se examinan los mismos datos por divisiones (ciertas agrupaciones de estados que, se conoce, eran más habituales hace tiempo que ahora), se obtiene una representación de la forma
Según Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics, las variables instrumentales (para estas, en particular, véase esto) y las diferencias en diferencias:
Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic.
Es curioso que se estudie también la regresión con discontinuidades y que no acabe en el podio.
La interpretación puramente frecuentista de los intervalos de confianza es que el 95% de ellos contendrán el valor de interés en cuestión. Veamos qué nos cuenta al respecto la historia de la medición de la velocidad de la luz contemplada a través de la lectura de Determining the Speed of Light (1676-1983): An Internalist Study in the Sociology of Science primero en forma tabular (nota: en la fuente original hay una tabla más extensa de la que esta es resumen),
[Esta es una] Breve nota para difundir la corrección que realizado en mi [entrada del viernes](http://Comentarios varios sobre un artículo de El País sobre MOMO).
[Esta entrada ha sido enmendado con respecto a cómo fue publicada originalmente por los motivos que abajo se indican.]
El artículo es El Instituto de Salud Carlos III subestima las muertes de la segunda ola y los comentarios, estos:
El artículo trata un tema conocido de muchos, la infraestimación que hace el actual sistema MOMO de los excesos de mortalidad y cuyos motivos comenté extensamente el otro día. Dice, muy acertadamente:
Ayer leí este resumen de este artículo que propone y discute un algoritmo novedoso y basado en ciencia de datos para ordenar datos y hacerle la competencia a quicksort y demás. Reza y promete:
The results show that our approach yields an average 3.38x performance improvement over C++ STL sort, which is an optimized Quicksort hybrid, 1.49x improvement over sequential Radix Sort, and 5.54x improvement over a C++ implementation of Timsort, which is the default sorting function for Java and Python.