Estadística

Isosemanas

Muchos fenómenos tienen una periodicidad intrínsecamente semanal (p.e., el tráfico). Eso puede motivar el uso la semana como unidad temporal de referencia en determinados análisis en lugar del mes o el día.

Existe gente que tal vez no esté al tanto de que existe un estándar ISO para definir y representar las semanas sin ambigüedad, el ISO 8601. Sus principales características son

  • Las isosemanas comienzan el lunes y terminan el domingo.
  • La primera isosemana del año es la que contiene el primer jueves del año.
  • Un año contiene típicamente 52 isosemanas, aunque algunos (entre ellos, 1903, 1908, 1914, 1920, 1925, 1931, 1936, 1942, 1948, 1953, 1959, 1964, 1970, 1976, 1981, 1987, 1992, 1998, 2004, 2009, 2015, 2020, 2026, 2032, 2037, 2043, 2048, 2054, 2060, 2065, 2071, 2076, 2082, 2088, 2093, 2099) contienen 53.
  • Las isosemanas se representan con el formato YYYY-Www (e.g., 2025-W10 para la décima semana de 2025)

Hoy en día no merece la pena que indique cómo calcular ni manipular isosemanas en los lenguajes de programación más usuales: casi cualquier LLM lo sabe y lo puede ayudar a uno a crear funciones como

¿Por qué seleccionar "el mejor" modelo?

Tiene Ripley, el gran Ripley, un artículo de hace 20 años titulado Selecting Amongst Large Classes of Models donde discute la cuestión —la del título de esta entrada— y dice:

Deberíamos preguntarnos por qué queremos seleccionar un modelo. Parece ser un error extendido que la selección de modelos trata de “seleccionar el mejor modelo”. Si buscamos un modelo explicativo, deberíamos tener presente que puede haber varios modelos explicativos (aproximadamente) igual de buenos: lo aprendí de David Cox cuando era un profesor novato en el Imperial College tras haber hecho muchas selecciones informales de modelos en problemas aplicados en los que me hubiera resultado útil haber podido presentar soluciones alternativas.

Adiós, Análisis y Decisión

Escribí en 2016:

Corría el año 2009 cuando comencé mi segunda aventura bloguera (nadie, yo incluido, quiere rememorar la primera) cuando Raúl Vaquerizo tuvo la caridad de aceptarme como colaborador en Análisis y Decisión.

En diciembre de aquel año escribí cómo utilizar R en una cosa que entonces comenzaba a sonar: la nube y, en concreto, el servicio EC2 de Amazon.

El resultado, probablemente totalmente desfasado, fue este.

Material de hemeroteca, alimento de melancolías.

Bajo hipótesis razonables, hacen falta 16 veces más observaciones para estimar una interacción que para estimar un efecto principal

Uno de los grandes temas de estas páginas es que el efecto principal de un tratamiento es un indicador demasiado burdo. Casi siempre queremos ver ese efecto propiamente desglosado: a unos sujetos les afecta más, a otro menos.

Para lograr ese objetivo, hay que estudiar cómo interactúa el efecto con otras variables (p.e., sexo). Desafortunadamente, cuanto mayor es el grado de desglose, más incertidumbre existe sobre las estimaciones; a la inversa, para lograr una mayor precisión en las estimaciones, hace falta incrementar el tamaño muestral. Pero, ¿cuánto?

Sobre el modelo beta-binomial con "deriva"

Planteamiento del problema

El modelo beta-binomial es precisamente el que estudió el reverendo Bayes. Es tan viejo como la estadística bayesiana: tienes una moneda, la tiras repetidamente y vas afinando progresivamente la estimación de la probabilidad de cara asociada a tal moneda.

Una variante habitual del problema anterior ocurre cuando hay una deriva (uso deriva como traducción de shift) en la probabilidad de la cara de la moneda: puedes estar tratando de vender productos en Amazon y estimar el número de ventas por impresión; es tentador usar el modelo beta-binomial, pero hay un problema: ¿los datos de hace tres años, siguen siendo relevantes?; ¿habrán cambiado en tanto las probabilidades?; en tal caso, ¿qué se puede hacer?

Seis asuntos sobre modelización estadística, incluyendo un problema que no parece del todo trivial

Sobre catboost

Todavía no he usado catboost en ningún proyecto serio, aunque tiene la pinta de ser la evolución más sofisticada de todos las variantes existentes del boosting. Ya escribí al respecto aquí y hoy traigo dos enlaces adicionales de José Luis Cañadas, un usuario muy entusiasta. Una sobre el tratamiento de las variables categóricas y otro sobre la regresión por cuantiles.

Ajuste bayesiano de un modelo con censura

Lo presenta el maestro Juan Orduz aquí que, como todos, no para mientes al hecho no totalmente evidente de que la verosimilitud de una densidad mixta (continua y discreta a un tiempo) es la que se postula que es (véase cómo arranca la sección Censored Gamma Model).

Unas cuantas herramientas tecnológicas

Modelos directamente en base de datos

Sería muy cómodo poder correr modelos estadísticos directamente en la base de datos, sin tener que realizar costosas y problemáticas extracciones de datos. Rebuscando, he encontrado entradas de hace catorce años sobre el asunto en estas páginas (esta), de la época en que a eso se lo llamaba in-database analytics y se suponía que era el motivo de la entonces esperada fusión de SAS y Teradata.

La paradoja (de Simpson) detrás de ciertos argumentos en pro de una subida generalizada de salarios

Trae El Confidencial un artículo de Javier Jorrín —según Jesús Fernández-Villaverde, el mejor periodista económico ahora mismo en España—, titulado La mejora de la productividad permitirá a las empresas prolongar la subida de salarios. El artículo se resume en tres enunciados que, así, en frío, según se verá, son contradictorios:

  1. Ha aumentado la productividad (PIB por hora trabajadda) en España.
  2. Eso da margen para que suban los salarios.
  3. El incremento de la productividad se debe a que ganan peso los sectores económicos más productivos.

La problemática relación entre (1) y (2) se la dejo a los economistas. Se pueden elaborar experimentos mentales en los que (2) se sigue de (1) y otros en los que no. Evaluar su pertinencia no es materia de estas páginas.

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

Probabilidad y estadística en los Ig Nobel de 2024

Los premios Ig Nobel de este año se han anunciado (y entregado) recientemente. Dos de ellos guardan cierta relación con el asunto de estas páginas:

  1. El de demografía ha recaído en Saul Justin Newman, de la universidad de Oxford, por mostrar cómo muchos de los casos de ultracentenarios (personas que viven hasta edades significativamente por encima de los cien) ocurren realmente en lugares donde la esperanza de vida no es particularmente alta, no hay certificados de nacimiento y abundan los errores administrativos y el fraude en las pensiones. De hecho, en esta entrevista afirma cosas tan entretenidas como que en Okinawa, el mejor predictor del lugar donde residen los ultracentenarios es que el registro civil del municipio en cuestión hubiese sido destruido por los bombardeos estadounidenses en la II Guerra Mundial.
  2. El de probabilidad, en un equipo de 50 investigadores por el artículo Fair coins tend to land on the same side they started: Evidence from 350,757 flips, cuyo título lo dice todo.

El artículo busca la confirmación de resultados anunciados por Persi Diaconis y sus coautores en un artículo que ya mencioné hace años aquí. Puede que a alguien le parezca ridículo e inaudito realizar un experimento consistente en lanzar monedas un total de 350757 veces; pero hay que recordar que el primer problema de estadística que conste documentalmente que se resolvió usando p-valores fue el de determinar si había sesgos en doce dados que se lanzaron 26306 veces allá en 1900 (véase esto).