Charla en el CodingClub de la UC3M este martes

Este martes 17 de diciembre hablaré durante una hora sobre (cierto tipo de) big data y modelos adecuados para modelarlos en el CodingClub de la Universidad Carlos III. El contenido de la charla, entiendo, se publicará también después en el blog del CodingClub. Los detalles (sitio, hora, etc.) están en el enlace indicado más arriba. Obviamente, agradezco a los organizadores del CodingClub por haberme invitado. Es, además, el ciclo de charlas sobre cosas relacionadas con datos más serio y mejor organizado que conozco. Y con eso, prácticamente, cierro el 2019 para casi todos los efectos. En 2020, más.

16 de diciembre de 2019 · Carlos J. Gil Bellosta

P-valores y decisiones

Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos. Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto: ...

4 de diciembre de 2019 · Carlos J. Gil Bellosta

La población envejece pero, ¿envejecen también los grupos de edad?

La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo? No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión. En EE.UU., claro, no en España. ...

3 de diciembre de 2019 · Carlos J. Gil Bellosta

bamlss promete regresión bayesiana flexible

Un paquete relativamente nuevo de R (las primeras versiones son de 2017) que llevo un tiempo siguiendo de reojo es bamlss. bamlss es un paquete que permite especificar y ajustar varios tipos de modelos usando en principio métodos bayesianos, aunque tampoco necesariamente. No puedo decir mucho más de él de momento. Habrá que ver cómo se comporta más allá de los ejemplos discutidos en la documentación. Muchos paquetes tienden a hacer trivial lo que antes era sencillo e imposible lo que antes difícil. Espero que no sea el caso y que acabe facilitando la divulgación de herramientas estadísticas avanzadas más allá del consabido $y \sim x_1 + x_2 + \dots$ envuelto sea en lm o en XGBoost.

19 de noviembre de 2019 · Carlos J. Gil Bellosta

tfprobability debería llamarse tfeoprobability

Porque, aunque la intención sea buena, el DSL (que ni siquiera llega a serlo) es muy, muy feo. Que en este contexto, además, quiere decir antinatural. La demostración, aquí, aquí o aquí.

12 de noviembre de 2019 · Carlos J. Gil Bellosta

Análisis y predicción de series temporales intermitentes

Hace tiempo me tocó analizar unas series temporales bastante particulares. Representaban la demanda diaria de determinados productos y cada día esta podía ser de un determinado número de kilos. Pero muchas de las series eran esporádicas: la mayoría de los días la demanda era cero. Eran casos de las llamadas series temporales intermitentes. Supongo que hay muchas maneras de modelizarlas y, así, al vuelo, se me ocurre pensar en algo similar a los modelos con inflación de ceros. Es decir, modelar la demanda como una mixtura de dos distribuciones, una, igual a 0 y otra >0, de manera que la probabilidad de la mixtura, $p_t$, dependa del tiempo y otras variables de interés. ...

4 de noviembre de 2019 · Carlos J. Gil Bellosta

DLMs

O Distributed Lag Models (véase, por ejemplo, dLagM). Son modelos para estimar el impacto de una serie temporal sobre otra en situaciones como la siguientes: Una serie mide excesos de temperaturas (en verano). La otra, defunciones. Existe un efecto causal (débil, pero medible) de la primera sobre la segunda. Pero las defunciones no ocurren el día mismo en que ocurren los excesos de temperaturas, sino que suelen demorarse unos cuantos días. ...

31 de octubre de 2019 · Carlos J. Gil Bellosta

r -> d -> p -> q

Primero fue la r (runif, rnorm, rpois,…). De la r surgió el histograma. Y el histograma era casi siempre parecido. Y aquello a lo que se parecía se llamó d (dunif, dnorm, etc.). Y era bueno. (Obviamente, debidamente normalizado con integral 1, algo sobre lo que afortunadamente la tontuna de las identidades culturales aún no ha protestado). La p, una integral de la d, es una conveniencia que permite contestar rápido determinadas preguntas razonables y habituales. ...

30 de octubre de 2019 · Carlos J. Gil Bellosta

Se non è vero, non è vero (¡qué se le va a hacer!)

Me llegó por fuentes habitualmente fiables el vídeo que se resume en que el apagón del día 29 de septiembre en Tenerife, es decir, esta cosa tan horrorosa fue producto de la variabilidad de la producción de la energía eólica. En particular, de una bajada drástica de la aportación de la eólica al mix consecuencia de un descenso en la intensidad del viento. Lo cual, de ser cierto, debería convertirse en referencia básica para ilustrar los perniciosos efectos de la variabilidad, etc. ...

21 de octubre de 2019 · Carlos J. Gil Bellosta

Voy a demostrar (con la ayuda del INE) que Airbnb no existe

Tan vasto es el fenómeno Airbnb que malo será no haya dejado traza en las estadísticas oficiales. Que como oficiales, son verdad. No podemos hacer caso a las estadísticas de ocupación hotelera del INE porque son de lo de que dicen: hoteles (y asimilados). Airbnb tiene que dejarse notar en otra parte. ¿Cuál? Frontur, la estadística de movimientos turísticos en frontera del INE. (Sin enlace: los enlaces del INE van y vienen). Las cifras de Frontur proceden de encuestas a turistas que salen de España a los que se somete a un cuestionario y cuyos resultados se extrapolan al total de la población extranjera que circulan por las fronteras. Así que, a diferencia de la estadística de ocupación hotelera (donde el INE solo adquiere información de turistas que pernoctan en hoteles), en esta encuesta son los turistas, independientemente de donde hayan dormido, los que dicen dónde lo hicieron. Y los resultados son estos: ...

8 de octubre de 2019 · Carlos J. Gil Bellosta