Estadística

48 horas de consumo doméstico real de electricidad

Sin más preámbulos, es así (para apreciar el detalle, conviene abrirla en otra pestaña): ¿Por qué es este gráfico relevante? Poca gente ha visto cómo se consume electricidad en un hogar con una resolución de unos pocos segundos. A lo más, con una resolución horaria facilitada por la compañía distribuidora. Pero que, obviamente, suaviza y desdibuja los picos. Mucha gente hace y/o tiene que hacer estimaciones de qué potencia contratar. Las heurísticas existentes son, permítaseme decirlo así, una mierda.

¿Qué distribución usar? ¡Examina el proceso generativo!

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala. La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión.

Extrapolar es difícil (¿imposible?); hoy, con "sigmoides"

La extrapolación problemática. Que es la manera erudita de decir que ni de coña. La extrapolación —lineal, en este caso— tiene dos problemas: No sabemos si el fenómeno va a seguir comportándose de manera lineal fuera del rango de las observaciones. Aunque lo sea, el error cometido al ajustar una recta usando solo datos de un extremo es muy grande. Lo ideal, de hecho, es tener datos en ambos extremos del intervalo de interés.

Reducción del error en tests A/B (y similares)

Hoy, cuatro maneras distintas de realizar un test A/B. Comienzo con unos datos simulados que tienen este aspecto: set.seed(1) n <- 1000 test <- c(rep(0, n/2), rep(1, n/2)) y0 <- rnorm(n) y1 <- y0 + test + rnorm(n) Ahí: n es el número de sujetos, 1000. test es un vector que indica el tratamiento: 500 en un grupo, 500 en otro. y0 es el valor de/asociado a los sujetos en un periodo anterior al tratamiento.

El negocio bancario como corolario del teorema central del límite (y sí, de paso, sobre SVB)

Todo lo que voy a contar aquí es cierto y a la vez falso. Es cierto en primera aproximación —en esa en la que las vacas son esféricas— y falso cuando se examinan los términos de orden superior del desarrollo de Taylor de lo que cuento. Advertido lo cual, comienzo. I Los bancos funcionan esencialmente así: reciben dinero de unos clientes y se lo prestan a otros. Ganan dinero por la diferencia en los tipos de interés entre depósitos y préstamos.

De la paradoja de la patata a los neo-Protágoras de la estadística

I X tiene un 100 kilos de patatas. Las patatas tienen un 99% de agua y las deja orear hasta que tengan solo un 98% de agua. Cuando eso suceda, ¿cuánto pesarán las patatas? Piénsalo… Sigue… ¿Seguro? Hummmm… Te te lo voy a contar enseguida, pero merece la pena que trates de calcularlo por ti mismo. Venga… Vale, te lo digo. II Son 50 kilos. Efectivamente, $$\frac{1}{100 - x} = .

Memes, memes estadísticos y sofística

I. Memes Dice la Wikipedia que un meme es es la unidad teórica más pequeña de información cultural1​ transmisible de un individuo a otro, de una mente a otra, o de una generación a la siguiente. Sin embargo, suelen conocerse como memes solo aquellos memes que, por algún motivo, debido a algún tipo de característica particular —tanto intrínseca como del cuerpo social en el que se mueven— se difunden como un virus.

Un estadístico le echa un vistazo a su consumo eléctrico en tiempo real

I. Por eso de que el Pisuerga pasa por Valladolid y que el diablo, cuando se aburre, mata moscas con el rabo, he instalado un cacharrito de 30 euros en el cuadro eléctrico de mi casa que mide el consumo (vatios, amperios y voltios)en tiempo real. En concreto, guardo medidas cada seis segundos aproximadamente. Mi perfil de consumo (potencia, en kW), sobre el que volveré luego, es así: II. En esto de la electricidad doméstica existen tres potencias —$P_r$, $P_c$ y $P_i$— que, en situaciones normales, cumplen la regla

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como $$\lambda_t = a + b t$$ en lugar del estándar $$\lambda_t = \exp(a + b t).$$ Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Una regresión de Poisson casi trivial con numpyro

El otro día hubo, parece, cierto interés por modelar la siguiente serie histórica de datos: Notas al respecto: El eje horizontal representa años, pero da igual cuáles. El eje vertical son números naturales, conteos de cosas, cuya naturaleza es poco relevante aquí, más allá de que se trata de eventos independientes. Se especulaba con un posible cambio de tendencia debido a una intervención ocurrida en alguno de los años centrales de la serie.

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT: Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones. Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así: De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante.