Estadística

Memes, memes estadísticos y sofística

I. Memes

Dice la Wikipedia que un meme es es la unidad teórica más pequeña de información cultural1​ transmisible de un individuo a otro, de una mente a otra, o de una generación a la siguiente. Sin embargo, suelen conocerse como memes solo aquellos memes que, por algún motivo, debido a algún tipo de característica particular —tanto intrínseca como del cuerpo social en el que se mueven— se difunden como un virus. Diríase que cobran vida propia y se expanden independientemente de la voluntad o intención de sus creadores.

Un estadístico le echa un vistazo a su consumo eléctrico en tiempo real

I.

Por eso de que el Pisuerga pasa por Valladolid y que el diablo, cuando se aburre, mata moscas con el rabo, he instalado un cacharrito de 30 euros en el cuadro eléctrico de mi casa que mide el consumo (vatios, amperios y voltios)en tiempo real. En concreto, guardo medidas cada seis segundos aproximadamente. Mi perfil de consumo (potencia, en kW), sobre el que volveré luego, es así:

II.

En esto de la electricidad doméstica existen tres potencias —$P_r$, $P_c$ y $P_i$— que, en situaciones normales, cumplen la regla

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como

$$\lambda_t = a + b t$$

en lugar del estándar

$$\lambda_t = \exp(a + b t).$$

Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Antes necesito añadir que:

Una regresión de Poisson casi trivial con numpyro

El otro día hubo, parece, cierto interés por modelar la siguiente serie histórica de datos:

Notas al respecto:

  1. El eje horizontal representa años, pero da igual cuáles.
  2. El eje vertical son números naturales, conteos de cosas, cuya naturaleza es poco relevante aquí, más allá de que se trata de eventos independientes.
  3. Se especulaba con un posible cambio de tendencia debido a una intervención ocurrida en alguno de los años centrales de la serie.

Lo que se ve es el resultado del ajuste de un modelo de Poisson casi trivial. Es casi trivial porque utiliza el tipo más simple de splines para modelar una tendencia quebrada en un punto desconocido, uno de los parámetros del modelo.

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT:

Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones.

Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así:

De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante. Yo [T. Philippon] he examinado datos de muchos países y periodos y he encontrado que, en casi todos los casos, el crecimiento de la productividad es de hecho lineal: $dA_t = bdt$ donde $b$ es una constante, al menos durante largos periodos históricos.

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como

$$E[X] = \int x dP_X(x).$$

Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces

$$E[Y] = \int y dP_Y(y)$$

para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

Operacionalización de la "igualdad de opotunidades"

Tiene Google (o una parte de él) un vídeo en Youtube,

sobre el que me resulta imposible no comentar nada. Trata, esencialmente, de cómo operacionalizar a la hora de poner en marcha modelos esos principios de justicia, igualdad de oportunidades, etc. de los que tanto se habla últimamente.

Sobre la "African dummy"

2022 es un mal año para recordar un asunto sobre el que tenía anotado hablar desde los inicios del blog, allá por 2010: la llamada African dummy. Mentiría, sin embargo, si dijese que no es oportuno: está relacionado con temas que hoy se consideran importantes, aunque tratado al estilo de los noventa. Es decir, de una manera inaceptablemente —para el paladar de hogaño— distinta.

La cosa es más o menos así: en el 91, a R. Barro, macroeconomista de pro, se le ocurrió publicar Growth in a cross section of countries. En el usó métodos de regresión clásica —recuérdese: macroeconomista en los 90— para estudiar qué variables explicaban el desigual crecimiento económico de los países. Se cuenta que el hombre torturó y torturó los datos para que aquello ajustase sin éxito… hasta que introdujo una singular y, por un tiempo, famosa variable: la African dummy , i.e., estar o no estar en África.

UMAP, tSNE y todas esas cosas

Estaba repasando cosas sobre reducción de la dimensionalidad y, en concreto, UMAP y tSNE. Me ha parecido conveniente replantear las cosas sobre primeros principios para que todo se entienda mejor.

El problema es el siguiente:

  • Tenemos $K$ puntos $x_i$ en un espacio de dimensión $N$.
  • Buscamos su correspondencia con otros $K$ puntos $y_i$ en un espacio de dimensión $n « N$.
  • De manera que las configuraciones de los $x_i$ y los $y_i$ sean similares en el sentido de que la matriz de distancias $(d(x_i,x_j))$ sea parecida a la $(d(y_i, y_j))$. Eso quiere decir que parejas de puntos próximos en el primer espacio deberían mapearse en parejas de puntos próximos en el segundo; parejas de puntos alejados en parejas de puntos alejados, etc.

En concreto, se buscaría minimizar algo así como, en primera aproximación,

El equivalente cierto (y apuntes para su aplicación en el monotema ¡tan cansino! de este tiempo)

A veces toca comparar dos variables aleatorias: ¿cuál de dos juegos preferirías? Hay muchas maneras de resolver ese problema, de una larga historia, con mejor o peor fortuna. En el fondo, hay que crear un orden en el conjunto de las variables aleatorias y, en el fondo —y perdónenme mis excolegas matemáticos—, proyectarlas de alguna manera sobre los números reales.

Si este número real se elige de alguna manera razonable (p.e., fijando las variables aleatorias constantes), bien puede recibir el nombre de equivalente cierto. Que es el nombre que recibe en algunas disciplinas, pero que me parece particularmente afortunado.