Sobre la correlación entre Y y la predicción de Y

Supongamos que tenemos un modelo construido sobre unos datos $(x_i, y_i)$. Para cada $x_i$, el valor $y_i$ es una realización de una variable aleatoria $Y_i$ con distribución $F_i(y)$. Por simplificar, podemos suponer, además, que para el ajuste se utiliza el error cuadrático. Entonces, lo mejor que puede hacer el modelo es encontrar la media $\mu_i$ de cada $Y_i$ —bueno, en realidad, querría encontrar $\mu_x$ para cada $x$ potencial, pero hoy vamos a dejar esa discusión aparcada—.

Significativo vs significativo

Con esta entrada voy a abundar en una literatura ya muy extensa y que muchos encontrarán ya, con razón, aburrida, sobre las diferencias entre significativo y significativo. Véase: En 2006, el ingreso anual bruto medio de los médicos era de 70.717 USD […] para los países con el sistema Bismark y 119.911 USD […] para los del sistema Beveridge. Las diferencias no son significativas (p=0.178). Olé. El párrafo está extraído de PNS89 International comparison of the remuneration of physicians among countries with bismarck and beveridge health care system y traducido por un servidor.

Raking, Introdución al

I. Ni que decirse tiene que a partir de las probabilidades conjuntas pueden construirse las marginales: se integra (o suma) y ya. II. El problema inverso es irresoluble: es imposible reconstruir las conjuntas a partir de las marginales. Las conjuntas, condicionadas a las marginales, pueden tener muchos grados de libertad. Sin embargo, a petición de los usuarios finales, los comerciales de la estadística se han comprometido históricamente a resolver ese problema de manera científica.

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT: Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones. Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así: De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante.

Una entrada para desocupados que buscan causas que libren al mundo de todo neomal

Esta es una entrada que dedico a un sector de la sociedad que, generalmente, tengo muy desantendido: gente con mucho tiempo libre pero con infinitas ganas de librar al mundo de esos pésimos males que ni siquiera era consciente que tenía. Resulta que en The elimination of Spurious Correlation due to position in Time or Space de “Student” (en realidad, Gosset, que es el que inventó el test que no lleva su nombre), principia así:

¿Por qué son los eventos (en probabilidad) conjuntos y no otra cosa?

I. Tidyverse (como ejemplo a no seguir) Uno de los grandes problemas del tidyverse en R es que para él, todo son tablas. Existe solo una manera de agrupar información: las tablas. Fuera de ese estrecho marco, existen otras estructuras de datos: árboles, listas, diccionarios, tablas hash, vectores, tuplas, listas linkadas, listas doblemente linkadas, etc. Todo aquello, en definitiva, que en otros lenguajes de programación se explica en el capítulo “Colecciones” del manual.

El origen de uso moderno del término "variable aleatoria" podría estar en un artículo publicado en italiano en una revista oscura en 1913

Sería muy difícil haber aprendido algo de probabilidad sin haber oído o leído a alguien quejarse de que el término “variable aleatoria” es desafortunado; que, en puridad, una “variable aleatoria” es una función; pero que todo el mundo lo hace y que no queda otra que cargar —¡una vez más!— con el peso del consenso y la tradición. Pero cabe preguntarse: ¿hasta dónde y cuándo se remonta? El término tiene evocaciones viejunas y uno está tentado de buscar sus orígenes en, no sé, algún Bernoulli —¿Jacobo?

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como $$E[X] = \int x dP_X(x).$$ Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces $$E[Y] = \int y dP_Y(y)$$ para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

RSA para exmatemáticos

Me he escrito a mí mismo lo siguiente: ######################################################### # @gilbellosta, 2022-11-14 # Implementing RSA "by hand" ######################################################### # message msg = 3 # the two "large" primes p1 = 7 p2 = 13 # public key # I choose a number, 5, as part of the public key; # the other part is p1 * p2 pub = (5, p1 * p2) a, n = pub # calculation of the private key # it must be a number b such that # x**(a * b) % n == x % n # for all x # for that, (this comes from Euler's totient theorem) # we need that a*b % totient = 1 totient = (p1 - 1) * (p2 - 1) tmp = [x for x in range(totient) if a * x % totient == 1] b = tmp[0] priv = (b, n) # testing: encrypted_msg = msg**a % n encrypted_msg**b % n Lo quiero acompañar, para futura referencia, de unos enlaces donde se explican de manera concisa y sin perífrasis innecesarias los puntos más críticos de todo lo anterior:

Operacionalización de la "igualdad de opotunidades"

Tiene Google (o una parte de él) un vídeo en Youtube, sobre el que me resulta imposible no comentar nada. Trata, esencialmente, de cómo operacionalizar a la hora de poner en marcha modelos esos principios de justicia, igualdad de oportunidades, etc. de los que tanto se habla últimamente. La definición de igualdad de oportunidades que se postula en el vídeo, tal vez demasiado esquemática por su orientación didáctica, es la siguiente:

Sobre la "African dummy"

2022 es un mal año para recordar un asunto sobre el que tenía anotado hablar desde los inicios del blog, allá por 2010: la llamada African dummy. Mentiría, sin embargo, si dijese que no es oportuno: está relacionado con temas que hoy se consideran importantes, aunque tratado al estilo de los noventa. Es decir, de una manera inaceptablemente —para el paladar de hogaño— distinta. La cosa es más o menos así: en el 91, a R.

¿Qué hora debería ser?

En esta entrada propongo y no resuelvo un problema que puede considerarse o estadístico o, más ampliamente, de ajuste de funciones —sujeto a innumerables ruidos—: determinar qué hora debería ser. Eso de la hora —y me refiero a los horarios de invierno, verano, etc. y más en general, la desviación de la hora nominal con respecto a la solar— se parece un poco a la economía. En economía tienes cantidades nominales y reales.