Memes, memes estadísticos y sofística

I. Memes

Dice la Wikipedia que un meme es es la unidad teórica más pequeña de información cultural1​ transmisible de un individuo a otro, de una mente a otra, o de una generación a la siguiente. Sin embargo, suelen conocerse como memes solo aquellos memes que, por algún motivo, debido a algún tipo de característica particular —tanto intrínseca como del cuerpo social en el que se mueven— se difunden como un virus. Diríase que cobran vida propia y se expanden independientemente de la voluntad o intención de sus creadores.

Un estadístico le echa un vistazo a su consumo eléctrico en tiempo real

I.

Por eso de que el Pisuerga pasa por Valladolid y que el diablo, cuando se aburre, mata moscas con el rabo, he instalado un cacharrito de 30 euros en el cuadro eléctrico de mi casa que mide el consumo (vatios, amperios y voltios)en tiempo real. En concreto, guardo medidas cada seis segundos aproximadamente. Mi perfil de consumo (potencia, en kW), sobre el que volveré luego, es así:

II.

En esto de la electricidad doméstica existen tres potencias —$P_r$, $P_c$ y $P_i$— que, en situaciones normales, cumplen la regla

Breve introducción crítica a la llamada "predicción conforme"

Pensé que había hablado antes de la llamada predicción conforme. Lo habré soñado. Así que me pongo con ello.

Me retrotraigo a hace unos cuantos años, antes de la explosión del deep learning, a la época en la que aún tenía vida social. Uno de los pioneros de esas técnicas me contaba un día en un restaurante cómo funcionaban. Por ejemplo, para clasificar, creaban unas funciones muy complejas cuya salida era un vector (largo) de números positivos que sumaban uno. Cuando todos esos números eran casi cero y uno de ellos, el que correspondía a la etiqueta “conejo”, era casi uno, el modelo decía: “conejo”. Etc.

¿Se puede levantar la mano y decir que la curva, esencialmente, crece y no decrece?

Mirad el gráfico

o

que representa los mismos datos cambiando la escala de las abscisas. He recortado convenientemente las etiquetas de los ejes para que la ideología no confunda a la recta percepción visual de la cosa. La pregunta ahora es: ¿son crecientes las curvas?

Las respuestas de primer y segundo orden son obvias. Creo.

Sin embargo, las gráficas están extraídas de aquí, donde se elabora un discurso a partir de la idea de que las curvas son esencialmente planas si no decrecientes. En ningún punto del texto se dice: “¡eh, contemplad cómo estas curvas son esencialmente crecientes!” Un lector despistado o, incluso, un lector que se quede con el titular, se llevará a la próxima discusión del bar una idea torcida (no sé si decir de la realidad o de la perspectiva de la realidad que recogen los datos subyacentes a las gráficas).

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Todo sobre la wifi

Voy a hacer una entrada un poco inusual dentro de lo que viene siendo la trayectoria de este blog por dos motivos: para dejar por escrito cosas que de otra manera se me olvidarán y para, con suerte, ayudar a otros. Sí, porque voy a escribir sobre la wifi, sus mitos, problemas y puede que hasta soluciones.

Muy rápidamente, unas cuantas cosas que todos sabemos: la wifi funciona en dos bandas (y próximamente en una tercera en los 6 GHz), la de 2.4 GHz y la de 5 GHz. Voy a centrarme en la de los 2.4 GHz, aunque todo lo que cuente se extrapola al resto. No creo que haya que mencionar tampoco las diferencias entre las bandas de 2.4 y 5 GHz en términos de ancho de banda (la segunda tiene más) y la distancia operativa: la de los 5.4 GHz tiene menos entre otros motivos porque atraviesa peor paredes y otros obstáculos. Lo cual no es del todo malo: te aísla de los vecinos de tus vecinos.

Descuento hiperbólico: una perspectiva bayesiana

Por un lado, nos enseñan que para descontar flujos de caja futuros tenemos que usar la función exponencial —para una determinada tasa de descuento o, en algunos contextos, tipo de interés—:

$$\text{valor presente} = A \exp(-tr)$$

donde $A$ es una cierta cantidad que recibiremos en el momento futuro $t$ y donde $r$ es nuestra tasa de descuento.

Por otro lado, experimentos de la sicología y la economía conductual, parecen indicar que la gente se tiende a regir por una regla distinta, la del llamado descuento hiperbólico

Programación: aspectos sicológicos

Esta entrada tiene una doble (o triple) motivación. Por un lado, servir de de introducción a otra en la que se tratará la sicología de la estadística y la ciencia de datos. Por otro, plantear una serie de cuestiones —sin intención de aportar solución alguna— relevantes sobre el asunto. Y si se me permite, una tercera: dejar constancia que en su día semileí el librito The Psychology of Computer Programming, que fue el que me ha hecho pensar de vez en cuando sobre estos asuntos y prestarles atención desde entonces.

Ajuste de modelos lineales y predicción de valores con numpyro

Una de mis aficiones más excusables es la de participar en el mercado de predicciones de Hypermind. Una de las preguntas que se suele plantear anualmente —y en la que, gracias a apostar contra el común/apocalíptico sentir, logré pingües beneficios el año pasado— tiene que ver con cuándo nos vamos a morir todos. De otra manera:

Este año también quiero participar, pero como no sabía por dónde empezar, he bajado los datos. En su perspectiva más relevante, tienen este aspecto:

Nueva "edición" de mi libro de R

R

Acabo de subir —que suena menos pomposo que publicar— la primera versión de la segunda edición de mi libro de R. Los cambios con respecto a la primera son:

  • He migrado a Quarto.
  • Algunas correcciones, sobre todo en bloques de código que dejaron de funcionar por hacer llamadas a servicios que han desaparecido (o, como Google Maps, han cambiado el método de suscripción).
  • Algún material nuevo, sobre todo relacionado con dplyr y el tidyverse. Aun asi, el libro sigue siendo fundamentalente agnóstico con respecto a ese dialecto.
  • He incorporado algunas mejoras sugeridas por algún amable lector en el pasado.
  • He comenzado —solo comenzado— a preparar soluciones para los casi 200 ejercicios planteados en el libro.

El enlace, ahora sí, aquí.

Llevando la contabilidad de los grados de libertad

Esta entrada es una pequeña exégesis de esto:

Lo que se ve es el resultado del ajuste de una curva logística de cuatro parámetros a una serie de datos. En particular, voy a discutir qué es eso de la logística de cuatro parámetros, por qué el ajuste es bueno y qué tienen que ver los grados de libertad en todo esto.

La función logística de cuatro parámetros es la función logística de toda la vida,

Esta entrada no tiene título porque no se me ocurre ninguno sin "spoilers"

Esta entrada principia con el siguiente gráfico:

Queda a la discreción del lector si la línea tiene algún tipo de tendencia más o menos clara.

Una vez completado el ejercicio, le indicaré que:

  • El eje horizontal es la cuota de mercado (con perdón) de la educación pública (preuniversitaria) por CCAA en España extraída del informe Datos y Cifras correspondiente al curso escolar 2021-2022 publicados por el ministerio de educación (y el enlace, que seguro que dura poco, es este).
  • El vertical, la diferencia bruta en puntos en la prueba de matemáticas de PISA de vaya uno a saber qué año según se muestran aquí.

¿Por qué es la tendencia de este gráfico relevante? Porque, según A. Tabarrok, el autor de Private Education in India: A Novel Test of Cream Skimming, ayuda a determinar en qué medida la educación privada aporta valor añadido real más allá de, simplemente, operar sobre mejor materia prima. Según sus propias palabras (con mi traducción):

Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como

$$\lambda_t = a + b t$$

en lugar del estándar

$$\lambda_t = \exp(a + b t).$$

Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Antes necesito añadir que: