Carlos J. Gil Bellosta

He leído —consecuencia del aburrimiento y la inercia— en diagonal el artículo Explorando las narrativas locales: claves para entender el apoyo político a VOX que no recomiendo salvo que tengas un rato que matar y ninguna otra cosa que hacer pero del que rescato esta pequeña gema:

Sobre estos datos utilizo un algoritmo de aprendizaje automático (muy similar al que emplea el correo electrónico para determinar qué mensajes deberían ir a la carpeta de correo no deseado) para clasificar los tweets por tema.

Richard K. Guy tiene un artículo, [The Strong Law of Small Numbers], bastante ameno en el que se encuentran cosas como

que, hay que admitirlo, tienen su público. Pero para el de este blog, será mucho más provechoso este otro extracto:

Desafortunadamente, los civiles (i.e., los no matemáticos) no suelen dar por buenas demostraciones por intimidación. Pero no le falta razón al decir que, en presencia de desinformación, mirar no basta.

I.

A veces hay que tomar decisiones (p.e., ¿quién asciende?, ¿hay que hacer una radiografía?, ¿se concede esta hipoteca?, etc.). Esas decisiones, simplificando mucho, se pueden tomar de dos maneras:

Mediante procesos clínicos, donde un experto o conjunto de expertos realiza una evaluación.
Mediante procesos actuariales, donde a un algoritmo adecuadamente entrenado y calibrado se le facilitan unos datos para que calcule un scoring.

Nota 1: Aquí estoy utilizando nomenclatura (clínico, actuarial) usada por Paul Meehl (véase esto, esto o esto), aunque a los segundos tal vez cabría llamarlos, con más propiedad, estadísticos. Y sí, se refiere a los que el vulgo llama algoritmos.

Sin más preámbulos, es así (para apreciar el detalle, conviene abrirla en otra pestaña):

¿Por qué es este gráfico relevante?

Poca gente ha visto cómo se consume electricidad en un hogar con una resolución de unos pocos segundos.
A lo más, con una resolución horaria facilitada por la compañía distribuidora. Pero que, obviamente, suaviza y desdibuja los picos.
Mucha gente hace y/o tiene que hacer estimaciones de qué potencia contratar. Las heurísticas existentes son, permítaseme decirlo así, una mierda.
Respecto al punto anterior, véase esto.

Y, finalmente, toda esa gente que está planteándose colocar paneles en el tejado, debe tener en cuenta de que el problema matemático al que se reduce el asunto consiste en machear esa curva que muestro con otra que, con suerte, tiene un perfil similar a este:

I. El problema original

Tienes dos cuentas en Twitter, llámense @trabajo y @personal.
Tienes una única cuenta de desarrollador en Twitter. Supongamos que está vinculada al usuario @trabajo.
Quieres usarla para tuitear también en nombre de @personal.

Lo suyo sería disponer de dos cuentas de desarollador, una para cada usuario. Sin embargo, Twitter parece estar dando acceso a tu plataforma de desarrollador con cuentagotas y ni siquiera está claro si conceden más de una cuenta a una misma persona que maneje varios usuarios.

El otro día, al hablar de las encuestas electorales y su relación con la predicción electoral, me referí tangencialmente —y, ahora que lo pienso, un tanto confusamente— a los promedios de encuestas. Vine a decir que los promedios de encuestas como

de la Wikipedia constituyen una primera aproximación —burda— al problema de la predicción electoral cuando, realmente, deberían considerarse otro nowcast.

Estos promedios de encuestas deberían ser más fiables que las encuestas particulares, aunque solo sea porque utilizan más información. Sin embargo, están expuestas a una serie de problemas como los que se anuncian/denuncian aquí.

Navegando —y no por capricho— por esa gran pila de estiércol que es la parte visible de la estadística pública española (es decir, tablas, series, etc. publicados por distintos organismos públicos) he tropezado con unos datos que puede que interesen a alguien.

Proceden de la Encuesta de Características Esenciales de la Población y las Viviendas del año 2021 y se refieren a la comparación del nivel educativo de padres e hijos. Oficialmente se refiere a personas de 16 años o más, por lo que a muchos de los hijos no les habrá dado tiempo de ponerse al nivel de los padres, aunque también es posible obtener datos para determinadas franjas etarias.

I.

Imaginemos que estamos viendo un partido de fútbol en la tele. Arriba, a la izquierda, hay un par de cifras: es el marcador que nos dice cómo va el partido.

En un mundo paralelo, en lugar del resultado provisional (p.e., 0-0 al comenzar el partido), el marcador podría mostrar la predicción del resultado al acabar el encuentro. Podría suceder que en el minuto cero indicase algo así como 3-2 si tal fuese la mejor estimación posible del resultado final.

El IMCV es esto. (Brevemente: un indicador experimental del INE que combina datos de varias encuestas, las agrega con unos pesos y produce unos números que permiten comparar CCAA entre sí y a lo largo del tiempo).

Una característica muy amena del IMCV es que permite recalcular en índice con pesos ad hoc aquí.

Con los pesos originales, el indicador (de 2021) queda así:

Por probar algo, he puesto a cero todos los pesos menos el que se refiere, nada menos, que a Ocio y relaciones sociales por ver qué pasa:

Para la inmensa mayoría, chatGPT es lo que su nombre indica: un chat. Le preguntas y te responde. Pero lo siguiente es un ejemplo de algo perfectamente factible hoy.

Creas un programa que monitorea tu bandeja de entrada.
Cuando llega un correo nuevo, le pasa el texto a chatGTP (versión API) con un prompt adecuado.
Dependiendo de la respuesta, se toma una determinada acción. Por ejemplo, enviar un aviso vía Telegram.

Por ejemplo, el propmt podría ser algo así como:

Cómo "vender" los "algoritmos"

La ley fuerte de los números pequeños

¿Estamos tratando justamente a los "algoritmos"?

I.

48 horas de consumo doméstico real de electricidad

Twitter API: cómo usar una única cuenta para tuitear en nombre de terceros

I. El problema original

Problemas de los promedios de encuestas electorales

Nivel de estudios: padres vs hijos

Encuestas vs predicciones electorales

I.

Buscándole las cosquillas al "Indicador Multidimensional de Calidad de Vida"

Acciones "disparadas" por chatGPT (y sus verdaderos peligros)