Paralelismos entre textos vía embeddings: el caso, por poner uno, de los evangelios de Mateo y Marcos

Hace un tiempo tuve que leerlo todo sobre cierto tema. Entre otras cosas, cinco libros bastante parecidos entre sí. Era una continua sensación de déjà vu: el capitulo 5 de uno de ellos era casi como el tres de otro, etc. Pensé que podría ser útil —y hacerme perder menos tiempo— poder observar el solapamiento en bloques —sígase leyendo para entender mejor el significado de lo que pretendía—.

En esta entrada voy a mostrar el resultado de mis ensayos sobre unos textos distintos. Los que me interesaban originalmente estaban en PDF y hacer un análisis más o menos riguroso exigía mucho trabajo de limpieza previo. Pensando en otros textos distintos que vienen a contar la misma historia se me ocurrió utilizar dos de los evangelios sinópticos (en particular, los de Mateo y Marcos).

Si Pearson hubiese tenido un ordenador como el mío...

… muchas cosas serían muy distintas hoy en día. Hoy quiero elaborar sobre su artículo de 1900 X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling famoso por nada menos que introducir el concepto de p-valor y el el uso de la $\chi^2$ para medir la bondad de ajuste.

Un duelo de aforismos sobre datos

El primero,

In God we trust. All others must bring data.

de W. E. Deming, es pura estadística pop. El segundo, con el que tropecé releyendo unas presentaciones de Brian Ripley, dice

No one trusts a model except the person who wrote it; everyone trusts an observation, except the person who made it.

y parece ser que se la debemos a un tal H. Shapley.

Efectivamente, hoy en día desconfiamos de los modelos pero depositamos una gran confianza en los datos. Pero de eso se sale: basta con hablar un rato con la gente encargada de recopilarlos.

Vehículos particulares: estimación del número de kWh/día por conductor en España

En una entrada anterior ya me ocupé de asuntos relacionados con el libro Sustainable Energy — without the hot air. Hoy vuelvo sobre su tercer capítulo, Cars, donde el autor ensaya el cálculo del (atención: cada palabra de lo que sigue está muy bien medida) número de kWh al día que el conductor típico consume en el RU (o consumía en la fecha en la que se escribió el libro, alrededor del 2015).

Cómo "vender" los "algoritmos"

He leído —consecuencia del aburrimiento y la inercia— en diagonal el artículo Explorando las narrativas locales: claves para entender el apoyo político a VOX que no recomiendo salvo que tengas un rato que matar y ninguna otra cosa que hacer pero del que rescato esta pequeña gema:

Sobre estos datos utilizo un algoritmo de aprendizaje automático (muy similar al que emplea el correo electrónico para determinar qué mensajes deberían ir a la carpeta de correo no deseado) para clasificar los tweets por tema.

La ley fuerte de los números pequeños

Richard K. Guy tiene un artículo, [The Strong Law of Small Numbers], bastante ameno en el que se encuentran cosas como

que, hay que admitirlo, tienen su público. Pero para el de este blog, será mucho más provechoso este otro extracto:

Desafortunadamente, los civiles (i.e., los no matemáticos) no suelen dar por buenas demostraciones por intimidación. Pero no le falta razón al decir que, en presencia de desinformación, mirar no basta.

¿Estamos tratando justamente a los "algoritmos"?

I.

A veces hay que tomar decisiones (p.e., ¿quién asciende?, ¿hay que hacer una radiografía?, ¿se concede esta hipoteca?, etc.). Esas decisiones, simplificando mucho, se pueden tomar de dos maneras:

  • Mediante procesos clínicos, donde un experto o conjunto de expertos realiza una evaluación.
  • Mediante procesos actuariales, donde a un algoritmo adecuadamente entrenado y calibrado se le facilitan unos datos para que calcule un scoring.

Nota 1: Aquí estoy utilizando nomenclatura (clínico, actuarial) usada por Paul Meehl (véase esto, esto o esto), aunque a los segundos tal vez cabría llamarlos, con más propiedad, estadísticos. Y sí, se refiere a los que el vulgo llama algoritmos.

48 horas de consumo doméstico real de electricidad

Sin más preámbulos, es así (para apreciar el detalle, conviene abrirla en otra pestaña):

¿Por qué es este gráfico relevante?

  • Poca gente ha visto cómo se consume electricidad en un hogar con una resolución de unos pocos segundos.
  • A lo más, con una resolución horaria facilitada por la compañía distribuidora. Pero que, obviamente, suaviza y desdibuja los picos.
  • Mucha gente hace y/o tiene que hacer estimaciones de qué potencia contratar. Las heurísticas existentes son, permítaseme decirlo así, una mierda.
  • Respecto al punto anterior, véase esto.

Y, finalmente, toda esa gente que está planteándose colocar paneles en el tejado, debe tener en cuenta de que el problema matemático al que se reduce el asunto consiste en machear esa curva que muestro con otra que, con suerte, tiene un perfil similar a este:

Twitter API: cómo usar una única cuenta para tuitear en nombre de terceros

I. El problema original

  • Tienes dos cuentas en Twitter, llámense @trabajo y @personal.
  • Tienes una única cuenta de desarrollador en Twitter. Supongamos que está vinculada al usuario @trabajo.
  • Quieres usarla para tuitear también en nombre de @personal.

Lo suyo sería disponer de dos cuentas de desarollador, una para cada usuario. Sin embargo, Twitter parece estar dando acceso a tu plataforma de desarrollador con cuentagotas y ni siquiera está claro si conceden más de una cuenta a una misma persona que maneje varios usuarios.

Problemas de los promedios de encuestas electorales

El otro día, al hablar de las encuestas electorales y su relación con la predicción electoral, me referí tangencialmente —y, ahora que lo pienso, un tanto confusamente— a los promedios de encuestas. Vine a decir que los promedios de encuestas como

de la Wikipedia constituyen una primera aproximación —burda— al problema de la predicción electoral cuando, realmente, deberían considerarse otro nowcast.

Estos promedios de encuestas deberían ser más fiables que las encuestas particulares, aunque solo sea porque utilizan más información. Sin embargo, están expuestas a una serie de problemas como los que se anuncian/denuncian aquí.