Carlos J. Gil Bellosta

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores

que ilustra el resultado principal del artículo discutido aquí.

Mario, un lector del artículo nos quita la palabra de la boca a todos:

No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos. […]

La última entrada del año pasado anunciaba una charla que impartí en el Coding Club de la UC3M.

[Nota: considerad asistir a las sesiones. No solo invitan a comer a los asistentes, sino que son excelentes en forma y fondo.]

Y aquí está el resumen. Un resumen, advierto, casi de la misma escala que el famoso mapa del relato de Borges.

Esta entrada es una contestación a

Pregunta: ¿qué opinaríais si os dijese que la probabilidad es algo subjetivo construido en base a nuestro conocimiento y que realmente solo existe a nivel subatómico?

Os lo creáis o no, es una discusión que suelo tener con mis alumn@s y que he recordado leyendo a Spiegelhalter
— BayesAna (Anabel Forte) 🏳️‍🌈🧚🏼‍♂️ (@AnaBayes) January 4, 2020

I.

Habrá quien sostenga que la geometría (plana, euclídea, por antonomasia) es subjetiva, que es una construcción de la mente, de cada mente. Igual queda todavía alguno de los que, por el contrario, creían que los triángulos equiláteros residen en una especie de edén donde tienen una existencia ideal y que nuestra mente, de alguna manera, se limita a reflejarlos.

Este martes 17 de diciembre hablaré durante una hora sobre (cierto tipo de) big data y modelos adecuados para modelizarlos en el CodingClub de la Universidad Carlos III.

El contenido de la charla, entiendo, se publicará también después en el blog del CodingClub.
Los detalles (sitio, hora, etc.) están en el enlace indicado más arriba.
Obviamente, agradezco a los organizadores del CodingClub por haberme invitado. Espero no estar arrepentido el martes por la tarde de lo siguiente: es el ciclo de charlas sobre cosas relacionadas con datos más seria y mejor organizada que conozco.

Y con eso, prácticamente, cierro el 2019 para casi todos los efectos. En 2020, más.

En una época hube de aprender los entresijos del mercado eléctrico español. Tan lejana que el garbage collector ha hecho almoneda de todos los conocimientos monetizables que pude haber adquirido. Solo he sabido conservar cierta curiosidad por esa API que el sistema tiene para conmigo que son las tarifas y las facturas.

Por eso no mandé directamente a la papelera ese correo de Endesa en el que me informaba de la conveniencia —¿para quién?— de que me pasase a la tarifa Tempus Lunes —¿o Mondays?—: un precio único (¿bueno? ¿malo? no sé) por el kWh y lo que consuma los lunes, gratis.

Puede que sí, pero no por las razones expuestas en Retina.

[Nota: Perdón por meterme con Retina. Es tan de amateur como criticar los gráficos de Expansión o los argumentos económicos de un peronista.]

En particular, argumenta Retina que esas máquinas a las que les echas unos datos y encuentran por sí solas el mejor modelo nos van a dejar sin trabajo.

Otra vez.

El autoML es como los crecepelos, las dietas milagrosas y los tipos que te cuentan que van a hacerse ricos con su algoritmo de inversión en bolsa: llevan toda la vida anunciándolos, logran cierta exposición mediática gracias a panfletos como Retina y nadie les dedica un mal obituario cuando mueren en el olvido (¿alguien recuerda a KXEN, por ejemplo?).

Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos.

Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto:

La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo?

No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión. En EE.UU., claro, no en España.

Pensé que ya había escrito sobre el asunto porque tropecé con él en un proyecto hace un tiempo. Pero mi menoria se había confundido con otra entrada, Sobre la peculiarisima implementacion del modelo lineal en (pseudo-)Scikit-learn, donde se discute, precisamente, un problema similar si se lo mira de cierta manera o diametralmente opuesto si se ve con otra perspectiva.

Allí el problema era que Scikit-learn gestionaba muy sui generis el insidioso problema de la colinealidad. Precisamente, porque utiliza un optimizador ad hoc y no estándar para ajustar el modelo lineal.

La buena gente de Civio ha comenzado una campaña (y véase también esto) en pro de la apertura y la gratuidad del venerable Registro Mercantil.

Pero yo estoy en contra.

Yo, más bien, pensaría muy bien cómo podría o debería ser un registro mercantil propio del siglo que corre y lo pondría en marcha. Luego, simplemente, daría libertad a las empresas para usar el que más les conviniese dentrambos.

Nota: Iba a escribir más sobre el Registro Mercantil. Es un tema potencialmente apasionante porque ilustra como pocos el minúsculo avance que las nuevas tecnologías pueden suponer en la productividad. Por lo que he podido leer, las tarifas por las que se rige el Registro Mercantil son las que se establecieron en 1973, antes del primer PC. Pero después de revisar unos cuantos BOEs he vuelto a darme cuenta de que la paleoinstitucionología no es disciplina de mi agrado.

Regresiones con discontinuidad y grados de libertad

Rebaños de modelos: el resumen

La probabilidad, ¿algo subjetivo?

Charla en el CodingClub de la UC3M este martes

Electricidad, clima, incentivos y... ¿fetichismo de la ciencia de datos?

Ser científico de datos, ¿puede ser menos sexi de lo que te han contado?

P-valores y decisiones

La población envejece pero, ¿envejecen también los grupos de edad?

Sobre los coeficientes de los GLM en Scikit-learn

¿El Registro Mercantil debería ser abierto y gratuito? Yo creo que no.