Regresiones con discontinuidad y grados de libertad
Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores

que ilustra el resultado principal del artículo discutido aquí.
Mario, un lector del artículo nos quita la palabra de la boca a todos:
No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos. […]
Rebaños de modelos: el resumen
La última entrada del año pasado anunciaba una charla que impartí en el Coding Club de la UC3M.
[Nota: considerad asistir a las sesiones. No solo invitan a comer a los asistentes, sino que son excelentes en forma y fondo.]
Y aquí está el resumen. Un resumen, advierto, casi de la misma escala que el famoso mapa del relato de Borges.
La probabilidad, ¿algo subjetivo?
Esta entrada es una contestación a
Pregunta: ¿qué opinaríais si os dijese que la probabilidad es algo subjetivo construido en base a nuestro conocimiento y que realmente solo existe a nivel subatómico?
— BayesAna (Anabel Forte) 🏳️🌈🧚🏼♂️ (@AnaBayes) January 4, 2020
Os lo creáis o no, es una discusión que suelo tener con mis alumn@s y que he recordado leyendo a Spiegelhalter
I.
Habrá quien sostenga que la geometría (plana, euclídea, por antonomasia) es subjetiva, que es una construcción de la mente, de cada mente. Igual queda todavía alguno de los que, por el contrario, creían que los triángulos equiláteros residen en una especie de edén donde tienen una existencia ideal y que nuestra mente, de alguna manera, se limita a reflejarlos.
Charla en el CodingClub de la UC3M este martes
Este martes 17 de diciembre hablaré durante una hora sobre (cierto tipo de) big data y modelos adecuados para modelarlos en el CodingClub de la Universidad Carlos III.

- El contenido de la charla, entiendo, se publicará también después en el blog del CodingClub.
- Los detalles (sitio, hora, etc.) están en el enlace indicado más arriba.
- Obviamente, agradezco a los organizadores del CodingClub por haberme invitado. Es, además, el ciclo de charlas sobre cosas relacionadas con datos más serio y mejor organizado que conozco.
Y con eso, prácticamente, cierro el 2019 para casi todos los efectos. En 2020, más.
Electricidad, clima, incentivos y... ¿fetichismo de la ciencia de datos?
En una época hube de aprender los entresijos del mercado eléctrico español. Tan lejana que el garbage collector ha hecho almoneda de todos los conocimientos monetizables que pude haber adquirido. Solo he sabido conservar cierta curiosidad por esa API que el sistema tiene para conmigo que son las tarifas y las facturas.
Por eso no mandé directamente a la papelera ese correo de Endesa en el que me informaba de la conveniencia —¿para quién?— de que me pasase a la tarifa Tempus Lunes —¿o Mondays?—: un precio único (¿bueno? ¿malo? no sé) por el kWh y lo que consuma los lunes, gratis.
Ser científico de datos, ¿puede ser menos sexi de lo que te han contado?
Puede que sí, pero no por las razones expuestas en Retina.
[Nota: Perdón por meterme con Retina. Es tan de amateur como criticar los gráficos de Expansión o los argumentos económicos de un peronista.]
En particular, argumenta Retina que esas máquinas a las que les echas unos datos y encuentran por sí solas el mejor modelo nos van a dejar sin trabajo.
Otra vez.
El autoML es como los crecepelos, las dietas milagrosas y los tipos que te cuentan que van a hacerse ricos con su algoritmo de inversión en bolsa: llevan toda la vida anunciándolos, logran cierta exposición mediática gracias a panfletos como Retina y nadie les dedica un mal obituario cuando mueren en el olvido (¿alguien recuerda a KXEN, por ejemplo?).
P-valores y decisiones
Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos.
Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto:
La población envejece pero, ¿envejecen también los grupos de edad?
La pregunta es relevante porque en demografía, epidemiología y otras disciplinas entre las que no se suele contar la economía, se suele agrupar la población en grupos de edad (y/u otras variables relevantes). Son habituales los grupos de edad quinquenales y la pregunta es: ¿son homogéneos dichos grupos de edad a lo largo del tiempo?
No es una pregunta baladí: ha dado lugar a noticias como Why So Many White American Men Are Dying que no, no se explican por la desesperación o por la epidemia de opioides sino por el envejecimiento relativo de los grupos de edad en cuestión. En EE.UU., claro, no en España.
Sobre los coeficientes de los GLM en Scikit-learn
Pensé que ya había escrito sobre el asunto porque tropecé con él en un proyecto hace un tiempo. Pero mi menoria se había confundido con otra entrada, Sobre la peculiarisima implementacion del modelo lineal en (pseudo-)Scikit-learn, donde se discute, precisamente, un problema similar si se lo mira de cierta manera o diametralmente opuesto si se ve con otra perspectiva.
Allí el problema era que Scikit-learn gestionaba muy sui generis el insidioso problema de la colinealidad. Precisamente, porque utiliza un optimizador ad hoc y no estándar para ajustar el modelo lineal.
