Estadística "sin el dolor agónico"

Acabo de ver

y:

  • Me parece increíble que se pueda ir a una conferencia seria a describir el t-test. ¿Así está el cotarro?
  • En tanto que anacrónica (critica hoy una tecnología de 1908), tanto la critica y como su tono me parecen injustos.
  • En tanto que no (¡aún se enseña casi tal cual!), entiendo muchas cosas.

Curso de python básico orientado al análisis de datos

Se acaba de publicar en GitHub el/nuestro Curso de python básico orientado al análisis de datos.

Digo nuestro un tanto impropiamente: casi todo el material es de Luz Frías, mi socia en Circiter. Mía hay alguna cosa suelta.

Como como minicoautor soy el comentarista menos creíble del contenido, lo dejo al juicio de cada cual. Y, por supuesto, se agradecen correcciones, comentarios, cañas y fusilamientos (con la debida caballerosidad, por supuesto, en lo de las atribuciones).

Regresiones con discontinuidad y grados de libertad

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores

que ilustra el resultado principal del artículo discutido aquí.

Mario, un lector del artículo nos quita la palabra de la boca a todos:

No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos. […]

La probabilidad, ¿algo subjetivo?

Esta entrada es una contestación a

I.

Habrá quien sostenga que la geometría (plana, euclídea, por antonomasia) es subjetiva, que es una construcción de la mente, de cada mente. Igual queda todavía alguno de los que, por el contrario, creían que los triángulos equiláteros residen en una especie de edén donde tienen una existencia ideal y que nuestra mente, de alguna manera, se limita a reflejarlos.

Charla en el CodingClub de la UC3M este martes

Este martes 17 de diciembre hablaré durante una hora sobre (cierto tipo de) big data y modelos adecuados para modelizarlos en el CodingClub de la Universidad Carlos III.

  • El contenido de la charla, entiendo, se publicará también después en el blog del CodingClub.
  • Los detalles (sitio, hora, etc.) están en el enlace indicado más arriba.
  • Obviamente, agradezco a los organizadores del CodingClub por haberme invitado. Espero no estar arrepentido el martes por la tarde de lo siguiente: es el ciclo de charlas sobre cosas relacionadas con datos más seria y mejor organizada que conozco.

Y con eso, prácticamente, cierro el 2019 para casi todos los efectos. En 2020, más.

Electricidad, clima, incentivos y... ¿fetichismo de la ciencia de datos?

En una época hube de aprender los entresijos del mercado eléctrico español. Tan lejana que el garbage collector ha hecho almoneda de todos los conocimientos monetizables que pude haber adquirido. Solo he sabido conservar cierta curiosidad por esa API que el sistema tiene para conmigo que son las tarifas y las facturas.

Por eso no mandé directamente a la papelera ese correo de Endesa en el que me informaba de la conveniencia —¿para quién?— de que me pasase a la tarifa Tempus Lunes —¿o Mondays?—: un precio único (¿bueno? ¿malo? no sé) por el kWh y lo que consuma los lunes, gratis.

Ser científico de datos, ¿puede ser menos sexi de lo que te han contado?

Puede que sí, pero no por las razones expuestas en Retina.

[Nota: Perdón por meterme con Retina. Es tan de amateur como criticar los gráficos de Expansión o los argumentos económicos de un peronista.]

En particular, argumenta Retina que esas máquinas a las que les echas unos datos y encuentran por sí solas el mejor modelo nos van a dejar sin trabajo.

Otra vez.

El autoML es como los crecepelos, las dietas milagrosas y los tipos que te cuentan que van a hacerse ricos con su algoritmo de inversión en bolsa: llevan toda la vida anunciándolos, logran cierta exposición mediática gracias a panfletos como Retina y nadie les dedica un mal obituario cuando mueren en el olvido (¿alguien recuerda a KXEN, por ejemplo?).

P-valores y decisiones

Los números de esta entrada son reales aunque disfrazados: proceden de un proyecto real. Para medir la efectividad de una serie de modelos que hemos creado en Circiter, hemos pedido al cliente lo de siempre: que parta la lista de sujetos en dos al azar para después poder medir los éxitos y fracasos usando dos procedimientos distintos.

Pero como tenemos dudas acerca del proceso de partición —que no controlamos nosotros— hemos medido el número de éxitos y fracasos en cada uno de los grupos en una prueba previa. Esperábamos que las proporciones fuesen similares en ambos grupos y hemos obtenido esto: