El curioso caso de los suicidios en la villa de Madrid

Esta entrada es la continuación de otra casi homónima, El curioso caso de los suicidios en Madrid. Los datos de aquella ocasión eran dos cosas: raros y provinciales. Los de esta son otras dos: mucho más raros y muncipales. En efecto, ¡Ni jarto de vino! Y, ahora, las notas: Los datos de causa de muerte a nivel municipal no son públicos pero se pueden solicitar al INE. De hecho, es el INE la fuente primaria de los datos del gráfico. La secundaria es un documental de EL Español sobre los suicidios. Mañana comentaré por qué aparezco en sus agradecimientos, aunque tal vez alguien lo pueda adivinar hoy.

3 de diciembre de 2015 · Carlos J. Gil Bellosta

Cambio de logo en la Comunidad R Hispano

Hace años, al comienzo de los tiempos de la Comunidad R Hispano, se propusieron ciertos logos y se votó el actual, que tiene su gracia pero, también, dos inconvenientes graves: Está diseñado para ser utilizado sobre fondo oscuro. Pero un logo tiene que quedar bien sobre fondo blanco (papel, cartelería, etc.). El autor solo proporcionó un par de imágenes (no vectoriales, por supuesto) del logo antes de desaparecer (no, no falleció: vive feliz en otro país y dejó de usar R). Vamos, que después de sufrirlo durante un tiempo, hemos decidido cambiarlo. Ha habido varias propuestas nuevas, que ahora presentamos a los interesados (tú, por ejemplo) para que elijan su favorito. Gracias a Pedro Concejero, que ha organizado la encuesta, puedes votar tu logo favorito. ...

2 de diciembre de 2015 · Carlos J. Gil Bellosta

Proyectos de fin de máster: ¿alguna sugerencia?

Doy clase en algunos máster de ciencia de datos. Estos máster suelen concluir con la realización de algún proyecto completo. Ya sabemos cómo funcionan estas cosas en el medio académico: se busca cualquier cosa, se masomenos resuelve y se archiva. Sin recorrido ni impacto. A mí me interesa proponer proyectos que tengan cierta trascendencia. El año pasado invité aun alumno a construir un sistema de predicción de plazas de aparcamiento disponibles en el sistema de bicicletas púbico de Zaragoza (dado que los datos están disponibles). El paquete MicroDatosEs mejoró como subproducto de otro proyecto. Etc. ...

1 de diciembre de 2015 · Carlos J. Gil Bellosta

¿Estadística cualitativa?

La estadística cualitativa es una disciplina que, creo, no existe. Igual, simplemente, no existe porque no tiene razón de ser. No he buscado aún sistemáticamente, pero mi memoria no da con algo que se le parezca. No es Statistics for Dummies: en la misma portada del libro dice que te quiere enseñar los cálculos y fórmulas esenciales. Como diré más abajo, no van por ahí los tiros. Tampoco es la estadística descriptiva, que es lo menos estadístico que existe. Al menos, la que yo he visto, que tiende a ignorar, entre otras cosas, la variabilidad. La estadística descriptiva (insisto, la que yo conozco, como yo la he visto) es una rama de la aritmética, no de la estadística. ...

30 de noviembre de 2015 · Carlos J. Gil Bellosta

"We have analyzed your open source contributions on Github..."

Hoy me ha llegado un mensaje ofreciéndome un trabajo (por motivos de diversa índole, no, gracias) que contenía una línea que quiero compartir aquí: We have analyzed your open source contributions on Github and have concluded that your experience could be a good fit for the position of […] at […]. Y tú, ¿ya tienes tu repositorio en Github?

25 de noviembre de 2015 · Carlos J. Gil Bellosta

Mi otra debilidad: procesos de Poisson "autoexcitados"

La primera es la factorización positiva de matrices positivas. La otra, como bien titula la entrada, los procesos de Poisson autoexcitados. Por eso no podía dejar de traer a la atención de mis lectores seismic, un paquete de R para ajustar modelos de Poisson autoexcitado para la predicción de la popularidad de tuits.

19 de noviembre de 2015 · Carlos J. Gil Bellosta

Reescrituras interesadas (de resultados estadísticos más o menos conocidos)

Traigo hoy dos artículos interesantes sobre un mismo tema: la ciencia de datos reescribiendo de manera interesada resultados estadísticos más o menos conocidos, presentando como nuevos los que no lo son del todo y omitiendo interesadamente referecias bibliográficas. Son este y este (aunque el segundo trata de más temas). Es muy interesante el concepto de plagio inteligente en oposición al de plagio literal que denuncia el primer enlace.

18 de noviembre de 2015 · Carlos J. Gil Bellosta

agate: análisis de datos optimizado para humanos (y no para máquinas)

Una de las cosas que menos me canso de repetir es que R no es (solo) un lenguaje de programación. R es un entorno para el análisis de datos. Los informáticos se horrorizan con él: no entienden por qué es como es. Pero, fundamentalmente, su problema es que no conciben que pueda haber sido diseñado para el REPL y no (solamente) para crear programas. Casi todo el tiempo que paso con R abierto lo consumo trabajando interactivamente, no programando. R está pensado para facilitar ese tipo de trabajo, no para crear programas complejos. Está optimizado para el usuario, no para la máquina. De ahí se sigue una cascada de corolarios que no ha lugar plantear aquí. ...

17 de noviembre de 2015 · Carlos J. Gil Bellosta

Lo poco y lo mucho; lo malo, lo regular y lo bueno

Estos días pasados ha habido un hilo en la lista de correo de ayuda de R en español (¿todavía no te has dado de alta en ella?) en la que alguien preguntaba cómo crear paquetes y dónde encontrar documentación al respecto. La buena intención de quienes han tratado de ayudarle, me temo, ha sido contraproducente. Lo han empapelado con una lista (casi con aspiraciones de exhaustividad) de recursos y más recursos en los que se indica cómo resolver el problema. ...

16 de noviembre de 2015 · Carlos J. Gil Bellosta

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs. El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no? ...

13 de noviembre de 2015 · Carlos J. Gil Bellosta