La combinación de observaciones y el método de mínimos cuadrados: una revisión histórica

Sabemos y se sabe desde hace mucho que un sistema lineal de n ecuaciones con m incógnitas, cuando n > m (y especialmente cuando n » m), muy probablemente no tenga solución. No obstante, sistemas así ocurren naturalmente: ahí está el modelo lineal.

En tiempos, al cálculo de los mejores coeficientes para ajustar un conjunto de datos, cuando el número de observaciones excedía el de coeficientes se lo llamó combinación de observaciones. Desde muy pronto se observó que más observaciones conducían a mejores estimaciones. Pero se tardó mucho en establecer cómo.

Pasando data.frames de R como tablas de pandas en Python usando rPython

R

Un usuario de rPython, David González Knowles, me ha facilitado su código para pasar una tabla, iris en este caso, de R a una tabla de pandas en Python usando mi paquete.

En R hay tablas de serie. En Python no. La librería pandas de Python implementa algo parecido a los data.frames. Solo que nada garantiza que un usuario de Python la tenga instalada. Por eso no hay un formato de destino claro y universal para las tablas de R a través de rPython. Y por eso, en Python, si se tiene pandas instalado, el usuario tiene que hacer algo, lo siguiente:

Droga dura: El retorno de los chamanes

He pasado unos días enganchado a El retorno de los chamanes, un libro de mi paisano Víctor Lapuente.

Es una obra sobre política escrita por un politólogo. Por lo que no habría lugar comentarlo en estas páginas. Pero hay varios motivos por los que sí.

Vaya por delante que es un libro que me resulta difícil por mi formación y, sobre todo, mi deformación. Soy matemático y durante años mi trabajo ha consistido en abstraer, teorizar, extraer la esencia, crear modelos generales para poder aplicar después el método deductivo. Me han programado para buscar cierres teóricos, listas de axiomas de los que se deduzcan razonadamente hasta los más humildes corolarios. He sido educado y socializado durante años para convertirme en chamán.

Contaminación y restricciones de tráfico en Madrid: ¿por qué no se puede ni prevenir ni "estimar"?

Aparentemente, porque así lo establece el protocolo de actuación, del ayuntamiento de la villa. Lo resume la imagen

antiestadistica

que bajé de Twitter y que me llamó la atención sobremanera. Algún gobierno municipal decidió en su día que estaba fuera de lugar tanto prevenir como estimar.

Me preocupa que dicho gobierno municipal estuviese reñido con el refranero en lo concerniente a la prevención. Pero no es el asunto, entiendo, por el que mis lectores me visitan.

¿Os lo podéis creer? ¡"Funnel plots" en la prensa española!

Pues sí, aquí están,

funnel_plots_suicidios

recién copipegados del documental de El Español sobre el suicidio.

Son los mismos de los que hablaba aquí o sobre los que Spiegelhalter ha publicado la mar de artículos.

Pero, ¿qué hacen en la prensa de un país como España? La historia es un poco larga, casi tanto como la mía protestando de la escasa calidad de los gráficos estadísticos por doquier. Pero esta vez los autores del documental me han invitado renunciar a la comodidad del crítico que todo lo juzga desde el sillón a, digámoslo así, consultor (o consejero) que tiene que pasar a proponer soluciones.

El curioso caso de los suicidios en la villa de Madrid

Esta entrada es la continuación de otra casi homónima, El curioso caso de los suicidios en Madrid. Los datos de aquella ocasión eran dos cosas: raros y provinciales. Los de esta son otras dos: mucho más raros y muncipales. En efecto,

suicidios_municipio_madrid

¡Ni jarto de vino!

Y, ahora, las notas:

  1. Los datos de causa de muerte a nivel municipal no son públicos pero se pueden solicitar al INE. De hecho, es el INE la fuente primaria de los datos del gráfico.
  2. La secundaria es un documental de EL Español sobre los suicidios. Mañana comentaré por qué aparezco en sus agradecimientos, aunque tal vez alguien lo pueda adivinar hoy.

Cambio de logo en la Comunidad R Hispano

R

Hace años, al comienzo de los tiempos de la Comunidad R Hispano, se propusieron ciertos logos y se votó el actual,

logo_comunidad_r_hispano

que tiene su gracia pero, también, dos inconvenientes graves:

  • Está diseñado para ser utilizado sobre fondo oscuro. Pero un logo tiene que quedar bien sobre fondo blanco (papel, cartelería, etc.).
  • El autor solo proporcionó un par de imágenes (no vectoriales, por supuesto) del logo antes de desaparecer (no, no falleció: vive feliz en otro país y dejó de usar R).

Vamos, que después de sufrirlo durante un tiempo, hemos decidido cambiarlo. Ha habido varias propuestas nuevas, que ahora presentamos a los interesados (tú, por ejemplo) para que elijan su favorito. Gracias a Pedro Concejero, que ha organizado la encuesta, puedes votar tu logo favorito.

Proyectos de fin de máster: ¿alguna sugerencia?

Doy clase en algunos máster de ciencia de datos. Estos máster suelen concluir con la realización de algún proyecto completo.

Ya sabemos cómo funcionan estas cosas en el medio académico: se busca cualquier cosa, se masomenos resuelve y se archiva. Sin recorrido ni impacto.

A mí me interesa proponer proyectos que tengan cierta trascendencia. El año pasado invité aun alumno a construir un sistema de predicción de plazas de aparcamiento disponibles en el sistema de bicicletas púbico de Zaragoza (dado que los datos están disponibles). El paquete MicroDatosEs mejoró como subproducto de otro proyecto. Etc.

¿Estadística cualitativa?

La estadística cualitativa es una disciplina que, creo, no existe. Igual, simplemente, no existe porque no tiene razón de ser. No he buscado aún sistemáticamente, pero mi memoria no da con algo que se le parezca.

No es Statistics for Dummies: en la misma portada del libro dice que te quiere enseñar los cálculos y fórmulas esenciales. Como diré más abajo, no van por ahí los tiros.

Tampoco es la estadística descriptiva, que es lo menos estadístico que existe. Al menos, la que yo he visto, que tiende a ignorar, entre otras cosas, la variabilidad. La estadística descriptiva (insisto, la que yo conozco, como yo la he visto) es una rama de la aritmética, no de la estadística.