Estadística

Incendios en España

Quienes siguen de antiguo estas páginas recordarán que ya me ocupé de la cuestión de los incendios forestales hace un tiempo. Después han pasado cosas.

Por un lado, vía Alberto González Paje di con esta página, que utiliza datos del informe estadístico que publica el Ministerio de Medio Ambiente (y de otras cosas más, según la legislatura en cuestión).

También asistí hace un tiempo a una reunión de MediaLab Prado en la que Juan Elosúa nos contó cómo había conseguido acceso a la base de datos completa de incendios del Ministerio a fuerza de insistir y amparado por ciertas normas que garantizan el derecho de los ciudadanos a cualquier tipo de información de tipo medioambiental. Nos mostró, además, algunas visualizaciones que había hecho con ellos.

Odds ratio vs probabilidad

Hoy he sabido vía Twitter lo siguiente:

Como me ha intrigado el asunto de lo de la probabilidad, he acudido al artículo original donde he aprendido que (y, excúsenme: por primera vez no traduzco este tipo de citas):

After we controlled for these characteristics through conditional logistic regression, the presence of one or more guns in the home was found to be associated with an increased risk of suicide (adjusted odds ratio, 4.8; 95 percent confidence interval, 2.7 to 8.5).

El paquete MicroDatosEs para microdatos públicos

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia:

  • fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y
  • hacer más accesibles estos datos a los usuarios de R.

Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos:

No es país para estadísticos

Esto me pasa por madrugar en lunes. Me levanto y me tropiezo con noticias como esta:

Ha sido reproducida en términos similares en otros medios. Es decir, incidiendo en la presunta causalidad de la subida del precio de los medicamentos en la subida del IPC de julio (el índice adelantado; el definitivo se conocerá a mediados de agosto). Sin embargo, la nota de prensa del INE, la única información con la que se cuenta a esta hora y que no incluye desgloses dice textualmente (aunque con mi subrayado):

La media y el riesgo (de nuevo)

Hoy me han preguntado una cosa algo rara. Era alguien del departamento de riesgos de una conocida entidad financiera que quería saber cómo calcular (con SAS) la media del LTV. El LTV, aunque tiene otras acepciones, significa en este contexto loan to value, el cociente entre el valor de un préstamo y valor del colateral que lo respalda.

(Este LTV tiene que ver con el famoso le financiamos el 80% del valor de la inversión de otras épocas. Un préstamo con un LTV bajo es seguro: el banco puede con más o menos facilidad recuperar el 100% del capital prestado; un préstamo con un LTV alto es mucho más problemático.)

¡A los datos mismos!

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa.

Cada proceso $latex P_i$, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como

$$ P_i=p_{i1}+\dots+p_{ik}.$$

Además, cada $latex p_{ij}$ dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

Graficaca 2.0

Hace casi veinte años, cuando tomaba mis lecciones de conducción, el profesor de la autoescuela —a la sazón, mi tío— pronunció una frase que aún me persigue. Todavía hoy, casi veinte años después, me ocurre que, inopinadamente, me abstraigo del mundo y la pondero. Y sigo sin saber por dónde agarrarla. Lo que aquel día dijo mi tío tras levantar la cabeza del Marca (y mientras yo me afanaba por aparcar en batería en un costado de la ciudad universitaria de Zaragoza) fue lo siguiente: “La quinta del Buitre le ha hecho tanto bien como mal al Real Madrid”.

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

La desigualdad y cómo medirla

Últimamente he tenido bastantes visitas del extranjero. Las llevo a pasear por el centro de Madrid, ¡qué remedio! Y siempre surge el mismo comentario: habiendo crisis que nos cuentan los periódicos, ¿cómo es que están las terrazas a rebosar? Y mi respuesta es siempre la misma: lo que se ve no es la crisis; lo que se ve, en el fondo, es la desigualdad.

Otros han escrito, y mucho mejor de lo que lo haría yo, sobre lo pernicioso de la desigualdad en la economía e incluso, sobre la misma democracia. Yo me limitaré a exponer algunos problemas que produce su cuantificación.

Valores perdidos: MCAR, MAR y MNAR

Espero que me excusen los autores del siguiente gráfico y que comprendan que mi interés por reproducirlo aquí es pro bono publico. Explica visualmente y a través de tres ejemplos tres modos en que se presenta el fenómeno de los valores perdidos (missing data, para algunos) en conjuntos de datos reales.

(Nota: los británicos son geniales. Tienen incluso un portal entero dedicado al fenómeno de los datos perdidos).