Estadística

El paquete MicroDatosEs para microdatos públicos

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia:

  • fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y
  • hacer más accesibles estos datos a los usuarios de R.

Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos:

No es país para estadísticos

Esto me pasa por madrugar en lunes. Me levanto y me tropiezo con noticias como esta:

Ha sido reproducida en términos similares en otros medios. Es decir, incidiendo en la presunta causalidad de la subida del precio de los medicamentos en la subida del IPC de julio (el índice adelantado; el definitivo se conocerá a mediados de agosto). Sin embargo, la nota de prensa del INE, la única información con la que se cuenta a esta hora y que no incluye desgloses dice textualmente (aunque con mi subrayado):

La media y el riesgo (de nuevo)

Hoy me han preguntado una cosa algo rara. Era alguien del departamento de riesgos de una conocida entidad financiera que quería saber cómo calcular (con SAS) la media del LTV. El LTV, aunque tiene otras acepciones, significa en este contexto loan to value, el cociente entre el valor de un préstamo y valor del colateral que lo respalda.

(Este LTV tiene que ver con el famoso le financiamos el 80% del valor de la inversión de otras épocas. Un préstamo con un LTV bajo es seguro: el banco puede con más o menos facilidad recuperar el 100% del capital prestado; un préstamo con un LTV alto es mucho más problemático.)

¡A los datos mismos!

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa.

Cada proceso $latex P_i$, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como

$$ P_i=p_{i1}+\dots+p_{ik}.$$

Además, cada $latex p_{ij}$ dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

Graficaca 2.0

Hace casi veinte años, cuando tomaba mis lecciones de conducción, el profesor de la autoescuela —a la sazón, mi tío— pronunció una frase que aún me persigue. Todavía hoy, casi veinte años después, me ocurre que, inopinadamente, me abstraigo del mundo y la pondero. Y sigo sin saber por dónde agarrarla. Lo que aquel día dijo mi tío tras levantar la cabeza del Marca (y mientras yo me afanaba por aparcar en batería en un costado de la ciudad universitaria de Zaragoza) fue lo siguiente: “La quinta del Buitre le ha hecho tanto bien como mal al Real Madrid”.

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

La desigualdad y cómo medirla

Últimamente he tenido bastantes visitas del extranjero. Las llevo a pasear por el centro de Madrid, ¡qué remedio! Y siempre surge el mismo comentario: habiendo crisis que nos cuentan los periódicos, ¿cómo es que están las terrazas a rebosar? Y mi respuesta es siempre la misma: lo que se ve no es la crisis; lo que se ve, en el fondo, es la desigualdad.

Otros han escrito, y mucho mejor de lo que lo haría yo, sobre lo pernicioso de la desigualdad en la economía e incluso, sobre la misma democracia. Yo me limitaré a exponer algunos problemas que produce su cuantificación.

Valores perdidos: MCAR, MAR y MNAR

Espero que me excusen los autores del siguiente gráfico y que comprendan que mi interés por reproducirlo aquí es pro bono publico. Explica visualmente y a través de tres ejemplos tres modos en que se presenta el fenómeno de los valores perdidos (missing data, para algunos) en conjuntos de datos reales.

(Nota: los británicos son geniales. Tienen incluso un portal entero dedicado al fenómeno de los datos perdidos).

IVA, IRPF y desigualdad

Nos hemos ocupado previamente de estas cuestiones. Abundo en ellas ahora a causa de un informe publicado por la ONS (Office of National Statistics, el INE británico) titulado The effects of taxes and benefits on household income, 2010/2011. Extraigo de su resumen los siguientes puntos:

  • Antes de impuestos y beneficios sociales, el quintil más rico de los hogares tenía una renta media de £81.500, 16 veces superior a la del quintil más pobre, £5.100.
  • Globalmente, los impuestos y los beneficios sociales contribuyeron a redistribuir la riqueza: tras computarlos, el ratio se redujo a 4: £61.400 contra £15.200
  • Los beneficios sociales y los impuestos directos (IRPF) contribuyeron a reducir la desigualdad; sin embargo, el IVA y los impuestos especiales (sobre la gasolina, el alcohol, etc.) contribuyeron a incrementarlo.
  • El balance entre impuestos pagados y beneficios recibidos fue negativo para los hogares en los dos quintiles superiores y positivo para los de los tres quintiles inferiores.

Además, y efecto de los recortes y la política del nuevo gobierno británico:

Ciencia e ingeniería; estadística y... ¿y qué?

Los científicos llevan desde siempre (aunque con notable más fortuna en los últimos 300 o 400 años, a lo sumo) descubriendo y describiendo los pedacitos funcionales del universo. Los ingenieros, luego, los combinan y crean objetos útiles con ellos: aviones, ordenadores, prótesis, etc.

Los estadísticos llevan cien o ciento cincuenta años largos tratando de domesticar el azar. Y han identificado una enorme variedad de herramientas con las que navegarse en un mundo casi ahogado en cifras. Al mismo tiempo, existe caos. Existe información; pero que se parece muy poco a los cuadros de números casi de jueguete que aparecen en los libros. Existe la necesidad imperiosa de entenderla y ponerla a trabajar en nuestro favor.

Para los expertos en series temporales (II)

El otro día propuse un ejercicio de series temporales, el análisis de una serie temporal bastante conocida. Entre otras cosas, para ver si alguien la reconocía. O si daba con un análisis más o menos adecuado de la misma. Y, ¡vaya!, no he tenido ninguna respuesta…

De todos modos, antes de realizar mi primera entrada pregunté a un amigo experto en la materia para ver si resultaba demasiado evidente. Le pedí expresamente que no perdiese mucho tiempo con ella. Y observó algunos patrones interesantes (como que el número de valores distintos en la serie no excedían la treintena) así como una cierta estructura de correlación.

Las auditorías bancarias de ayer

Ayer fue día de auditorías bancarias. A las cinco y media de la tarde se enfrentaron un secretario de estado y el subgobernador del Banco de España a un pelotón de periodistas anuméricos con hambre de una sola cifra (pero de muchos ceros) con la que saciar el hambre también de una sola cifra de un país merecidamente atribulado (a más de, no se sabe si por emanación o reflejo, igualmente anumérico).

El otro AIC

Para los estadísticos, las siglas AIC remiten a Akaike. A partir de ahora, tal vez menos. AIC es también el Actual individual consumption, o consumo individual real, un indicador que trata de medir

todos los bienes y servicios efectivamente consumidos por los hogares.  A los adquiridos realmente por ellos agrega los que proveen el gobierno o las organizaciones sin ánimo de lucro (por ejemplo, educación o sanidad). Para comparaciones entre países es más útil que el consumo de los hogares tradicionales porque este último indicador depende de la manera en que determinados servicios son adquiridos en el mercado o provistos por otras instituciones.