Estadística

Limpieza de cartera: tres artículos

Estoy limpiando mi cartera y antes de mandar unos cuantos legajos al archivador (o al contenedor de reciclaje) quiero dejar nota de sus contenidos para referencia mía y, quién sabe, si inspiración de otros.

El primer artículo es Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Tiene esencialmente dos partes. La primera analiza críticamente el método de clasificación bayesiano ingenuo (naive Bayes) en el contexto de la minería de textos identificando una serie de deficiencias. En la segunda parte, los autores proponen una serie de modificaciones ad hoc para crear un algoritmo de clasificación mejorado.

Los principales problemas de España

Llevo unos días mostrando bastante poca diligencia en lo que a mi bitácora concierne. El calor con el que agosto ha maltratado los montes también ha contribuido a disipar mis ideas. También a enflaquecer la ya de por sí no muy robusta voluntad.

Y como todavía no ando recuperdo del todo, voy a aprovechar el estupendo trabajo previo de Gregorio Serrano (y véase también este otro relacionado con el anterior) para facilitar a mis lectores una tarea en la que como ciudadanos probos es probable que estén interesados y que, tal vez sin mi concurso, resultaría excesivamente enojosa.

¿En qué está pensando el ministro Wert?

Eso he visto que se preguntaban algunos en Twitter estos días. Lo particular del caso es que, a diferencia de muchos otros ministros que tenemos y hemos tenido (salvo algunas notables excepciones, como Borrell), el ministro Wert tiene una relativamente extensa colección de artículos publicados.

De entre todos ellos, destaco el ahora relevantísimo La sociedad civil ante el gasto público escrito por él hace ya once años, mucho antes de que pudiese siquiera imaginar encontrarse algún día en su actual coyuntura. En este trabajo se plantea con datos del CIS en mano,

Yendo por moras en el País Vasco

Publicaba el otro día El Correo cómo Las mujeres vascas son las más longevas de Europa. El artículo, realmente chirriante, mereció la réplica de Josu Mezo en Malaprensa.

Vaya por delante —y es lo menos importante de todo— que el titular es un puro abuso del lenguaje: las mujeres más longevas de Europa son, exactamente, las más longevas de Europa: algunas ancianitas centenarias que vivirán cada una en su casa. Incluso puede que alguna de ellas resida en el País Vasco. Pero concedo que el periodista quiso decir que las vascas son las mujeres con mayor esperanza de vida.

¿Estaría el BCE a ciegas?

David Cabo me hizo llegar el otro día este artículo, To what degree is the ECB flying blind? Y con buen criterio, porque, como veremos, toca temas ya conocidos de los lectores de estas páginas.

El artículo se resume en lo siguiente: si un día el Banco Central Europeo va a sumar a sus funciones la de la supervisión bancaria, va a encontrarse los dos problemas siguientes:

  • La confidencialidad de los datos
  • Sus niveles de desglose (y agregación)

Son dos problemas, además, interrelacionados. Por un lado, la supervisión bancaria exige un conocimiento íntimo de la cartera crediticia de las entidades. De hecho, son lo que el columnista llama tail risks, riesgos grandes que afectan a un número pequeño de préstamos, los que pueden tumbar al banco más pintado (véase esto y esto otro). Y estos riesgos en la cola quedan opacados tras las agregaciones.

p-valores bajo la hipótesis nula tras múltiples comparaciones

Imagina que trabajas en lo que Ionnidis, en su artículo Why Most Published Research Findings Are False, llama un null field; es decir, un área de investigación (tipo homeopatía o percepción extrasensorial) en la que no hay resultados ciertos, en la que las relaciones causa-efecto no pasan de ser presuntas. O tienes un conjunto de datos en un campo no nulo pero que, por algún motivo, no recoge las variables necesarias para explicar un cierto fenómeno.

Ajustar o no ajustar, esta es la cuestión

Hoy traigo a colación dos artículos que dicen, en esencia, lo contrario. El primero, No Adjustments Are Needed for Multiple Comparisons dice… lo que su título indica. Su resumen plantea el asunto un tanto menos sucintamente:

Se recomienda realizar ajustes al realizar múltiples tests sobre grandes conjuntos de datos para evitar rechazar la hipótesis nula demasiado fácilmente. Desafortunadamente, al reducir el error de tipo I se incrementa el error de tipo II. La hipótesis subyacente para realizar el ajuste es la de la hipótesis nula universal, según la cual, el azar es la explicación primera para todo fenómeno. Esta hipótesis está en contradicción con las premisas básicas de la investigación empírica, según la cual la naturaleza obedece leyes regulares que pueden ser estudiadas a través de su observación. Es preferible no aplicar ajustes al realizar múltiples tests porque da lugar a menos errores de interpretación cuando los datos no son números aleatorios sino observaciones extraídas de fenómenos naturales. Además, los científicos no deberían rehuir la exploración de hipótesis que pueden resultar ser falsas dada la posibilidad de no advertir fenómenos potencialmente importantes.

Incendios en España

Quienes siguen de antiguo estas páginas recordarán que ya me ocupé de la cuestión de los incendios forestales hace un tiempo. Después han pasado cosas.

Por un lado, vía Alberto González Paje di con esta página, que utiliza datos del informe estadístico que publica el Ministerio de Medio Ambiente (y de otras cosas más, según la legislatura en cuestión).

También asistí hace un tiempo a una reunión de MediaLab Prado en la que Juan Elosúa nos contó cómo había conseguido acceso a la base de datos completa de incendios del Ministerio a fuerza de insistir y amparado por ciertas normas que garantizan el derecho de los ciudadanos a cualquier tipo de información de tipo medioambiental. Nos mostró, además, algunas visualizaciones que había hecho con ellos.

Fallecimientos y microdatos

Hace un tiempo, un amigo me dijo que si en verano tiende a crecer la tasa de fallecimientos. Como de eso no sé y no hay manera de preguntarle a Google cuándo se muere más la gente, acudí a quienes se encargan de recopilar ese tipo de datos. Y construí en relativamente poco rato un gráfico parecido a

que echaba por tierra su hipótesis.

Ahora quiero retomar el asunto aprovechando que he anunciado el paquete MicroDatosEs para indicar cómo se pueden crear los tres ficheros de metadatos necesarios para leer ficheros de microdatos. En concreto, ese tipo de ficheros de microdatos posicionales a los que tan aficionados son los institutos estadísticos españoles.

Odds ratio vs probabilidad

Hoy he sabido vía Twitter lo siguiente:

Como me ha intrigado el asunto de lo de la probabilidad, he acudido al artículo original donde he aprendido que (y, excúsenme: por primera vez no traduzco este tipo de citas):

After we controlled for these characteristics through conditional logistic regression, the presence of one or more guns in the home was found to be associated with an increased risk of suicide (adjusted odds ratio, 4.8; 95 percent confidence interval, 2.7 to 8.5).

Un paseo por el paquete MicroDatosEs (y la EPA, de nuevo)

En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momento sólo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico.

Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo).

El paquete MicroDatosEs para microdatos públicos

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia:

  • fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y
  • hacer más accesibles estos datos a los usuarios de R.

Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos:

No es país para estadísticos

Esto me pasa por madrugar en lunes. Me levanto y me tropiezo con noticias como esta:

Ha sido reproducida en términos similares en otros medios. Es decir, incidiendo en la presunta causalidad de la subida del precio de los medicamentos en la subida del IPC de julio (el índice adelantado; el definitivo se conocerá a mediados de agosto). Sin embargo, la nota de prensa del INE, la única información con la que se cuenta a esta hora y que no incluye desgloses dice textualmente (aunque con mi subrayado):