Estadística

Voy a partir una lanza a favor de Rosell a cuenta de la EPA

Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.

Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?

Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.

La ley de Benford en muestras pequeñas: algunas evidencias

Hoy he cogido medio millón de números correspondientes a cuantías de dinero, en diversas monedas y he mirado a ver si cumplían la Ley de Benford utilizando código de Gregorio Serrano (véase también esto). El resultado ha sido

donde se aprecia cómo, efectivamente, dichas cifras parecen adecuarse a la Ley de Benford. (Hay que hacer notar, sin embargo, que el test implementado por Gregorio, el de la chi-cuadrado, arroja un p-valor de 2.2e-16, que podría llevar a algunos a cuestionar si lo que ven sus ojos es cierto y a otros a divagar sobre la aplicabilidad de pruebas de este tipo a conjuntos de datos tan grandes).

Anonimidad en ficheros de microdatos: un estudio en el contexto español

Estos días ha salido publicado un artículo mío, Microdata and k-anonymity: a quantitative approach in the Spanish context en la Revista BEIO. Trata de algunos temas de los que ya nos hemos ocupado antes en estas páginas: la anonimidad que cabe esperar en ficheros de microdatos. Y, en este caso, cuando hacen referencia a personas que viven en España.

Supongamos que se hacen públicos unos ficheros de datos en los que se han eliminado los identificadores (nombre, DNI, etc.) pero muestra ciertos datos de individuos (población de residencia, fecha de nacimiento, sexo, etc.) y otros datos (enfermedades padecidas, si ha estado en la cárcel, etc.). Es posible que haya invidiuos únicos en el fichero, es decir, que exista solo uno con esos atributos. Eso los hace reidentificables. Por ejemplo, es probable que en Ólvega (provincia de Soria) solo resida una señora nacida en una fecha determinada de los años cincuenta.

Casi un ejemplo perfecto

Hoy, el INE, casi nos ha regalado un ejemplo perfecto de la paradoja de Simpson en la nota de prensa de las Pruebas de Acceso a la Universidad.

En efecto, según la tabla

el porcentaje de hombres aprobados superó al de mujeres en cada categoría (excepto en la muy pequeña de mayores de 45 años). Pero, sin embargo, el porcentaje de aprobados entre las mujeres supera (aunque por la mínina) al de los hombres.

Tu tasa de paro personal

En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.

Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.

El primer análisis clínico, ¿en la Biblia?

Ben Goldacre es un médico inglés algo friqui. No se conforma con lo que le cuentan los vademécum al uso. Y mucho menos, los visitadores médicos, es decir, los representantes comerciales de las compañías farmacéuticas. Le gusta navegar por la literatura científica y ver qué se ha publicado sobre los diversos tratamientos. E incluso, lo que no ha llegado a publicarse (ya sabéis, el sesgo de publicación).

Publicó en 2008 un libro muy recomendable, Bad Science (traducido al español), gracias al cual he venido a enterarme de cuál pudiera haber sido el primer análisis clínico de la historia:

¿Por qué 0.05?

¿Por qué usamos p=0.05 como umbral de significancia? ¿Cuáles son los motivos históricos detrás de dicha decisión? ¿Tiene ventajas? ¿Inconvenientes?

Quien quiera conocer en qué contexto dijo R.A. Fischer que

[…] for in fact no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas. Further, the calculation is based solely on a hypothesis, which, in the light of the evidence, is often not believed to be true at all, so that the actual probability of erroneous decision, supposing such a phrase to have any meaning, may be much less than the frequency specifying the level of significance.

Algunos resultados de la Encuesta Trimestral de Coste Laboral

Voy a hacerlo. Aunque siento cierta repugnancia. Y es que promediar salarios de carretilleros y directores generales es algo que trato de evitar. Ni aun con el beneplácito del INE. No obstante, creo que el resultado final merece aún la pena y que de él se pueden extraer conclusiones no del todo irrelevantes.

Lo que voy a hacer es mostrar un par de gráficos construidos sobre los datos (agregados: da la impresión de que el INE no proporciona los microdatos) de la última Encuesta Trimestral de Coste Laboral correspondiente al tercer trimestre de 2012. De entre todas las opciones, me he decantado por indagar sobre el coste laboral por hora efectiva y por divisiones de la CNAE-09. Lo resumo en el siguiente gráfico:

Los nueve artículos favoritos de Tibshirani

Rob Tibshirani ha seleccionado recientemente una lista de nueve artículos de estadística publicados desde 1970. Son estos:

  • Regression models and life tables (with discussion) (Cox 1972). Según Tibshirani, David Cox merece el Nobel de Medicina por él.
  • Generalized linear models (Nelder and Wedderburn 1972). Es la base del paquete glm de R.
  • Maximum Likelihood from Incomplete Data via the {EM} Algorithm (with discussion) (Dempster, Laird, and Rubin 1977).
  • Bootstrap methods: another look at the jackknife (Efron 1979).
  • Classification and regression trees (Breiman, Friedman, Olshen and Stone 1984).
  • How biased is the error rate of a prediction rule? (Efron 1986).
  • Sampling based approaches to calculating marginal densities (Gelfand and Smith 1990).
  • Controlling the false discovery rate: a practical and powerful approach to multiple testing (Benjamini and Hochberg 1995).
  • A decision-theoretic generalization of online learning and an application to boosting (Freund and Schapire 1995).

Sanidad pública, sanidad privada

Lo siento. El título es engañoso. No voy a abundar en el tema de modelo sanitario. Aunque esté de moda. Traje a este debate ideas preconcebidas que se me han ido pegando durante años de andar sobre la faz de la tierra. Y mis esfuerzos me ha costado desprenderme cartesianamente de ellas para quedarme a la espera de que alguien me ilumine de manera clara y distinta. Solo sospecho que la respuesta no puede resumirse en un monosílabo, que es mixta y con ejércitos de demonios camuflados tras los detalles. Pero lo que opine es prácticamente irrelevante.