Estadística

Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

IPC de noviembre: al menos, una buena noticia

Se ha hablado mucho del dato del IPC de noviembre. En parte porque, se ve, es el usado para calcular la revalorización de las pensiones. Al parecer, el dato ha sido algo anómalo. Y tanto que ha conseguido algo inusitado: poner de acuerdo a la prensa de izquierdas con la de derechas. Dizque el gobierno ha orquestado una transferencia de renta de quienes reciben pensiones hacia quienes las financiamos (algo que, por otra parte, a nadie he visto subrayar: ¡como si el gobierno pagase las pensiones de su bolsillo!).

Más sobre variaciones insignificantes en estadísticas públicas

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.

Ahora leo en Significance cómo protesta Mark Fransham:

La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”.

Errores de las encuestas electorales en Cataluña: una hipótesis sugerente

Pedro Concejero sugirió ayer en la reunión del grupo de usuarios de R de Madrid una hipótesis muy sugerente para explicar parte del error cometido por las encuestas electorales publicadas en Cataluña. Voy a elaborarla en esta entrada pero subrayando antes de todo que desconozco el detalle del funcionamiento de recogida de datos y que lo que voy a contar aquí no pasa de ser una hipótesis que correspondería a otros tratar de verificar.

¿... coma cero dos por ciento? ¡Anda ya!

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como

El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%.

que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012.

Las ocho peores técnicas analíticas

La noticia es vieja y posiblemente conocida de muchos. Además, procede de esta otra bitácora. Pero no está de más dejar constancia de ella aquí.

Estas ocho técnicas son:

  • La regresión lineal
  • Los árboles de decisión tradicionales (yo los uso mucho, sin embargo, como herramienta descriptiva)
  • El análisis discriminante lineal
  • Las k-medias para construir clústers (véase esto)
  • Las redes neuronales (por su difícil interpretación, inestabilidad y su tendencia al sobreajuste)
  • La estimación por máxima verosimilitud, particularmente cuando la dimensionalidad del problema es elevada
  • Naive Bayes (véase esto)

Presentación del libro "Six Sigma with R"

El martes 20 de noviembre, a las 17:00h, tendrá lugar la presentación del libro Six Sigma with R: Statistical Engineering for Process Improvement" en la sala Juan Béjar de la E.U. de Estadística de la U. Complutense por parte de Emilio López Cano.

Existe además un paquete de R, SixSigma, desarrollado por los autores y disponible en CRAN.

El mundo del control de la calidad (en ingeniería) está dominado por software propietario, particularmente, Minitab. Esperemos que este libro ayude a que el uso de R se incremente en ese ámbito ya no tanto por la segunda de las razones que David Ríos indica en el prefacio, esto es, que R es gratis, sino por la primera: que R es robusto, riguroso y eficiente.

Capicúa

Capicúa es una de las trescientas cincuenta y pico palabras españolas que tienen su origen en el idioma catalán. Significa _cabeza _y cola. Y viene muy bien para etiquetar las dos entradas que, con esta, he realizado sobre las elecciones en Cataluña.

La que hice en su día, la cola, criticaba los métodos y ponía en cuestión los resultados de una encuesta electoral realizada por El Periódico (para más información, véase este enlace). Tal vez no sea casualidad que el software usado por los analistas en este caso sea SPSS.

No es país para "biplots"

No, parece que aún no estamos preparados para los biplots. En el curso Introduction to Infographics and Data Visualization de Alberto Cairo, nos pidieron sugierir mejoras y alternativas a este gráfico:

En el curso aparecieron sugerencias tales como esta,

esta, y otras similares que jugaban con los elementos gráficos habituales con más o menos arte, mejor o peor gusto en los colores, etc.

A mí se me ocurrió que los datos que aparecen en el gráfico original podía, con alguna salvedad y abusando del lenguaje, considerarse una especie de tabla de contingencia que incluía el número de personas que en cada país hacen uso de distintos tipos de servicios de internet. Y que entonces podría utilizar herramientas gráficas, tales como los biplots para visualizar los datos. El resultado fue