Carlos J. Gil Bellosta

La tragedia del buen rollito

No sé si mis lectores están al tanto del problema conocido como tragedia de los comunes (que, más bien, debería denominarse tragedia de las dehesas). Consiste en que una serie de agentes económicos (ganaderos) comparten un bien común, que no pertenece a nadie (una dehesa), en la que hacen pastar sus vacas. Todos ellos están interesados en hacer pastar el máximo número posible de ellas. Pero la capacidad de generar pasto de la dehesa es limitada y llega un momento en que ésta se sobreexplota y es incapaz de alimentar tanta vaca. Todos los ganaderos pierden, pero a ninguno le interesa reducir unilateralmente el tamaño de su cañada. ...

Explica, el portal divulgativo del INE

Me acaban de hacer llegar la noticia, via Twitter, de la existencia de Explica, el portal divulgativo del INE. Según sus propias palabras, [d]esarrollamos este sitio web con el objetivo de incrementar la cultura estadística en la sociedad y favorecer así el buen uso de la información estadística. Aquí podrás encontrar un conjunto de productos de carácter divulgativo que permiten conocer los principales conceptos en que se basa la elaboración de la información estadística, el contexto en que se desenvuelve la estadística oficial y algunas curiosidades y aplicaciones. ...

Sobre la encuesta sobre minería de datos de Rexer Analytics

Hace unos días se publicaron los resultados de la cuarta encuesta anual de minería de datos realizada por Rexer Analytics en la que 735 participantes de 60 países completaron sus 50 preguntas. Los hechos más relevantes que contiene son: La principal aplicación de la minería de datos (siempre pienso que desgraciadamente) es en el campo de la gestión (o inteligencia) de clientes, lo que por ahí denominan CRM. Los algoritmos más usados por los encuestados han sido árboles de decisión, regresión y análisis de conglomerados. En cuanto a las herramientas, la más utilizada es R. El 43% de los encuestados afirmaron haberlo usado. Sin embargo, como herramienta básica de trabajo, la más usada parece ser STATISTICA, usada por un 18% de los encuestados. Las herramientas mejor valoradas fueron STATISTICA, IBM SPSS Modeller y R. La mayor parte del análisis sigue realizándose en ordenadores personales, con los datos almacenados en local. Lo mismo ocurre a la hora de realizar el scoring. Los usuarios que más utilizan PMML son quienes emplean STATISTICA. Y más detalles pueden descargarse de la página de la encuesta.

Micromuertes

En 2008 (último año publicado), en España, según el INE, 16.000 personas perfectamente sanas se levantaron una mañana como si tal y por la noche estaban en el tanatorio metidas en una caja de pino rodeadas de sollozantes deudos. Dividamos 16.000 por 365. Obtenemos 44. Como en España la población anda en torno de los 45 millones de personas, eso significa que cada día, uno de cada millón palmó inopinadamente. En el 2008, cada español, cada mañana tiró una moneda al aire 20 veces y quien obtuvo 20 cruces no volvió a ver el amanecer (supongo que es obvio que $2^{20} \approx 1.000.000$, ¿verdad?). ...

Graficaca en el FT

La gente que escribe en el Financial Times y mucha de la que lo lee suele vestir de traje. Son gente que sabe de lo que habla y están versados en muchos temas no triviales. Podrían ir en chanclas, pantalones cortos y camisetas viejas sin que eso afectase a su conocimiento y entendimiento de las cosas. Si fuese el caso, con cuatro frases que intercambiásemos con ellos nos daríamos cuenta de que la impresión que tal vez no causasen no se corresponde con su erudita esencia. Pero el hecho es que gastan corbata. ...

Dos perspectivas sobre el problema de los valores no informados

Me llegó el otro día información acerca de un curso sobre métodos para afrontar el problema planteado por los valores no informados (missing observations) que su autor agrupaba bajo etiquetas bastante simpáticas: el bueno, el malo y el impensable. Tal vez faltaba el feo, tal vez porque lo son todos ellos, igual que el bendito problema que suponen. Añadía, sin mayores abundamientos, que explicaría cómo la solución común es en general la peor; mostraría por qué cierta solución sencilla, relativamente común y con mala fama no es habitualmente tan mala, explicando, además, cuáles son las situaciones en las que funciona y no funciona e indicaría dos soluciones que proporcionan resultados insesgados, una de las cuales es sencilla de implementar pero solo funciona en ciertas circunstancias y la otra, aunque más complicada, funciona siempre. Es un planteamiento un tanto comercial y no exento de gancho. Sin embargo, para el interesado en estos temas, traigo a colación dos artículos que ofrecen dos perspectivas algo distintas sobre este problema. El primero es una panorámica de procedimientos y herramientas existentes para encarar el problema de los valores no informados (en el contexto del análisis de la regresión, pero fácilmente extrapolables a otros similares), _Much Ado About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models _. El segundo es un informe de la Agencia Europea del Medicamento, Guideline on Missing Data in Confirmatory Clinical Trials, que sostiene una postura razonablemente paranoica al respecto (resumidamente: en caso de duda, siempre la solución más conservadora). ...

El problema de la media, el problema con la media

Debiera comenzar asumiendo y reconociendo mis deficiencias pedagógicas a la hora de elegir y presentar el problema sobre la media de la semana pasada. Espero que quienes hicieron comentarios al respecto —y quienes los pensaron sin escribirlos— no reciban esta entrada con el “buuuuu” que tal vez merezco. El problema de la media es más bien un problema con la media. No es en él tan interesante la solución —y nadie debería pensar que en estas páginas planteamos problemas rancios como aquellos sobre cuadernos, lapiceros y pesetas con que entretuvimos alguna tarde de la infancia— como su discusión. ...

Los finalistas del Desafío AbreDatos 2011

El Desafío AbreDatos 2011 es un concurso que se celebró los días 7 y 8 de mayo para el desarrollo exprés (¡en 48 horas!) de servicios tecnológicos para el ciudadano basados en el uso de datos públicos. Los finalistas son: AbreLibros Presupuestos CCAA TrikTrack El Disparate La lista de la compra Aquí os quedáis Cómo está el panorama e.nergy Invito a los lectores de este blog a participar en la votación, que está abierta hasta el 29 de mayo, y, tal vez, a animarse a participar en las próximas convocatorias. ...

Se buscan "alpha testers" para rPython

Busco alpha testers para mi paquete rPython. El paquete es la evolución natural de rJython, un paquete de R que permite llamar a Jython, el dialecto de Python que corre sobre la máquina virtual de Java, desde R. rPython permite llamar al verdadero Python. Funciona perfectamente en mi máquina, pero necesito ver qué problemas de instalación y uso aparecen en otras plataformas. De momento,solo funcionaría sobre plataformas UNIX o Linux. Me sorprendería lo indecible que funcionase también sobre Windows: sería toda una casualidad. ...

La versión 0.7 del paquete colbycol, en CRAN

Me complace anunciar la subida a CRAN de la versión 0.7 del paquete colbycol. La diferencia esencial con respecto a la anterior es: Utiliza el paquete filehash para crear el objeto que almacena los datos en disco. Incorpora algunas mejoras de uso sugeridas por los usuarios que facilitan la manipulación de los datos. Espero poder publicar un estudio comparado del rendimiento en los próximos días.