Carlos J. Gil Bellosta

Los "mejores" paquetes de R (II): análisis anual de la red social de los participantes en r-help

Hace un tiempo comencé una serie de entradas, que serán finalmente tres, sobre los “mejores” paquetes de R. Esta va a ser la segunda entrega. Siento haber tardado tanto en realizarla: quienes me conocen saben que ocioso no he permanecido. De mis actividades de este periodo daré cumplida cuenta en entradas subsiguientes. Tengo que añadir también como preámbulo que ha sido una conversación sobre análisis de redes sociales con un ex-compañero muy ducho en apropiarse de contraseñas ajenas la que me ha empujado finalmente a ahondar este estudio que tenía, junto a tantos, postergado en una esquina de mi disco duro. ...

useR! 2010

Mientras en España no sabemos aún qué pasa con las II Jornadas de Usuarios de R (de hecho, ni siquiera se han corregido las faltas de ortografía de la página de internet de las primeras), las useR! 2010 marchan a todo trapo: en Gaithersburg, Maryland, los días del 20 al 23 de julio no va a faltar ni rms. No va faltar una charla a cuenta de la empresa a la que otras debieran parecerse. Habrá que tener a mano el enlace para cuando uno de los habituales cretinos encorbatados nos vuelva a espetar eso de pero R es una cosa como tan de… universidad… ...

Gráficos en R con símbolos arbitrarios

Hace no mucho, en un blog hermano, se habló de cómo podían utilizarse símbolos distintos en los gráficos de R. También hablé yo de funcionarios y renta per cápita. Ahora combino ambas entradas y algo más de mi cosecha para mostrar un gráfico hecho con R utilizando símbolos arbitrarios (las banderas de cada país). El secreto de cómo lo he hecho (y el código completo, claro) lo revelaré la semana que viene. Entre tanto, ¿a alguno de mis lectores se le ocurre cómo pudo haberse hecho?

Algoritmos genéticos para la caracterización de máximos en random forests

En minería de datos se buscan modelos que permitan hacer predicciones acerca del comportamiento de los sujetos del estudio. Pero, típicamente, cuanto más complejas son las técnicas, menos intuición ofrecen acerca del porqué de la predicción, pierden inteligibilidad. Existe una omnipresente tensión entre inteligibilidad (una propiedad altamente deseable, incluso, en ocasiones, por requisito legal) y precisión. Un modelo puede resumir mejor o peor una colección enorme de observaciones, pero en ocasiones los mismos modelos son demasiado complejos o herméticos como para ofrecer una interpretación plausible de los datos: ¿qué caracteriza a las observaciones para las que mi modelo predice los valores más altos (o bajos)? ...

Sobre la probabilidad condicionada y el problema de Monty Hall

Cuando era estudiante, hace ya demasiado, un compañero mío me comentaba los problemas que tenía para hacer comprender a sus alumnos resultados básicos sobre cálculo de probabilidad, probabilidades condicionadas y similares: a aquellos alumnos el resultado que aparecía en la pizarra les parecía ilógico y no parecía haber manera de sacarlos de su empecinamiento. Yo le di un consejo: de estar tan empeñados en su error, seguro, aceptarían participar y apostar en algún juego de azar ad hoc en el que se los pudiese desplumar. Estoy convencido de que hubiese sido una experiencia tan pedagógica como lucrativa. ...

20-10-2010: Día Mundial de la Estadística (y terremotos)

El 3 de junio, la ONU declaró Día Mundial de la Estadística el 20 de octubre de 2010 con el objeto de celebrar los muchos éxitos alcanzados por los sistemas y organismos de estadística oficial. Y para demostrar el poco caso que le hacemos al INE, ahí va un inquietante gráfico con datos extraídos de aquí: Inquietante, ¿verdad?

Agregador de noticias sobre R en español

Me es grato anunciar que está disponible (una versión beta de) un agregador de noticias sobre R en español. Ha sido desarrollado con el objetivo de proporcionar a la comunidad de usuarios un punto de acceso único a cuantas noticias sobre R se publiquen en la blogosfera en español. Es equivalente a su versión en inglés. También está disponible como RSS. Contenido agregable Actualmente, el motor de agregación lista entradas en blogs que: ...

De números y funcionarios

El otro día apareció una noticia en El País sobre los funcionarios en España y el resto de Europa en el que aparecía este gráfico. Como me resultaron curiosos los datos relativos a nuestros vecinos, me entretuve en sacarles algo de punta. Así que fui a la Wikipedia y asocié a cada país su renta per cápita PPA (son datos del 2008, creo) y obtuve esto: Por respeto a la sagacidad de mis lectores (por ser lectores y míos los entiendo bien armados intelectualmente) me abstengo de realizar comentarios.

Google Prediction API

Tantas cosas que escribir en este blog, tantas cosas que leer y probar, tan hermosa que está la primavera allende la ventana y… me callo porque uno nunca sabe quién puede acabar leyendo lo que escribo. A la lista de las cosas que probar y sobre las que aprender sumo hoy una que solo acrecienta la admiración que siento por esa empresa que tan poco se parece a otras. Se resume gráficamente en: ...

Sobre la media y la mediana

Esta entrada viene a cuento de una discusión en un grupo de Linkedin. Alguien preguntó literalmente: Mean as an estimator of parameter in case of non-normal/skewed distribution? My question is a bit tricky :) What could be the arguments for mean (simple no-weighted average) when the parameter distribution is non-normal? Supongo que mis lectores habrán advertido que la pregunta está mal formulada. Alguien la reescribió en términos más precisos (aunque distintos) de la siguiente manera: ...