R - Carlos J. Gil Bellosta

Estoy limpiando mi cartera y antes de mandar unos cuantos legajos al archivador (o al contenedor de reciclaje) quiero dejar nota de sus contenidos para referencia mía y, quién sabe, si inspiración de otros.

El primer artículo es Tackling the Poor Assumptions of Naive Bayes Text Classifiers. Tiene esencialmente dos partes. La primera analiza críticamente el método de clasificación bayesiano ingenuo (naive Bayes) en el contexto de la minería de textos identificando una serie de deficiencias. En la segunda parte, los autores proponen una serie de modificaciones ad hoc para crear un algoritmo de clasificación mejorado.

Imagina que trabajas en lo que Ionnidis, en su artículo Why Most Published Research Findings Are False, llama un null field; es decir, un área de investigación (tipo homeopatía o percepción extrasensorial) en la que no hay resultados ciertos, en la que las relaciones causa-efecto no pasan de ser presuntas. O tienes un conjunto de datos en un campo no nulo pero que, por algún motivo, no recoge las variables necesarias para explicar un cierto fenómeno.

El Software Developer’s Journal ha publicado estos días un número dedicado exclusivamente a R. Dicen que sus 260 páginas hacen de este número el más extenso que ha publicado jamás la revista.

Incluye, además, un artículo mío, Rpython, a package for calling Python from R.

Creo que es necesario registrarse (y probablemente de forma no gratuita) para hojear el volumen. De todos modos tal vez sería posible que pudiese pasarle el número completo a aquellos que deseen echarle un vistazo…

Hace un tiempo, un amigo me dijo que si en verano tiende a crecer la tasa de fallecimientos. Como de eso no sé y no hay manera de preguntarle a Google cuándo se muere más la gente, acudí a quienes se encargan de recopilar ese tipo de datos. Y construí en relativamente poco rato un gráfico parecido a

que echaba por tierra su hipótesis.

Ahora quiero retomar el asunto aprovechando que he anunciado el paquete MicroDatosEs para indicar cómo se pueden crear los tres ficheros de metadatos necesarios para leer ficheros de microdatos. En concreto, ese tipo de ficheros de microdatos posicionales a los que tan aficionados son los institutos estadísticos españoles.

El otro día hice un comentario a esta entrada de una bitácora de SAS. Esencialmente, decía dos cosas:

Que 10000 observaciones no hacen grandes datos (big data); 10000 observaciones son muy pocas observaciones.
Que el código original, la idea de la entrada, etc., proceden de este otro enlace de una página de Yihui Xie (conocido por ser el autor de knitr) en la que el problema se planteaba y resolvía con R. Se le concedía crédito en el enlace al código que aparece en la bitácora de SAS pero no de una manera, digamos, lo suficientemente manifiesta.

Y como no tuvieron a bien aprobar en la entrada mi comentario pasados unos cuantos días prudenciales, lo hago constar aquí.

En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momentosolo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico.

Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo).

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia:

fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y
hacer más accesibles estos datos a los usuarios de R.

Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos:

La operación que voy a discutir hoy es una que plantea problemas a muchos programadores nuevos en R: cómo renombrar niveles de un factor. Un caso típico ocurre al leer una tabla que contiene datos no normalizados. Por ejemplo,

mi.factor <- factor( c("a", "a", "b", "B", "A") )

donde se entiende que a y A, b y B son la misma cosa. Otro caso similar ocurre cuando se quieren agrupar niveles poco frecuentes como en

mi.factor <- factor(c(rep("a", 1000), rep("b", 500), letters[3:10]))

Para homogeneizar la entrada se recomienda sustituir sobre levels(mi.factor) así:

El curso básico de R ha concluido. Hemos tenido 904 inscritos (aunque de ellossolo un porcentaje pequeño ha tenido una participación activa) que a lo largo de 5 semanas han seguido el programa que planteamos Juanjo Gibaja y yo.

Quiero dar las gracias a los participantes en el curso y muy particularmente a quienes han contribuido más activamente en nuestra plataforma de preguntas y aprendizaje.

Al acabar hemos hecho una pequeña encuesta entre quienes lo han seguido con los resultados siguientes:

Como imagino que ya sabréis, las IV Jornadas de Usuarios de R están aquí. El anuncio oficial, reproducido debajo, se hizo ayer:

Escribo en nombre de los comités organizador y científico de las IV Jornadas de Usuarios de R para anunciarlas pública y oficialmente.

Tendrán lugar los días 15 y 16 de noviembre en el CREAL, Barcelona y está coorganizadas por el CREAL, el Grupo de Usuarios de R de Barcelona y la Comunidad R Hispano.

R

Limpieza de cartera: tres artículos

p-valores bajo la hipótesis nula tras múltiples comparaciones

R en el Software Developer's Journal

Fallecimientos y microdatos

SAS, R, grandes datos y falta de afabilidad

Un paseo por el paquete MicroDatosEs (y la EPA, de nuevo)

El paquete MicroDatosEs para microdatos públicos

Reetiquetar factores en R

Hemos cerrado el curso básico de R

Las IV Jornadas de Usuarios de R están aquí