SAS, R, grandes datos y falta de afabilidad

El otro día hice un comentario a esta entrada de una bitácora de SAS. Esencialmente, decía dos cosas: Que 10000 observaciones no hacen grandes datos (big data); 10000 observaciones son muy pocas observaciones. Que el código original, la idea de la entrada, etc., proceden de este otro enlace de una página de Yihui Xie (conocido por ser el autor de knitr) en la que el problema se planteaba y resolvía con R. Se le concedía crédito en el enlace al código que aparece en la bitácora de SAS pero no de una manera, digamos, lo suficientemente manifiesta. Y como no tuvieron a bien aprobar en la entrada mi comentario pasados unos cuantos días prudenciales, lo hago constar aquí.

7 de agosto de 2012 · Carlos J. Gil Bellosta

Un paseo por el paquete MicroDatosEs (y la EPA, de nuevo)

En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momento solo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico. Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo). ...

6 de agosto de 2012 · Carlos J. Gil Bellosta

El paquete MicroDatosEs para microdatos públicos

Comencé hace un tiempo un pequeño paquete de R, MicroDataEs, para importar automáticamente a R ficheros de microdatos distribuidos por los diversos organismos estadísticos (españoles, por acotar el ámbito). El objetivo es facilitar el análisis de este tipo de datos a los usuarios de R y como consecuencia: fomentar el uso de R entre aquellos que utilicen frecuentemente este tipo de información y hacer más accesibles estos datos a los usuarios de R. Quien haya tratado de trabajar, por ejemplo, con los ficheros de microdatos de la EPA que publica el INE comprenderá rápidamente el interés y alcance del paquete. Porque estos datos: ...

3 de agosto de 2012 · Carlos J. Gil Bellosta

Reetiquetar factores en R

La operación que voy a discutir hoy es una que plantea problemas a muchos programadores nuevos en R: cómo renombrar niveles de un factor. Un caso típico ocurre al leer una tabla que contiene datos no normalizados. Por ejemplo, mi.factor <- factor( c("a", "a", "b", "B", "A") ) donde se entiende que a y A, b y B son la misma cosa. Otro caso similar ocurre cuando se quieren agrupar niveles poco frecuentes como en mi.factor <- factor(c(rep("a", 1000), rep("b", 500), letters[3:10])) Para homogeneizar la entrada se recomienda sustituir sobre levels(mi.factor) así: ...

1 de agosto de 2012 · Carlos J. Gil Bellosta

Hemos cerrado el curso básico de R

El curso básico de R ha concluido. Hemos tenido 904 inscritos (aunque de ellossolo un porcentaje pequeño ha tenido una participación activa) que a lo largo de 5 semanas han seguido el programa que planteamos Juanjo Gibaja y yo. Quiero dar las gracias a los participantes en el curso y muy particularmente a quienes han contribuido más activamente en nuestra plataforma de preguntas y aprendizaje. Al acabar hemos hecho una pequeña encuesta entre quienes lo han seguido con los resultados siguientes: ...

26 de julio de 2012 · Carlos J. Gil Bellosta

Las IV Jornadas de Usuarios de R están aquí

Como imagino que ya sabréis, las IV Jornadas de Usuarios de R están aquí. El anuncio oficial, reproducido debajo, se hizo ayer: Escribo en nombre de los comités organizador y científico de las IV Jornadas de Usuarios de R para anunciarlas pública y oficialmente. Tendrán lugar los días 15 y 16 de noviembre en el CREAL, Barcelona y está coorganizadas por el CREAL, el Grupo de Usuarios de R de Barcelona y la Comunidad R Hispano. ...

19 de julio de 2012 · Carlos J. Gil Bellosta

Dos cursos de R en la U. de Murcia

La Universidad de Murcia ha organizado dos talleres sobre R: Iniciación a los gráficos estadísticos con R, el día 19 de julio de 2012, de 10:00 a 13:00h. Creación automática de informes con R: markdown + knitr, tendrá lugar el 24 julio a la misma hora. Ambos tienen un enfoque eminentemente práctico y podrán seguirse por videoconferencia (entrando como invitado).

17 de julio de 2012 · Carlos J. Gil Bellosta

¿Afectó el fraude de Barclays al Libor?

Después de la entrada de ayer y de he decidido estudiar qué impacto puede haber tenido el fraude de Barclays, uno de los 16 bancos que aportan datos para calcular el índice, sobre su valor diario. El procedimiento por el que se calcula el Libor lo describí ayer. Y también indiqué de dónde descargar los datos históricos que proporciona The Guardian. Así que puedo comenzar cargando los datos en R, ...

5 de julio de 2012 · Carlos J. Gil Bellosta

Libor, líbor, Fundéu y Barclays, claro

Hace un tiempo pregunté a la Fundéu cómo traducir la expresión over the counter. Pobres, tienen mucho trabajo en esta península asperjada de anglicismos. La respuesta, sinceramente, no me sirvió de mucho: me impedía hacerme entender con mis semejantes. Hace poco se le planteó también si escribir Euribor o euríbor. Optaron por la segunda por considerar el término como común. Yo solo estoy de acuerdo con ellos a medias. Por un lado, existe el euríbor (nombre común y propiamente españolizado, con su tilde) que se refiere a cierto precio del dinero (o tipo de interés). Pero existe también el Euribor, que es una medida del euríbor utilizando cierto procedimiento y que, como marca registrada, no se acentúa (como tampoco se acentúan Kodak o Nasdaq). ...

4 de julio de 2012 · Carlos J. Gil Bellosta

Gráficos estadísticos y mapas con R

Me ha llegado noticia de un nuevo libro sobre R, Gráficos estadísticos y mapas con R recién publicado. Los autores son Cástor Guisande y Antonio Vaamonde, ambos de la Universidad de Vigo. Y de la ficha del libro extraigo: En este libro se presentan en primer lugar las técnicas generales para la construcción de gráficos en R, con numerosos ejemplos de aplicación que permitirán al lector utilizar las funciones básicas con soltura, y así poder sacar el mejor partido de R para la construcción de gráficos personalizados. ...

2 de julio de 2012 · Carlos J. Gil Bellosta