Rutinas de C en R

[Nota: esta entrada está totalmente desactualizada y la mantengo en blog por una mezcla de sentimentalismo y fidelidad a la “memoria histórica”; el interesado en cómo interconectar R y C (o C++) hoy hará bien en buscar en otra parte.] Esta entrada que ahora hago es un pequeño tutorial que publiqué en mi primera página de internet a principios de siglo, cuando todavía usaba Windows regularmente. Es posible que gran parte de lo que en ella cuente esté ya mandado a recoger. No obstante, tampoco hace tanto, eché mano de lo que en ella había dejado escrito para ver cómo migrar a Windows algo que había hecho en Linux y… todavía funcionó. ...

26 de septiembre de 2010 · Carlos J. Gil Bellosta

Tecnologías de la información 2020

Me consta que algunos de mis lectores piensan en reorientar sus carreras. Éstos se autoclasifican en dos grandes grupos: Los candidatos a “dinosaurios” —según la terminología de Raúl, mi vecino de blog— que aspiran a autoperpetuarse en una sinecura y que encuentran esta entrada de mi blog grandemente inspiradora. Los que pueden encontrar este artículo de provecho. O, más bien, parte de él, la parte que, por motivar la lectura, traduzco a continuación. Para el 2020, la cantidad de datos generados anualmente alcanzará los 35 zettabytes (35 millones de petabytes) […], suficiente como para llenar dos pilas de DVDs que lleguen hasta la luna. ...

25 de septiembre de 2010 · Carlos J. Gil Bellosta

Un grupo de usuarios de R en España... ¿cuándo?

Hace poco recibí noticia de la creación de un grupo de usuarios de R en Brisbane, que no deja de ser una ciudad chiquita en un país poblacionalmente chiquito. ¡Y es ya el cuarto en Australia! Miro también el siguiente gráfico y me da algo de grima: ¡No hay ni unsolo cerca de Madrid (que es la ubicación que a mí y ahora más me compete)! Así que si alguno de mis lectores está interesado en el asunto, podemos ir urdiendo cómo hacer para colocarle un pinchico rojo a ese mapa justo en Sol. ...

24 de septiembre de 2010 · Carlos J. Gil Bellosta

¿Cuánta información hay en el mundo?

Este documento consta de 2232 caracteres. Al escribirlo, he incrementado la cantidad de información disponible en el mundo en 2232 bytes. De haber empleado dicho tiempo en tomar una foto al sol poniéndose con Carabanchel como horizonte, la habría incrementado en unos 100 Kb. Quien compone una canción, la incrementa en unos 4 MB. Y así, todos, diariamente, al escribir un correo electrónico, al hacernos una radiografía, terminar ese dichoso informe, o, incluso, comprar con la tarjeta de crédito incrementamos –consciente o inconscientemente– dicha cantidad de información. ...

23 de septiembre de 2010 · Carlos J. Gil Bellosta

¿153 días de verdad de la buena?

Hoy he encontrado una cifra en el periódico: 153 días. Se refiere al tiempo que presuntamente tarda un aerogenerador en producir la energía que consume su construcción. Como curioso que soy, por el interés que tengo en la materia y porque nunca, nunca, nunca me creo un número que veo publicado, he hecho algunas comprobaciones por si el autor me trataba de colar un bulo. Es que, además, me ha sorprendido la cifra por pequeña, por demasiado favorable a la causa de las energías renovables cuando, años atrás, hablando del tema con mi antiguo profesor de física, habíamos llegado a una conclusión bastante distinta haciendo cuentas en la servilleta del bar. ...

22 de septiembre de 2010 · Carlos J. Gil Bellosta

StatProb: una wikipedia de estadística y probabilidad

Me enteré de esta iniciativa y me ha faltado tiempo para divulgarla entre los lectores de mi blog: StatProb, una enciclopedia de estadística y probabilidad patrocinada por varias asociaciones con interés en la materia. Más que a la Wikipedia, se parece a los proyectos Citizendium o Knol: los artículos son elaborados por expertos y aparecen firmados. Esto tiene las sobradamente conocidas consecuencias: un desarrollo más cuidado pero, a la vez, mucho más lento. Aunque tal vez esto no sea totalmente indeseable para una enciclopedia dedicada a temas tan técnicos y herméticos como los de ésta. ...

21 de septiembre de 2010 · Carlos J. Gil Bellosta

JDM: fuese y no hubo nada

Por salvaguardar del olvido algunas entradas que hice en un blog que ya no existe años ha, reproduzco acá otra que solo se entenderá retrasando las manecillas de los relojes y reemplazando hojas en los anaqueles hasta hará cosa de cinco años atrás. Fue tal como sigue: JDM es un proyecto de especificación de una API unificada y estandarizada para facilitar el desarrollo de actividades de minería de datos. Actualmente, la versión 2.0 de dicha API está en proceso de discusión. Colaboran en su desarrollo algunas de las principales empresas del sector. ...

19 de septiembre de 2010 · Carlos J. Gil Bellosta

useR! 2011

La próxima reunión anual de usuarios de R tendrá lugar del 16 al 18 de agosto de 2011 en la Universidad de Warwick, Inglaterra. Los conferenciantes invitados de este año van a ser Adrian Bowman, Lee Edlefsen, Ulrike Grömping, Wolfgang Huber, Brian Ripley, Jonathan Rougier, Simon Urbanek y Brandon Whitcher. Los usuarios de R están invitados a preparar charlas y presentar pósters ilustrando el uso de R. ¿Cuándo tocará en España? (Ramón Díaz Uriarte, que forma parte del comité organizador, me ha confirmado en comunicación personal que tardará, que hay una larga lista de candidatos a alojarlas y que vamos a tener que esperar todavía, me temo).

17 de septiembre de 2010 · Carlos J. Gil Bellosta

Representando gráficamente conjuntos de datos pequeños

Últimamente me están llegando conjuntos de datos para analizar con muy pocos registros. He aquí un subconjunto de uno de ellos (de hoy y debidamente anonimizado): nivel.proteina <- c( 11.56, 10.43, 11.00, 10.92, 10.08, 9.98, 10.35, 9.55, 9.19, 7.00, 6.72, 6.43, 7.43, 7.26, 6.67, 7.49, 8.03, 8.17, 6.79, 7.68, 7.01, 7.51, 6.90, 7.27, 7.56, 8.61, 8.16, 7.12 ) grupo <- c(0,0,0,0,0,0,0,0,0, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1) datos <- data.frame( nivel.proteina, grupo ) Le he estado dando vueltas a la manera de representar gráficamente este tipo de conjunto de datos de la manera en que deben hacerse estas cosas: que con un mero golpe de vista pueda hacerse uno con ellos. ...

16 de septiembre de 2010 · Carlos J. Gil Bellosta

Datanalytics: segunda posición en competición internacional de minería de datos

Me es más que grato anunciar que he alcanzado la segunda posición en el IEEE ICDM Contest: TomTom Traffic Prediction for Intelligent GPS Navigation (sección de tráfico): La competición constaba de tres partes (o subcompeticiones) distintas relacionadas con la predicción de ciertos aspectos relacionados con el tráfico en Varsovia: una para predecir el número de coches circulando por diez segmentos de calle de Varsovia a partir de recuentos durante los minutos previos; otra para predecir segmentos de calle donde se van a producir atascos a partir de la lista de otros que han ido atascándose previamente y una final para predecir la velocidad media del tráfico en determinadas calles a partir de datos de posición y velocidad enviados por sistemas de GPS instalados en un porcentaje de los vehículos a un servidor central. He logrado la segunda posición en la primera de ellas (usando R, obviamente) y espero redactar pronto un informe sobre la estrategia y métodos utilizados de cara a su posible publicación en las actas de la IEEE International Conference on Data Mining 2010 (ICDM10), que tendrá lugar en Sydney en diciembre.

8 de septiembre de 2010 · Carlos J. Gil Bellosta