Gestión avanzada de memoria en R: tracemem (II)

He leído estos días el capítulo 14 de The Art of R Programming que trata problemas y trucos para mejorar el rendimiento de R en términos de velocidad y memoria. Menciona la función tracemem de la que nos ocupamos el otro día. Menciona el capítulo cómo uno de los estranguladores del rendimiento de R es su política de copiar al cambiar (copy-on-change). Generalmente, cuando modificamos un objeto, R realiza una copia íntegra de él (¿y qué pasa si realizamos pequeñas modificaciones en un objeto muy grande?): ...

14 de octubre de 2011 · Carlos J. Gil Bellosta

Causalidad y método científico en El País

A raíz de la concesión del último (mal llamado) premio Nobel de Economía, han aparecido publicados en el diario El País el artículo Un premio al método científico de Ramón Marimón y el reportaje Causa y efecto en la economía, sorprendentes ambos tanto por el título como por el contenido. Creo que bien merecen el protoanálisis que sigue. ¿Premio al método científico? Hombre, ¡que estamos hablando del premio Nobel! Además, si esta vez han premiado al método científico… ¿qué fueron los anteriores laureados? ¿Pitonisos? El debate es viejo y muchos lo conocen mejor que yo. Es bastante famoso el pequeño escrito de Robert E. Lucas, What Economists do, en el que el autor escribe ...

13 de octubre de 2011 · Carlos J. Gil Bellosta

DataWrangler: limpieza y transformación interactiva de datos

Quiero dar a conocer hoy una alternativa a Google Refine de la que he tenido noticia no hace mucho: DataWrangler. Se trata de una herramienta concebida para acelerar el proceso de manipulación de datos para crear tablas que exportar luego a Excel, R, etc. Los interesados pueden echarle un vistazo al artículo que escribieron sus autores, Wrangler: Interactive Visual Specification of Data Transformation Scripts y, cómo no, usarlo.

11 de octubre de 2011 · Carlos J. Gil Bellosta

Las proyecciones de la población de España a corto plazo del INE no valen para un carajo

Las proyecciones de la población de España a corto plazo del INE no valen para un puto carajo. Tal vez sí para conseguir unos cuantos titulares en prensa como este, este o este otro. Pero no para lo que se supone que sirve. Además, por construcción. En el documento que explica qué son y para qué sirven dichas proyecciones se lee (con mi subrayado) La Proyección de Población de España a Corto Plazo elaborada por el INE constituye una simulación estadística del tamaño y estructura demográfica de la población que residiría en España […] en caso de mantenerse las tendencias y los comportamientos demográficos actualmente observados. ...

10 de octubre de 2011 · Carlos J. Gil Bellosta

Numerismo "interruptus" en el FT

Cuando era menos pobre, antes de la crisis, me desayunaba todos los días con el Financial Times. Me lo daban gratis en el hotel. Al cabo de un año leyéndome cada letra de cada edición, los principales columnistas acabaron siendo como de la familia. Un tipo al que tengo insana envidia es John Authers. Estése o no de acuerdo con su punto de vista, el hecho de que cada mañana sea capaz de poner en negro sobre sepia una columna increíblemente inteligente es motivo sobrado para sentirse internamente reconcomido. Otra periodista de asombroso insight (odio no saber traducir el término al español) es Gillian Tett. ...

7 de octubre de 2011 · Carlos J. Gil Bellosta

Ley de Transparencia y anonimidad en ficheros de microdatos

El adelanto electoral puede afectar el debate y aprobación de una ley largamente anunciada, la Ley de Transparencia. Se trata de una ley que daría derecho a los ciudadanos a obtener datos que obren en poder de (determinados organismos de la) administración del Estado bajo criterios amplios. Ha existido una propuesta inicial del PSOE y otra —considerada superior por los partidarios de los datos abiertos— del PP. Ahora habrá que esperar a la siguiente legislatura, parece ser. ...

6 de octubre de 2011 · Carlos J. Gil Bellosta

Cálculo mental, alzheimer, anumerismo y 20N

El otro día pensaba yo: si escribiese en un rollo de papel (idealmente infinito) el nombre de todos los españoles, uno en cada línea, de manera que cada línea ocupase, digamos, dos centímetros, ¿cuántos kilómetros de papel me harían falta? Por redondear, supuse que la población española es de 50M (pecata minuta: de sobreestimarla en un 10%, bastaría con recortar un 10% la respuesta final). Y por azares le propuse el problema a un compañero para que lo resolviese mentalmente. ¡Incapaz! Luego otro, y otro, y otro. Hasta seis y ninguno supo darme una respuesta correcta utilizando solo cálculo mental. ...

5 de octubre de 2011 · Carlos J. Gil Bellosta

Puedes probar cualquier cosa (con paciencia)

Puedes probar prácticamente cualquier cosa. Con paciencia, claro. Por ejemplo, coge una moneda de tu bolsillo. Puedes probar que tiene un sesgo: salen más caras (o cruces, da igual) de lo que cabría esperar. No lo vas a probar como los gañanes, no. Lo vas a probar usando los mismos métodos con los que se aprueban los medicamentos u otras verdades relevantísimas: mostrando al mundo un p-valor pequeñajo, por debajo de 0.05. Veamos cómo. ...

4 de octubre de 2011 · Carlos J. Gil Bellosta

Gestión avanzada de memoria en R: tracemem

Muchos usuarios de R se enfrentan en alguna ocasión a problemas con el uso y gestión de la memoria. La función tracemem es útil a la hora de identificar ineficiencias en el código. En su página de ayuda se lee: Esta función marca un objeto de forma que se imprime un mensaje cada vez que se llama a la función interna duplicate. Esto sucede cuando dos objetos comparten la misma memoria y uno de ellos se modifica. Esta es una causa de uso de memoria difícil de predecir en R. ...

3 de octubre de 2011 · Carlos J. Gil Bellosta

Dont be loopy! (III: jackknife y paralelismo)

Esta es la tercera entrega de una serie de artículos en los que comparo SAS y R a la hora de realizar diversos tipos de simulaciones basados en Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way. Esta vez toca compararlos a la hora de aplicar el método del jackknife. Primero, el código SAS que recomienda el autor del artículo, que calcula la curtosis de un conjunto de datos trivial (una muestra de 10k valores que siguen una distribución uniforme): ...

30 de septiembre de 2011 · Carlos J. Gil Bellosta