Puedes probar cualquier cosa (con paciencia)

Puedes probar prácticamente cualquier cosa. Con paciencia, claro. Por ejemplo, coge una moneda de tu bolsillo. Puedes probar que tiene un sesgo: salen más caras (o cruces, da igual) de lo que cabría esperar. No lo vas a probar como los gañanes, no. Lo vas a probar usando los mismos métodos con los que se aprueban los medicamentos u otras verdades relevantísimas: mostrando al mundo un p-valor pequeñajo, por debajo de 0.05. Veamos cómo. ...

4 de octubre de 2011 · Carlos J. Gil Bellosta

Gestión avanzada de memoria en R: tracemem

Muchos usuarios de R se enfrentan en alguna ocasión a problemas con el uso y gestión de la memoria. La función tracemem es útil a la hora de identificar ineficiencias en el código. En su página de ayuda se lee: Esta función marca un objeto de forma que se imprime un mensaje cada vez que se llama a la función interna duplicate. Esto sucede cuando dos objetos comparten la misma memoria y uno de ellos se modifica. Esta es una causa de uso de memoria difícil de predecir en R. ...

3 de octubre de 2011 · Carlos J. Gil Bellosta

Dont be loopy! (III: jackknife y paralelismo)

Esta es la tercera entrega de una serie de artículos en los que comparo SAS y R a la hora de realizar diversos tipos de simulaciones basados en Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way. Esta vez toca compararlos a la hora de aplicar el método del jackknife. Primero, el código SAS que recomienda el autor del artículo, que calcula la curtosis de un conjunto de datos trivial (una muestra de 10k valores que siguen una distribución uniforme): ...

30 de septiembre de 2011 · Carlos J. Gil Bellosta

Predicciones a toro pasado y el perro que no ladró

Es fácil predecir a toro pasado. Casi tan fácil que asestarle una gran lanzada al moro muerto (el refranero es así de incorrecto políticamente, lo siento). Esas son las ideas que me sugirieron fundamentalmente la lectura del un tanto hagiográfico Superordenadores para ‘predecir’ revoluciones y del artículo al que se refería, Culturomics 2.0: Forecasting large-scale human behavior using news media tone in time and space. El artículo nos explica cómo utilizando resúmenes de noticias de diversas fuentes era posible haber predicho las revoluciones de Egipto, Túnez y Libia. Y, casi, casi, cómo haber encontrado a Bin Laden. ...

29 de septiembre de 2011 · Carlos J. Gil Bellosta

Datos grandes, colas largas

Codd desarrolló el modelo relacional —la base de casi todos los actuales sistemas de bases de datos— a finales de los años sesenta. El modelo relacional, basado en la lógica proposicional, suponía una ventaja sustancial con respecto a los métodos anteriores de almacenar información y bien implementado permite resolver una serie de problemas que afectaban a los sistemas anteriores: Evita la redundancia de los datos. Minimiza los problemas de actualización de los datos en las tablas. Protege la integridad de los datos. Etc. Sin embargo, hay motivos por los que dicho esquema no es enteramente válido en contextos en los que se manejan datos grandes (para una definición sensata sobre lo que son “datos grandes”, léase este artículo). ...

28 de septiembre de 2011 · Carlos J. Gil Bellosta

Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente. Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas. ...

27 de septiembre de 2011 · Carlos J. Gil Bellosta

Anumerismo: ¿atenuante o agravante?

Me pasaron hace unos días una sentencia de la Agencia de Protección de Datos acerca de un caso (y tienen muchos y variopintos) concerniente a alguien que protestó porque cierta entidad bancaria de la que no era cliente había accedido a su informe crediticio sin su autorización. Aparentemente, desde dicha entidad habían leído su informe en cuatro ocasiones en cuatro fechas distintas. Y eso, al parecer, no es legal y está penado con multas como la de 40 001 euros que le impusieron a la entidad. ...

26 de septiembre de 2011 · Carlos J. Gil Bellosta

Don’t be loopy! (II)

Continúo en esta la primera de las entradas que hice sobre el artículo Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way. Trata sobre lo siguiente: Construir un cojunto de datos simples (dos vectores, x e y). Hacer una regresión de y sobre x y capturar los residuos. Crear 1000 vectores y' distintos añadiendo a $\hat{y}$ (la predicción de y) en el modelo anterior una reordenación de los residuos. Crear los correspondientes 1000 modelos haciendo la regresión de cada $\hat{y}$ sobre x. Obtener el histograma del coeficiente de la regresión. Es un caso de _bootstrap _en el que no se muestrean directamente los valores iniciales sino los residuos del modelo. ...

23 de septiembre de 2011 · Carlos J. Gil Bellosta

Anonimidad y cantidad de información

Juguemos a un juego: pienso el nombre de uno de los 45M de ciudadanos españoles y tenéis que acertarlo. Me podéis hacer preguntas, pero solo de esas cuya respuesta es sí o no. ¿Cuántas preguntas deberíais hacerme? Pues unas 25 o 26 porque $log_2 4.5e7 = 25.42$. La demostración es sencilla: suponed que tenéis una lista con los nombres de todos los ciudadanos (a razón de 45 por hoja y 200 hojas por tomo, ocuparían 5000 de ellos). La primera pregunta podría ser: el individuo que has pensado, ¿está en los tomos 1-2500? Luego, dependiendo de la respuesta, ¿del 1250 al 2500? Y etc. con la búsqueda binaria. En total, 25 o 26 veces. ...

22 de septiembre de 2011 · Carlos J. Gil Bellosta

Facetas en ggplot2 (al hilo de otra gañanada)

Hace años que no leo Expansión con la frecuencia de antaño. Los motivos son muchos. Pero el otro día, casi por nostalgia, pagué los 1.60 euros que no vale. De entre los gañanes que trabajan en dicho diario hay uno que lo es más que todos: el responsable de las gráficas. En tiempos me irritaba. Luego me fui acostumbrando. Al final, casi, casi, le cogí cariño. Acabé interpretando sus gañanadas casi como si me dijese: “pues por aquí andamos, trabajando; de saludo, bien; y tus cosas ¿cómo van?”. ...

21 de septiembre de 2011 · Carlos J. Gil Bellosta