Posts

Predicciones a toro pasado y el perro que no ladró

Es fácil predecir a toro pasado. Casi tan fácil que asestarle una gran lanzada al moro muerto (el refranero es así de incorrecto políticamente, lo siento). Esas son las ideas que me sugirieron fundamentalmente la lectura del un tanto hagiográfico Superordenadores para ‘predecir’ revoluciones y del artículo al que se refería, Culturomics 2.0: Forecasting large-scale human behavior using news media tone in time and space. El artículo nos explica cómo utilizando resúmenes de noticias de diversas fuentes era posible haber predicho las revoluciones de Egipto, Túnez y Libia. Y, casi, casi, cómo haber encontrado a Bin Laden. ...

Datos grandes, colas largas

Codd desarrolló el modelo relacional —la base de casi todos los actuales sistemas de bases de datos— a finales de los años sesenta. El modelo relacional, basado en la lógica proposicional, suponía una ventaja sustancial con respecto a los métodos anteriores de almacenar información y bien implementado permite resolver una serie de problemas que afectaban a los sistemas anteriores: Evita la redundancia de los datos. Minimiza los problemas de actualización de los datos en las tablas. Protege la integridad de los datos. Etc. Sin embargo, hay motivos por los que dicho esquema no es enteramente válido en contextos en los que se manejan datos grandes (para una definición sensata sobre lo que son “datos grandes”, léase este artículo). ...

Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente. Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas. ...

Anumerismo: ¿atenuante o agravante?

Me pasaron hace unos días una sentencia de la Agencia de Protección de Datos acerca de un caso (y tienen muchos y variopintos) concerniente a alguien que protestó porque cierta entidad bancaria de la que no era cliente había accedido a su informe crediticio sin su autorización. Aparentemente, desde dicha entidad habían leído su informe en cuatro ocasiones en cuatro fechas distintas. Y eso, al parecer, no es legal y está penado con multas como la de 40 001 euros que le impusieron a la entidad. ...

Don’t be loopy! (II)

Continúo en esta la primera de las entradas que hice sobre el artículo Don’t Be Loopy: Re-Sampling and Simulation the SAS® Way. Trata sobre lo siguiente: Construir un cojunto de datos simples (dos vectores, x e y). Hacer una regresión de y sobre x y capturar los residuos. Crear 1000 vectores y' distintos añadiendo a $\hat{y}$ (la predicción de y) en el modelo anterior una reordenación de los residuos. Crear los correspondientes 1000 modelos haciendo la regresión de cada $\hat{y}$ sobre x. Obtener el histograma del coeficiente de la regresión. Es un caso de _bootstrap _en el que no se muestrean directamente los valores iniciales sino los residuos del modelo. ...

Anonimidad y cantidad de información

Juguemos a un juego: pienso el nombre de uno de los 45M de ciudadanos españoles y tenéis que acertarlo. Me podéis hacer preguntas, pero solo de esas cuya respuesta es sí o no. ¿Cuántas preguntas deberíais hacerme? Pues unas 25 o 26 porque $log_2 4.5e7 = 25.42$. La demostración es sencilla: suponed que tenéis una lista con los nombres de todos los ciudadanos (a razón de 45 por hoja y 200 hojas por tomo, ocuparían 5000 de ellos). La primera pregunta podría ser: el individuo que has pensado, ¿está en los tomos 1-2500? Luego, dependiendo de la respuesta, ¿del 1250 al 2500? Y etc. con la búsqueda binaria. En total, 25 o 26 veces. ...

Facetas en ggplot2 (al hilo de otra gañanada)

Hace años que no leo Expansión con la frecuencia de antaño. Los motivos son muchos. Pero el otro día, casi por nostalgia, pagué los 1.60 euros que no vale. De entre los gañanes que trabajan en dicho diario hay uno que lo es más que todos: el responsable de las gráficas. En tiempos me irritaba. Luego me fui acostumbrando. Al final, casi, casi, le cogí cariño. Acabé interpretando sus gañanadas casi como si me dijese: “pues por aquí andamos, trabajando; de saludo, bien; y tus cosas ¿cómo van?”. ...

La ley de Benford, revisitada

Revisito mi artículo sobre la ley de Benford no tanto por hacer mención a las entradas una, dos y tres que hizo Gregorio Serrano en su bitácora ni al oportunísimo artículo de The Guardian al respecto. Ni siquiera para mencionar la existencia de este sesudo artículo sobre el tema. Lo hago porque me pliego a la demanda popular: voy a explicar con más detalle el código que dejé allí escrito y que, por referencia, es benford <- function( foo, ..., n = 100000 ){ tmp <- foo( n, ... ) tmp <- as.character( tmp[ tmp > 0] ) tmp <- strsplit( tmp, "" ) leading.digit <- function( x ) x[ ! x %in% c( "0", "." )][1] tmp <- unlist( lapply( tmp, leading.digit ) ) 100 * table( tmp ) / length( tmp ) } benford( rcauchy ) benford( rexp, rate = 2 ) benford( rexp, rate = 5 ) benford( rnorm, sd = 40 ) benford( rweibull, shape = 1 ) Puede llamar la atención que el primer argumento de la función benford sea, precisamente, otra función. Nada del otro mundo. El siguiente es un ejemplo en el que se muestra el uso aislado para una mejor comprensión: ...

Linked, de Barabasi, capítulo I

No sé si seguir leyendo libros. Sus autores los llenan de letras. Y es un lujo poder disponer del tiempo de leerlas todas. Uno de esos libros llenos de letras es Linked, de Barabasi. Es un libro estupendo y recomendable. Pero podría ocupar 20 páginas si el autor fuese un poco más escueto y no se empeñase de llenarlo todo de anécdotas y colores. Su primer capítulo trata sobre las redes sociales aleatorias, también conocidas como redes de Poisson o de Erdös-Rényi. Una de tales redes aleatorias es una colección de n nodos y enlaces entre ellos de manera que la probabilidad de que dos nodos x e y al azar estén unidos es p. ...

Otra sobre polígrafos, terrorismo y periodistas anuméricos

Dice el diario El País que científicos británicos desarrollan un sistema que permite saber si alguien no está diciendo la verdad analizando su rostro. El aparato, según el artículo […] podría ser utilizado para cuestiones de seguridad, como, por ejemplo, en los aeropuertos para identificar a potenciales criminales o terroristas. Añade después que […] el sistema será capaz de coger al 90 % de los que mienten, porcentaje similar al obtenido por el polígrafo ...