Cosa prodigiosa, ahora con palabras (II)

Tal como prometí hace ahora una semana, voy a añadir las palabras que faltaban en aquella entrada. Pero primero, imaginad un bar en el que se venden cafés y cervezas. El coste de servir un café es de 1.10 euros pero se vende por 1. El coste de servir una cerveza es 1.30 euros pero se vende por 1.10. Entran los clientes y piden o café o cerveza. ¡Y resulta que a fin de mes el bar hace dinero! ...

19 de enero de 2012 · Carlos J. Gil Bellosta

R, en el 'top 20' de Tiobe

Más evidencias sobre la emergencia de R: ha entrado en el top 20 de lenguajes de programación elaborado por Tiobe por primera vez en enero de 2012: La lista, según avisa el mismo Tiobe, no es científica: se basa en un índice de popularidad elaborado a partir de información de ofertas laborales, buscadores de internet, etc. Nótese también que es el primero de los lenguajes de programación que no es de propósito general sino de dominio (la estadística). Nótese también su posición relativa con respecto a Matlab (23) y SAS (32). ...

18 de enero de 2012 · Carlos J. Gil Bellosta

Muestreando la distribución uniforme sobre la esfera unidad en n dimensiones

Debo esta entrada a la diligencia de Juanjo Gibaja, que se tomó la molestia de ubicar los teoremas relevantes en el libro Simulation and the Monte Carlo Method de Rubinstein y Kroese. Esencialmente, como la distribución normal multivariante (con matriz de covarianzas I) es simétrica, entonces, dadas $X_1,\dots, X_m \sim N( 0, I_n )$ independientes, los m puntos del espacion n-dimensional $X_i/| X_i |$ siguen una distribución uniforme sobre su esfera (su superficie, vale la pena reiterar) unidad. ...

17 de enero de 2012 · Carlos J. Gil Bellosta

Eles, "casts" y el rizo del rizo de la programación eficiente (con R)

Ante las preguntas de alguno de mis lectores, voy a proporcionar una explicación acerca de la misteriosa L. Bueno, voy más bien a dejar que la deduzcan ellos mismos a partir de la siguiente serie de bloques de código: a <- rep( 0, 10 ) typeof( a ) object.size( a ) b <- rep( 0L, 10 ) typeof( b ) object.size( b ) ############## a <- 1:10 typeof( a ) object.size( a ) a[1] <- 10 typeof( a ) object.size( a ) a <- 1:10 a[1] <- 10L typeof( a ) object.size( a ) ############## a <- 1:10 tracemem( a ) a[1] <- 2 a <- 1:10 tracemem( a ) a[1] <- 2L ############## system.time( replicate( 1e5, { a <- (1:100); a[1] <- 12 } ) ) system.time( replicate( 1e5, { a <- (1:100); a[1] <- 12L } ) ) Lectores míos, no seáis perezosos y haced, cuando menos, ?tracemem en vuestra consola. Una vez leída la página de ayuda, ¿se os ocurre algún truco para ahorrar mucha memoria cuando trabajáis con objetos (p.e., matrices) grandes de enteros?

16 de enero de 2012 · Carlos J. Gil Bellosta

Cosa prodigiosa, sin palabras (I)

Hoy voy a hacer mención a una cosa prodigiosa. Pero sin palabras. Voy a regalar a mis lectores tres pedazos de código que son este jugar <- function( n, make.step ){ tmp <- rep( 0L, n) for( i in 2:n ) tmp[i] <- make.step( tmp[i-1] ) tmp } juego.s <- function( x, prob.perder = 0.51 ){ x + ifelse( runif(1) < prob.perder, -1L, 1L ) } res.juego.s <- replicate( 1000, jugar( 1000, juego.s )[1000] ) hist( res.juego.s ) fivenum( res.juego.s ) este juego.c <- function( x ){ prob.perder <- ifelse( x %% 3 == 0, 0.905, 0.255 ) juego.s( x, prob.perder ) } res.juego.c <- replicate( 1000, jugar( 1000, juego.c )[1000] ) hist( res.juego.c ) fivenum( res.juego.c ) y este otro juego.fin <- function( x ){ sample( c( juego.c, juego.s), 1 )[[1]](x) } res.juego.fin <- replicate( 1000, jugar( 1000, juego.fin )[1000] ) hist( res.juego.fin ) fivenum( res.juego.fin ) Es una cosa tan maravillosa que no les voy a robar la oportunidad de averiguar por sí mismos en qué consiste. La semana que viene, en la segunda entrega, comentaré el código anterior y explicaré a qué se refiere y, si nadie lo ha dado a conocer antes, dónde reside lo miraculoso del asunto. ...

12 de enero de 2012 · Carlos J. Gil Bellosta

Escribir el libro "Estadística con R" en tres meses, ¿quimera?

No sé si es quimera o no. Se me ocurrió el otro día. Dejo mi idea aquí escrita para ver por dónde respira la comunidad. Se trata, sí, de un libro extenso sobre R. Que cubra el 90-95% de los métodos estadísticos que utilizan los usuarios —en sentido amplio— de la estadística: médicos, sociólogos, etc. Con R. Con la teoría justa pero, eso sí, con referencias a fuentes fiables: se supone que sus lectores saben ya algo de estadística, pero tal vez no cómo afrontar su problema con R. Una especie de recetario bien hecho. Un vademécum. ...

10 de enero de 2012 · Carlos J. Gil Bellosta

Comienza la lectura de “The Elements of Statistical Learning”

Mediante la presente, notifico a los interesados en la lectura de “The Elements of Statistical Learning” que esta semana tenemos que dar cuenta de los capítulos 1 (que es una introducción muy ligera) y 2 (donde comienza el tomate realmente). Esta noche Juanjo Gibaja y yo estudiaremos la mecánica de lectura en común. Los interesados pueden escribirme a cgb@datanalytics.com para, de momento, crear una lista de correo.

9 de enero de 2012 · Carlos J. Gil Bellosta

¿Cuánto gana el banco con tu hipoteca?

Parece mentira, pero hay gente que lo calcula fatal. Hace tiempo, un antiguo colega mío, matemático él, había propuesto el ejercicio a sus alumnos y estimó, me contó, que el banco recibía, aproximadamente, el doble de lo que prestaba. La operación que había realizado era muy sencilla: calcular el saldo vivo inicial con la suma de todas las cuotas mensuales. Pero la operación es incorrecta. Veamos por qué. Y obtengamos, de paso, alguna estimación más ajustada. ...

9 de enero de 2012 · Carlos J. Gil Bellosta

Gráficos de pares de variables mejorados (con R)

Un gráfico de pares de variables —que no he sabido traducir mejor desde el original inglés pairplot— es algo como lo siguiente: Ahora es posible construir gráficos de pares más sofisticados e informativos usando el paquete GGally de R. Usando el código (extraído de SAS and R) library(GGally) ds <- read.csv("http://www.math.smith.edu/r/data/help.csv") ds$sex <- as.factor( ifelse(ds$female==1, "female", "male") ) ds$housing <- as.factor( ifelse(ds$homeless==1, "homeless", "housed") ) smallds <- subset(ds, select=c("housing", "sex", "i1", "cesd")) ggpairs(smallds, diag=list(continuous="density", discrete="bar"), axisLabels="show") se obtiene la siguiente versión mejorada: ¿Gusta más?

29 de diciembre de 2011 · Carlos J. Gil Bellosta

El lucero del alba

Puede que algunos de mis lectores sepan que el lucero del alba es el nombre con que se conoce al planeta Venus cuando es visible en el cielo al amanecer. En contextos menos poéticos se conoce por tal nombre a esto: Es decir, una determinada configuración de los precios de apertura y cierre de tres días de cotización (bursátil, por ejemplo) de forma que: El primer día hay una bajada El tercer día hay una subida Los precios de apertura y cierre del segundo día son inferiores a los del cierre del primero y apertura del segundo. Se ve que eso es cosa güena. De El Economista extraigo el siguiente párrafo atribuido a un tal Joan Cabrero: ...

27 de diciembre de 2011 · Carlos J. Gil Bellosta