Comienza la lectura de “The Elements of Statistical Learning”

Mediante la presente, notifico a los interesados en la lectura de “The Elements of Statistical Learning” que esta semana tenemos que dar cuenta de los capítulos 1 (que es una introducción muy ligera) y 2 (donde comienza el tomate realmente). Esta noche Juanjo Gibaja y yo estudiaremos la mecánica de lectura en común. Los interesados pueden escribirme a cgb@datanalytics.com para, de momento, crear una lista de correo.

9 de enero de 2012 · Carlos J. Gil Bellosta

¿Cuánto gana el banco con tu hipoteca?

Parece mentira, pero hay gente que lo calcula fatal. Hace tiempo, un antiguo colega mío, matemático él, había propuesto el ejercicio a sus alumnos y estimó, me contó, que el banco recibía, aproximadamente, el doble de lo que prestaba. La operación que había realizado era muy sencilla: calcular el saldo vivo inicial con la suma de todas las cuotas mensuales. Pero la operación es incorrecta. Veamos por qué. Y obtengamos, de paso, alguna estimación más ajustada. ...

9 de enero de 2012 · Carlos J. Gil Bellosta

Gráficos de pares de variables mejorados (con R)

Un gráfico de pares de variables —que no he sabido traducir mejor desde el original inglés pairplot— es algo como lo siguiente: Ahora es posible construir gráficos de pares más sofisticados e informativos usando el paquete GGally de R. Usando el código (extraído de SAS and R) library(GGally) ds <- read.csv("http://www.math.smith.edu/r/data/help.csv") ds$sex <- as.factor( ifelse(ds$female==1, "female", "male") ) ds$housing <- as.factor( ifelse(ds$homeless==1, "homeless", "housed") ) smallds <- subset(ds, select=c("housing", "sex", "i1", "cesd")) ggpairs(smallds, diag=list(continuous="density", discrete="bar"), axisLabels="show") se obtiene la siguiente versión mejorada: ¿Gusta más?

29 de diciembre de 2011 · Carlos J. Gil Bellosta

El lucero del alba

Puede que algunos de mis lectores sepan que el lucero del alba es el nombre con que se conoce al planeta Venus cuando es visible en el cielo al amanecer. En contextos menos poéticos se conoce por tal nombre a esto: Es decir, una determinada configuración de los precios de apertura y cierre de tres días de cotización (bursátil, por ejemplo) de forma que: El primer día hay una bajada El tercer día hay una subida Los precios de apertura y cierre del segundo día son inferiores a los del cierre del primero y apertura del segundo. Se ve que eso es cosa güena. De El Economista extraigo el siguiente párrafo atribuido a un tal Joan Cabrero: ...

27 de diciembre de 2011 · Carlos J. Gil Bellosta

¿Nos leemos "The Elements of Statistical Learning" de tapa a tapa?

Propone Juan José Gibaja como propósito intelectual para el año nuevo el leer The Elements of Statistical Learning —libro que puede descargarse gratuita y legalmente del enlace anterior— de tapa a tapa, en grupo y a razón de capítulo por semana. La idea es hacerlo en común, enlazando el contenido del libro con código —sea disponible o de nuevo cuño cuando la situación lo requiera— y haciendo públicos las ideas que resulten de esta lectura en una red de bitácoras (a la que esta pertenecería). ...

23 de diciembre de 2011 · Carlos J. Gil Bellosta

Disponibles los vídeos de las charlas de las III Jornadas de Usuarios de R

En las Jornadas de Usuarios de R íbamos a tener la posibilidad de grabar las charlas en vídeo pero resultó que no: aunque la EOI nos brindaba la infraestructura necesaria para la grabación y la retransmisión de las jornadas, corría por cuentra nuestra el pagar al operador de las cámaras, etc. Y éramos pobres. Nos íbamos pues a quedarnos sin retransmisión en directo hasta que, a las dos de la tarde del día anterior, recibí este mensaje de Jose Antonio Palazón: ...

16 de diciembre de 2011 · Carlos J. Gil Bellosta

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales. ...

15 de diciembre de 2011 · Carlos J. Gil Bellosta

Un lematizador para el español con R... ¿cutre? ¿mejorable?

Uno de los pasos previos para realizar lo que se viene llamando minería de texto es lematizar el texto. Desafortunadamente, no existen buenos lematizadores en español. Al menos, buenos lematizadores libres. Existen el llamado algoritmo de porter y snowball pero, o son demasiado crudos o están más pensados para un lenguaje con muchas menos variantes morfológicas que el español. Sinceramente, no sé a qué se dedican —me consta que los hay— los lingüistas computacionales de la hispanidad entera: ¿no son capaces de liberar una herramienta de lematización medianamente decente que podamos usar los demás? Lo más parecido a esa herramienta aparentemente inexistente que conozco es Grampal, que funciona a través de una interfaz web. ...

13 de diciembre de 2011 · Carlos J. Gil Bellosta

Bajo el capó de teradataR

Me gustaría haber podido indagar bajo el capó de teradataR, el paquete de R desarrollado por Teradata que permite que R realice lo que llaman por ahí _in database analytics _utilizando dicha plataforma propietaria. Ya lo probé hace un tiempo con resultados bastante desiguales y que distaban muy mucho de mis expectativas originales, habida cuenta de las muchas bondades del gestor relacional. Durante mucho tiempo he tenido la intención de desentrañar los secretos del paquete, pero me contuvieron los términos desacostumbradamente restrictivos de la licencia: ...

9 de diciembre de 2011 · Carlos J. Gil Bellosta

Creación de un "R portable"

Se supone que R, que está disponible en una multitud de plataformas y sin coste, debería poder instalarse por doquier. Pero sucede en ocasiones que sus usuariossolo disponen de plataformas muy cerradas, sin acceso a privilegios de administración, en organizaciones hostiles al software libre, etc. La solución para poder seguir disfrutando del poder de R en tales circunstancias puede pasar por la utilización de una versión portable de R: una que arranque desde un pincho de memoria sin interferir con el resto del software de la máquina ni requerir permisos de escritura en directorios vetados. ...

1 de diciembre de 2011 · Carlos J. Gil Bellosta