Regresión por cuantiles en R y SAS

Hace un tiempo, con la aburridora perspectiva de un largo viaje en metro hasta mi casa ensombreciendo mi futuro más inminente, decidí regalarme algún tipo de amena lectura. A tal fin, imprimí un articulillo que, bajo la perspectiva de SAS, me introducía a una técnica que se vino a mí como por azar. O, bajo otro punto de vista, una técnica que, también por azar, había esquivado hasta tal fecha un encontronazo con mi husmeadora curiosidad. ...

18 de mayo de 2010 · Carlos J. Gil Bellosta

Qué hago estos días

Esta entrada, un tanto alejada del meollo temático de mi bitácora, tiene un tanto de biográfico, otro de folclórico (rayano de la denuncia del poliédrico sistema educativo español) y otro de descriptivo de lo tenaz que puede llegar a resultar el sufrido oficio de consultor. Versa de en qué se cifró una mañana de mis sudores. Que lo fue en realizar la exégesis del siguiente parrafito (que transcribo literalmente, para probable espanto de mis ortográficos, sintácticos y retóricos lectores): ...

17 de mayo de 2010 · Carlos J. Gil Bellosta

¡Hasta Microsoft!

El otro día incurrí de nuevo en la tan habitual como aburridora conversación acerca del papel que pueda jugar R en la empresa; más propiamente, tal vez, en determinadas áreas de determinadas empresas. Carpetovetónico él, encumbrado a un otero mesetario, lo circunscribía al impermeable mundo académico español. Puede, sí, que la montaña no venga a Mahoma motu proprio; pero no hay que olvidar que a Mahoma no le faltan cumbres a las que encaramarse. ...

10 de mayo de 2010 · Carlos J. Gil Bellosta

Datatables: tablas con búsqueda binaria en R

No hace mucho me enfrenté con un problema en el trabajo. Quería cruzar dos tablas, una de algunos miles de millones de registros y otra de algunos cientos de miles para, simplemente, contar el número de filas finales que aparecían por fecha. Cada una de las tablas tenía algunos filtros y agregaciones; el cruce final se realizaba sobre las subconsultas resultantes. El gestor de bases de datos que utilizamos, Teradata (sin comentarios), no podía con el cruce: las decisiones que tomaba internamente el presunto optimizador de consultas conducían inexorablemente a un error de espacio. ...

9 de mayo de 2010 · Carlos J. Gil Bellosta

¿Hemos salido de la recesión? ¡Queremos nuestros intervalos de confianza!

Ha aparecido publicado recientemente en prensa que, según el Banco de España, hemos salido de la recesión (por si acaso: nosotros significa los españoles): en su Boletín Económico del mes de abril, el banco emisor dice textualmente que: Las estimaciones realizadas a partir de la información coyuntural disponible apuntan a que, en el primer trimestre, el PIB pasó a crecer un 0,1%, en términos de su tasa intertrimestral, tras seis meses consecutivos de bajadas. ...

7 de mayo de 2010 · Carlos J. Gil Bellosta

R, ¿la herramienta de minería de datos más utilizada?

Pues eso es lo que parece indicar esta encuesta en el preciso momento en el que escribo. Cada uno le podrá otorgar la validez que desee, pero algún tipo de repercusión tendrá cuando: Hace unos años, cuando trabajaba para cierto fabricante de software, nos pasaron un correo invitándonos a emitir un voto en la que se realizó ese año (el portal realiza una encuesta análoga con periodicidad anual). Además, desde nuestras casas para que no se cancelasen por abusar del mismo rango de IPs. Hoy me ha llegado un correo de otro fabricante de software en cuya lista de distribución participo con idéntico objetivo. Por lo anterior, por el impacto mediático, por todo, invito a mis lectores a que participen en la encuesta (hasta que acabe el plazo, se vota en la página del enlace, en la parte de abajo).

5 de mayo de 2010 · Carlos J. Gil Bellosta

Y yo que pensaba que lo de Will Smith y SAS era una leyenda urbana...

Durante un tiempo, pensé que esa historia que circulaba por ahí sobre Will Smith y SAS era un bulo. Contaban (y nunca me creí del todo) que al principio de la carrera cinematográfica del actor, este había encargado un estudio para determinar qué tipo de guiones debía aceptar para hacer la mayor cantidad de dinero posible. Que se habían tomado unas cuantas películas muy exitosas, se habían metido en la batidora de SAS y que este le había proporcionado las pistas para hacer de un rapero de poca monta una estrella de Hollywood. ...

25 de abril de 2010 · Carlos J. Gil Bellosta

Goldcorp, Netflix, Kaggle, minería de datos y la nueva economía

Hasta hace no mucho trabajé durante unos meses en la vieja economía. Ahora, de algún modo, sigo en ella aunque en otro estilo. Hoy, sin embargo, hablaré de la nueva economía, de un nuevo estilo de hacer cosas. Llevado de un oneroso vicio mío, no hace tanto que compré cierto librito (que aún no he terminado) en cuyo primer capítulo tuve noticia del Goldcorp Challenge. En resumen: Goldcorp es una empresa minera que para el 2000 explotaba unas minas de oro en declive. Entonces, su director decidió nadar contra corriente: hizo públicos los datos recopilados por sus equipos de geólogos, que eran incapaces de encontrar depósitos nuevos de oro en la zona, y ofreció premios en metálico (más de medio millón de dólares) a quien, explotándolos, lograse indicios de nuevos filones. ...

22 de abril de 2010 · Carlos J. Gil Bellosta

Para que copien, peguen y disfruten: addenda

Ayer dejé publicadas unas cuantas líneas de R y la promesa de contar de qué iba la cosa. Adelantando acontecimientos, he recibido comentarios públicos y privados al respecto que en esta entrada trataré de contestar. El código era, una vez mínimamente desofuscado (no quería dar demasiadas pistas): vertice.x <- c(0,1,2) # 1 vertice.y <- c(0,1,0) # 2 muestra <- sample( 1:3, 100000, replace = T ) # 3 iter <- function( ini, v ){ # 4 out <- rep( ini, length(v) ) # 5 for( i in 2:length(v) ) out[i] <- ( out[i-1] + v[i] ) / 2 # 6 out } plot( iter( runif(1), v.x[ muestra ] ), iter( runif(1), v.y[ muestra ] ), pch = "." ) He aquí lo que hace: Asigna a una variable las coordenadas x de un triángulo. Asigna a otra variable las coordenadas y del triángulo. Selecciona una muestra aleatoria de tamaño 100k (con reemplazo, obviamente) de los vértices de dicho triángulo. Crea una función, iter, que calcula iterativamente una sucesión de puntos. La función genera una sucesión de puntos comenzando por uno al azar. Por eficiencia, es mejor asignar espacio previamente. En este caso es un vector de longitud igual al de la muestra de puntos. El bucle calcula de hecho la sucesión de puntos. Cada uno de ellos es el punto medio entre el anterior y el vértice (elegido al azar, recordemos) correspondiente. Por lo tanto, la sucesión de puntos trata de acercarse a los vértices del triángulo en una especie de caminata aleatoria sin en realidad llegar a poder alcanzar jamás ninguno de ellos. (Supongo que este algoritmo le habría quitado el sueño malamente al pobre Zenón). Finalmente, se representan los puntos gráficamente en el plano. El resultado, como todo atento lector de las páginas 42 a 45 de este libro debería haber reconocido, es el triángulo de Sierpinsky (como dice el autor del libro, el resultado es dicho triángulo querámoslo o no). ...

21 de abril de 2010 · Carlos J. Gil Bellosta

Para que copien, peguen y disfruten

El otro día hablé de una señora que había hecho algunos comentarios poco avisados sobre R. A las alegaciones de que el código de R que publicó en su página no es siquiera código de R respondió diciendo que lo había copiado “de internet” (¡cuánto de pernicioso hay en esas páginas por donde uno navega sin temor de Dios!). Para incrementar la probabilidad de que, cuando esto vuelva a ocurrir, el código pegado de internet sea más bonito que el arriba mencionado, dejo acá este (e invito a mis lectores a ejecutarlo): ...

21 de abril de 2010 · Carlos J. Gil Bellosta