La distribución normal y el borracho que perdió sus llaves

Leí una vez un chiste sobre estadísticos. Lo tengo, de hecho, en algún lugar de mi disco duro y prometo incluir una referencia a la fuente una vez lo ubique. Trata de un borracho que pierde sus llaves en la noche y comienza a buscarlas a la luz de una farola. Alguien se ofrece a ayudarlo. —Qué le ocurre, ¿buen hombre? —He perdido las llaves. —¿Recuerda dónde pudo haber ocurrido? ...

23 de mayo de 2010 · Carlos J. Gil Bellosta

Números estadísticamente trascendentes

Mi reciente lectura del libro La política de los grandes números de Alain Desrosières y la más accesible de El triunfo de los números me animaron a comenzar una serie de artículos sobre números, sobre la descripción del estado de las cosas vistas a través de los números, la novedosa —que lo fue hace mucho, pero tampoco demasiado, tiempo atrás— perspectiva de interpretar los fenómenos a partir de números, que devino en la disciplina que conocemos como estadística. ...

20 de mayo de 2010 · Carlos J. Gil Bellosta

¿En qué se parecen Oracle y Teradata a Excel y Word?

Y, para el caso, Postgres y OpenOffice. Pues en que quienes los diseñan piensan que los usuarios finales son, somos, abuelitas. Y por tanto, toman decisiones por nosotros (usar mayúsculas donde no se debe, cruzar tablas como les da la gana, empeñarse en que incoar se escribe con hache intercalada, etc.). En particular, mi queja de hoy se refiere a lo estúpidos que pueden llegar a ser los presuntos optimizadores de consultas en bases de datos y en un pequeño —aunque universal— método para doblegarlos a nuestra voluntad soberana. ...

19 de mayo de 2010 · Carlos J. Gil Bellosta

Regresión por cuantiles en R y SAS

Hace un tiempo, con la aburridora perspectiva de un largo viaje en metro hasta mi casa ensombreciendo mi futuro más inminente, decidí regalarme algún tipo de amena lectura. A tal fin, imprimí un articulillo que, bajo la perspectiva de SAS, me introducía a una técnica que se vino a mí como por azar. O, bajo otro punto de vista, una técnica que, también por azar, había esquivado hasta tal fecha un encontronazo con mi husmeadora curiosidad. ...

18 de mayo de 2010 · Carlos J. Gil Bellosta

Qué hago estos días

Esta entrada, un tanto alejada del meollo temático de mi bitácora, tiene un tanto de biográfico, otro de folclórico (rayano de la denuncia del poliédrico sistema educativo español) y otro de descriptivo de lo tenaz que puede llegar a resultar el sufrido oficio de consultor. Versa de en qué se cifró una mañana de mis sudores. Que lo fue en realizar la exégesis del siguiente parrafito (que transcribo literalmente, para probable espanto de mis ortográficos, sintácticos y retóricos lectores): ...

17 de mayo de 2010 · Carlos J. Gil Bellosta

¡Hasta Microsoft!

El otro día incurrí de nuevo en la tan habitual como aburridora conversación acerca del papel que pueda jugar R en la empresa; más propiamente, tal vez, en determinadas áreas de determinadas empresas. Carpetovetónico él, encumbrado a un otero mesetario, lo circunscribía al impermeable mundo académico español. Puede, sí, que la montaña no venga a Mahoma motu proprio; pero no hay que olvidar que a Mahoma no le faltan cumbres a las que encaramarse. ...

10 de mayo de 2010 · Carlos J. Gil Bellosta

Datatables: tablas con búsqueda binaria en R

No hace mucho me enfrenté con un problema en el trabajo. Quería cruzar dos tablas, una de algunos miles de millones de registros y otra de algunos cientos de miles para, simplemente, contar el número de filas finales que aparecían por fecha. Cada una de las tablas tenía algunos filtros y agregaciones; el cruce final se realizaba sobre las subconsultas resultantes. El gestor de bases de datos que utilizamos, Teradata (sin comentarios), no podía con el cruce: las decisiones que tomaba internamente el presunto optimizador de consultas conducían inexorablemente a un error de espacio. ...

9 de mayo de 2010 · Carlos J. Gil Bellosta

¿Hemos salido de la recesión? ¡Queremos nuestros intervalos de confianza!

Ha aparecido publicado recientemente en prensa que, según el Banco de España, hemos salido de la recesión (por si acaso: nosotros significa los españoles): en su Boletín Económico del mes de abril, el banco emisor dice textualmente que: Las estimaciones realizadas a partir de la información coyuntural disponible apuntan a que, en el primer trimestre, el PIB pasó a crecer un 0,1%, en términos de su tasa intertrimestral, tras seis meses consecutivos de bajadas. ...

7 de mayo de 2010 · Carlos J. Gil Bellosta

R, ¿la herramienta de minería de datos más utilizada?

Pues eso es lo que parece indicar esta encuesta en el preciso momento en el que escribo. Cada uno le podrá otorgar la validez que desee, pero algún tipo de repercusión tendrá cuando: Hace unos años, cuando trabajaba para cierto fabricante de software, nos pasaron un correo invitándonos a emitir un voto en la que se realizó ese año (el portal realiza una encuesta análoga con periodicidad anual). Además, desde nuestras casas para que no se cancelasen por abusar del mismo rango de IPs. Hoy me ha llegado un correo de otro fabricante de software en cuya lista de distribución participo con idéntico objetivo. Por lo anterior, por el impacto mediático, por todo, invito a mis lectores a que participen en la encuesta (hasta que acabe el plazo, se vota en la página del enlace, en la parte de abajo).

5 de mayo de 2010 · Carlos J. Gil Bellosta

Y yo que pensaba que lo de Will Smith y SAS era una leyenda urbana...

Durante un tiempo, pensé que esa historia que circulaba por ahí sobre Will Smith y SAS era un bulo. Contaban (y nunca me creí del todo) que al principio de la carrera cinematográfica del actor, este había encargado un estudio para determinar qué tipo de guiones debía aceptar para hacer la mayor cantidad de dinero posible. Que se habían tomado unas cuantas películas muy exitosas, se habían metido en la batidora de SAS y que este le había proporcionado las pistas para hacer de un rapero de poca monta una estrella de Hollywood. ...

25 de abril de 2010 · Carlos J. Gil Bellosta