Estadística

La distribución normal y el borracho que perdió sus llaves

Leí una vez un chiste sobre estadísticos. Lo tengo, de hecho, en algún lugar de mi disco duro y prometo incluir una referencia a la fuente una vez lo ubique.

Trata de un borracho que pierde sus llaves en la noche y comienza a buscarlas a la luz de una farola. Alguien se ofrece a ayudarlo.

—Qué le ocurre, ¿buen hombre?

—He perdido las llaves.

—¿Recuerda dónde pudo haber ocurrido?

Regresión por cuantiles en R y SAS

Hace un tiempo, con la aburridora perspectiva de un largo viaje en metro hasta mi casa ensombreciendo mi futuro más inminente, decidí regalarme algún tipo de amena lectura. A tal fin, imprimí un articulillo que, bajo la perspectiva de SAS, me introducía a una técnica que se vino a mí como por azar. O, bajo otro punto de vista, una técnica que, también por azar, había esquivado hasta tal fecha un encontronazo con mi husmeadora curiosidad.

¿Hemos salido de la recesión? ¡Queremos nuestros intervalos de confianza!

Ha aparecido publicado recientemente en prensa que, según el Banco de España, hemos salido de la recesión (por si acaso: nosotros significa los españoles): en su Boletín Económico del mes de abril, el banco emisor dice textualmente que:

Las estimaciones realizadas a partir de la información coyuntural disponible apuntan a que, en el primer trimestre, el PIB pasó a crecer un 0,1%, en términos de su tasa intertrimestral, tras seis meses consecutivos de bajadas.

Goldcorp, Netflix, Kaggle, minería de datos y la nueva economía

Hasta hace no mucho trabajé durante unos meses en la vieja economía. Ahora, de algún modo, sigo en ella aunque en otro estilo.

Hoy, sin embargo, hablaré de la nueva economía, de un nuevo estilo de hacer cosas. Llevado de un oneroso vicio mío, no hace tanto que compré cierto librito (que aún no he terminado) en cuyo primer capítulo tuve noticia del Goldcorp Challenge. En resumen: Goldcorp es una empresa minera que para el 2000 explotaba unas minas de oro en declive. Entonces, su director decidió nadar contra corriente: hizo públicos los datos recopilados por sus equipos de geólogos, que eran incapaces de encontrar depósitos nuevos de oro en la zona, y ofreció premios en metálico (más de medio millón de dólares) a quien, explotándolos, lograse indicios de nuevos filones.

Los "mejores" paquetes de R (I): la red social de los participantes en r-help

Hace no mucho leí un articulillo de SAS sobre el impacto de ciertas marcas en determinadas redes sociales. Como este tema, así como sus posibles aplicaciones, siempre me ha intrigado, llevado de la curiosidad y del aburrimiento, decidí realizar un estudio análogo.

El artículo de SAS utiliza como materia prima resúmenes de publicaciones científicas que tratan de determinados medicamentos. A los autores les interesa conocer de qué marca de medicamentos escribe cada autor ponderando a éstos últimos en función de su impacto. El impacto lo miden a través de su peso en la red de colaboraciones científicas: tiene alto impacto un autor que ha escrito muchos artículos en colaboración con otros autores que también han escrito muchos artículos.

Google public data explorer

Participo últimamente en un proyecto dentro de un banco español bastante grande (sobre el que no abundaré ahora) que tiene como objetivo diseminar información financiera y comercial del mismo para los responsables de su dirección y gestión.

La información de partida yace (nunca mejor dicho) en vestustos prodigios de la técnica de los años setenta y nuestro papel consiste en desenterrarla con herramientas y procedimientos más a la altura de los tiempos.

El censo del Rey David y el castigo de Yahvé

A la vuelta de la Semana Santa, voy a escribir sobre una historia que leí en un librito muy recomendable de I.B. Cohen, El triunfo de los números. Imagino que mis lectores, más eruditos que yo, seguramente, la conocerán de antiguo.

La biblia está plagada de números e incluso define en cierto punto el valor de pi como tres. También trae noticia de algunos censos realizados en el antiguo Israel/Judea. El más famoso de todos, supongo, es el que condujo a José y María a Belén. Pero el que comento en esta entrada no deja de tener su interés.

La varianza y cifras macroeconómicas

De la pobre varianza sólo se acuerdan los vándalos: el historial de su página en la Wikipedia refleja la incesante actividad de unos cuantos desaprensivos empeñados en sustituir su definición o propiedades por declaraciones de amor perpetuo a sus novias circunstanciales u otras lindezas.

De la varianza se acuerdan los vándalos pero es ignorada por políticos, periodistas y quién sabe si también economistas. Ni aun estoy seguro de que de ella se acuerde el INE. El hecho es que las cifras macroeconómicas que se publican periódicamente (desempleo, crecimiento del PIB, etc.) nos son dadas como si de verdades reveladas se tratase y sin el muy conveniente aderezo de algún tipo de medida de su nivel de fiabilidad (varianza o similar). Luego, a toro pasado (en ocasiones, a toro lidiado, cocido en caldereta, comido, digerido con café, copa y puro y defecado), aparecen revisiones de las que ya nadie da cuenta. En fin.

La fábula del tendero, la báscula y la caneca (y su desasosegadora moraleja)

Érase una vez un tendero tan con los sesos hechos agua de la desordenada lectura de divulgación científica soviética que, émulo de su autor favorito, decidió diseñar su propio experimento de física recreativa.

Así, armado de su nueva y flamante báscula, decidió comprobar si un litro de agua pesaba más de medio kilo. Y, efectivamente, el resultado de su experimento fue el esperado.

Animado por el éxito, se aventuró a realizar otro: comprobar si dos litros de agua pesaban, de nuevo, más de medio kilo. Habrá quien piense que se trata de un experimento ocioso (habida cuenta del resultado del primero). No obstante, el tendero realizó el experimento y, oh sorpresa, ¡resultó que dos litros de agua pesaban menos de medio kilo!

Creando paquetes con R: r-forge

Hace poco no asistí a una conferencia del profesor Campo Elías Pardo en la Universidad Nacional de Colombia sobre la creación de paquetes de R. Me penó no poder asistir porque sospeché primero y corroboré después que se había obviado en ella una herramienta muy útil para la creación de paquetes con R: la forja oficial.

La conferencia trababa esencialmente de cómo crear paquetes bajo Windows. Windows es un sistema operativo del que sé poco y siempre me han parecido excesivamente arcanos los liturgias y herramientas necesarias para compilar los paquetes. Especialmente cuando uno cuenta con Linux. Pero ésa es otra historia.

febRero

Nada he publicado durante el mes de febrero en el blog. Pareciese que no estaba en el mundo. Estaba, sí, pero en otra parte, muy hermosa, de él. Y de parte de mis hechos da cuenta el siguiente afiche:

conferencia alrededores medellín

Como en él indica, en el Departamento de Estadística de la Universidad Nacional de Medellín tuvieron la gentileza de invitarme a dar de nuevo la conferencia que impartí en las I Jornadas de Usuarios de R en España. Tuve ocasión de conocer al (y tomarme un tintico con) legendario Juan Carlos Correa, del que supe más tarde que me calificó de gomoso de R.

Excel y estadística

Un buen amigo me comentó que para ver crecer el número de visitas a su blog hablaba de Excel. Como todavía no he tenido ninguna, con su venia, tomaré prestada la idea. Por otra parte, siendo éste un blog dedicado a la estadística, la minería de datos y asuntos concomitantes, enumeraré motivos por los que, en dichos ámbitos, se desaconseja su uso.

Los enlaces son ajenos, en inglés, y, algunos, algo viejos (hacen referencias a versiones antiguas de Excel). Van ahí: