Tres sigmas o nanay

El otro día hablaba con una colega sobre una charla a la que habíamos asistido. Yo le decía que sí, que estaba bien, pero que todo lo que habían contado era mentira. Debí haber sido más preciso y decir que no era verdad, que es distinto. Pero las canapescas circunstancias no eran propicias para el distingo. Mi interlocutora me escuchaba, pienso, entre sorprendida e incrédula. Todavía está en la edad en la que hay que creérselo todo —sí, esa edad y esa obligación existe— y tiempo tendrá de dejarse envenenar por el nihilismo. Es lo suficientemente lista como para eso.

Noticia de las VI Jornadas de Usuarios de R

Regreso de las VI Jornadas de Usuarios de R y, como otros años he hecho (véase esto, esto y esto), al volver a casa, quiero escribir sobre este par de días estupendos que he pasado en Santiago.

Antes de ello quiero agradecer a los miembros de los comités científico y organizador su esfuerzo. Muy especialmente a los miembros locales de este último que —quien lo probó bien lo sabe— hicieron un gran e impagable trabajo. (Aquí me es obligado indicar que mis agradecimientos al comité organizador no se extienden a uno de ellos, el que suscribe, que este año, prácticamente, solo fue miembro de manera nominal).

La aspiradora acosadora

Sufro acoso por parte de una aspiradora de mano azul. Allá donde me dirijo, me la encuentro: en el periódico, en un blog de estadística,… ¡en todas partes! Quiere que la compre. Y es inasequible al desaliento.

aspiradora_mano

Me interesé por el producto en cuestión porque alguien me comentó que la había comprado en eBay pero que la recibió en una caja de Amazon. Algún arbitrajista vio alguna diferencia de precios y vendió en un sitio lo que compraba en el otro. Es un fenómeno tan frecuente que tiene nombre: drop selling.

Más allá del teorema central del límite

Uno espera la media de un número suficiente de variables aleatorias razonablemente iid tenga una distribución normal. Uno casi espera siempre obtener ese aburrido histograma cada vez que remuestrea medias. La gente dice que el teorema central del límite rige necesariamente cuando su tamaño muestral es del orden de magnitud del bruto anual de un gerifalte. Etc.

Pero a veces uno tropieza con distribuciones bootstrap tales como

whentheoutlierisbigenough

que le hacen recordar que existe un universo más allá de las hipótesis de esos teoremas tan manidos; que la teoría, al final, solo llega hasta donde llega y que, en definitiva, hay que estar siempre alerta y desconfiar del rituales y automatismos.

ROI de ida y vuelta

Hace años, allá por el 2004, trabajaba en SAS. Íbamos a hacer una propuesta para la detección del fraude en una empresa de telefonía móvil de las de entoces. Habían medido el importe anual del fraude en X miles de euros. Nosotros íbamos a implantar un sistema que ayudase a prevenir un determinado porcentaje de él. El quid de la cuestión era cuál: alrededor de esa cuestión gravitaban los números en negrita de la propuesta que estábamos por elaborar.

Aprende R con swirl

R

Me pasó el otro día Federico Castanedo un enlace a swirl que quiero compartir con mis lectores y, en particular, aquellos que quieren aprender (¡o enseñar!) R.

swirl_new_large_final

¿Cómo funciona? Sencillo:

install.packages("swirl")
library("swirl")
swirl()

(idealmente en RStudio) y luego, click, click, click hasta saber todo lo que merece ser sabido en R.

Watson, no es nada elemental

Hay días en que uno no es que no tenga de qué escribir sino que la cabeza, después de tanto perseguir punteros en C y pastorear hordas de esclavos de Spark, ya no le da. Para ocasiones como esta de hoy guardo en un directorio una serie de artículos que recomendar. Hoy toca Building Watson: An Overview of the DeepQA Project.

Si no sabes qué es Watson, mira esto. Si lo sabes, el artículo anterior te ayudará a desmitificarlo por un lado y a admirarlo, por el otro, tanto o más que esto.

Amanece, me cuentan, que no es poco

El amanecer es una cosa que ocurre a diario, me cuentan, pero que yo apenas he visto. Casi hablo de lo que no sé. Por otra parte, la discusión de los horarios, de si deberíamos tener la hora de Londres y no la de Berlín, me parece puro nominalismo. Unos llaman a la hora a la que se levantan sechs, otros seven, otros huit y yo diez y veinte. Y no pasa nada.

Los tests de hipótesis son los macarrones "con cosas de la nevera"

Todos hemos comido macarrones con cosas de la nevera. Estás en casa, tienes hambre y, si no hay otra cosa, son estupendos. Distinto es ir a un bodorrio de alto copete y decirle al camarero:

—Oiga, esto del solomillo y tal… ¿No tendrán Vds. un platazo de macarrones con cosas de la nevera?

Viene esto a que cierta gente trabaja con grandes datos. Y quieren construir modelos. Y por algún motivo que no comprendo del todo, optan por la regresión logística. Hay mil motivos por los que estaría desaconsejado ajustar regresiones logísticas con todos los datos. Aun así, hay gente —sí, la hay— que lo hace.