Estadística

StatProb: una wikipedia de estadística y probabilidad

Me enteré de esta iniciativa y me ha faltado tiempo para divulgarla entre los lectores de mi blog: StatProb, una enciclopedia de estadística y probabilidad patrocinada por varias asociaciones con interés en la materia.

Más que a la Wikipedia, se parece a los proyectos Citizendium o Knol: los artículos son elaborados por expertos y aparecen firmados. Esto tiene las sobradamente conocidas consecuencias: un desarrollo más cuidado pero, a la vez, mucho más lento. Aunque tal vez esto no sea totalmente indeseable para una enciclopedia dedicada a temas tan técnicos y herméticos como los de ésta.

useR! 2011

La próxima reunión anual de usuarios de R tendrá lugar del 16 al 18 de agosto de 2011 en la Universidad de Warwick, Inglaterra.

Los conferenciantes invitados de este año van a ser Adrian Bowman, Lee Edlefsen, Ulrike Grömping, Wolfgang Huber, Brian Ripley, Jonathan Rougier, Simon Urbanek y Brandon Whitcher.

Los usuarios de R están invitados a preparar charlas y presentar pósters ilustrando el uso de R.

¿Cuándo tocará en España? (Ramón Díaz Uriarte, que forma parte del comité organizador, me ha confirmado en comunicación personal que tardará, que hay una larga lista de candidatos a alojarlas y que vamos a tener que  esperar todavía, me temo).

Modelos lineales mixtos para la optimización de queries

Hoy aprovecho que pasan dos pájaros por el cielo para pegar un tiro que, seguro, es del interés de mis lectores: voy a utilizar un modelo lineal mixto para estudiar los factores que afectan al rendimiento de una familia de queries de SQL complejas.

El objetivo final es contar con criterios empíricos para la optimización de ciertas queries (siento decir optimización de queries: me obliga a ello la voluntad de que los buscadores me indexen donde más búsquedas se vayan a realizar; por una vez, renegaré del talibán ortográfico que llevo dentro) e, indirectamente, ilustrar con datos distintos de los habituales esta técnica estadística.

Contándoles las papelinas a los "expertos"

Hace un tiempo leí un resumen de un libro sobre la fiabilidad de las predicciones de determinados expertos: a toro pasado se las comparaba con los sucesos reales para ver en qué medida habían resultado acertadas. Las conclusiones pueden encontrarlas mis lectores en cualquiera de los dos enlaces anteriores.

En España, ahora, contamos con una página que compara las previsiones realizadas por diversos institutos económicos con los valores reales de las magnitudes que con tanto dispendio de recursos y fanfarria de medios publican de vez en cuando. Está sobrada de efectismo y algo falta de legibilidad, pero no puede ser más oportuna.

useR! 2010

Mientras en España no sabemos aún qué pasa con las II Jornadas de Usuarios de R (de hecho, ni siquiera se han corregido las faltas de ortografía de la página de internet de las primeras), las useR! 2010 marchan a todo trapo: en Gaithersburg, Maryland, los días del 20 al 23 de julio no va a faltar ni rms.

No va faltar una charla a cuenta de la empresa a la que otras debieran parecerse. Habrá que tener a mano el enlace  para cuando uno de los habituales cretinos encorbatados nos vuelva a espetar eso de pero R es una cosa como tan de… universidad…

Sobre la probabilidad condicionada y el problema de Monty Hall

Cuando era estudiante, hace ya demasiado, un compañero mío me comentaba los problemas que tenía para hacer comprender a sus alumnos resultados básicos sobre cálculo de probabilidad, probabilidades condicionadas y similares: a aquellos alumnos el resultado que aparecía en la pizarra les parecía ilógico y no parecía haber manera de sacarlos de su empecinamiento.

Yo le di un consejo: de estar tan empeñados en su error, seguro, aceptarían participar y apostar en algún juego de azar _ad hoc _en el que se los pudiese desplumar. Estoy convencido de que hubiese sido una experiencia tan pedagógica como lucrativa.

Sobre la media y la mediana

Esta entrada viene a cuento de una discusión en un grupo de Linkedin. Alguien preguntó literalmente:

Mean as an estimator of parameter in case of non-normal/skewed distribution? My question is a bit tricky :) What could be the arguments for mean (simple no-weighted average) when the parameter distribution is non-normal?

Supongo que mis lectores habrán advertido que la pregunta está mal formulada. Alguien la reescribió en términos más precisos (aunque distintos) de la siguiente manera:

La distribución normal y el borracho que perdió sus llaves

Leí una vez un chiste sobre estadísticos. Lo tengo, de hecho, en algún lugar de mi disco duro y prometo incluir una referencia a la fuente una vez lo ubique.

Trata de un borracho que pierde sus llaves en la noche y comienza a buscarlas a la luz de una farola. Alguien se ofrece a ayudarlo.

—Qué le ocurre, ¿buen hombre?

—He perdido las llaves.

—¿Recuerda dónde pudo haber ocurrido?

Regresión por cuantiles en R y SAS

Hace un tiempo, con la aburridora perspectiva de un largo viaje en metro hasta mi casa ensombreciendo mi futuro más inminente, decidí regalarme algún tipo de amena lectura. A tal fin, imprimí un articulillo que, bajo la perspectiva de SAS, me introducía a una técnica que se vino a mí como por azar. O, bajo otro punto de vista, una técnica que, también por azar, había esquivado hasta tal fecha un encontronazo con mi husmeadora curiosidad.