Estadística

La Wikipedia te necesita

Hoy, procrastinando, me he dado un paseo por la Wikipedia en español. Y me he deprimido viendo el lamentable estado en que se encuentran la mayor parte de las páginas de las categorías a las que concierne esta bitácora como, por ejemplo, las de

Quiero invitar a los lectores de este blog (a los que, por serlo, se les presupone un mínimo de interés y formación) a que participen en ese proyecto común que es la Wikipedia (y, en particular, la Wikipedia en español) para no tener que volver a sonrojarnos al comparar nuestras páginas con las correspondientes de otros idiomas.

Una solución al problema de la separación perfecta con regresiones logísticas

Cuando el otro día planteé al mis lectores el problema de cómo representar de manera efectiva un conjunto de datos pequeños, no lo hice de manera enteramente ociosa. Eran datos reales de un cliente que tropezó con el llamado problema de la separación perfecta al intentar aplicar una regresión logística.

Veamos de nuevo los datos:

En la gráfica cada punto representa un individuo (posiblemente una persona). Los grupos los distinguen en dos clases (posiblemente, enfermos y sanos). La variable en el eje de la x mide el nivel de cierta proteína (supongo que en las células de algún tipo de tejido). Si se intenta realizar una regresión logística sobre este conjunto de datos sucede una catástrofe: el algoritmo diverge, aparecen mensajes de error en la pantalla, etc. ¡Es el problema de la separación perfecta!

Hoy me he enamorado en el metro

Hoy me he enamorado en el metro. Apenas comenzaba a leer mi articulillo cuando he tropezado con esta frase:

GPL treats data as an accessory to viewing a graph.

Y la siguiente era aún mejor:

GPL is based on the mathematical definition of the graph of a function and uses that definition to organize data linked to the graph.

Y más adelante:

[…] it is based on the assumption that statistical procedures serve graphics; graphics are not ancillary displays of statistical results, but are means of perceiving statistical relationships directly.

¡Feliz día de la estadística!

Hoy, 20 de octubre, se celebra el primer día de la estadística. Puede encontrarse más información en el suplemento económico de El País y en la página del INE. También se puede participar en las actividades programadas para el día.

Quien esté en Papúa Nueva Guinea, podrá cantar en loor de la estadística; quien esté en Londres podrá, además, participar en estas actvividades;  los demás, siempre podemos entretenernos con las que nos sugiere Patrick Burns.

¡Felicidades!

StatProb: una wikipedia de estadística y probabilidad

Me enteré de esta iniciativa y me ha faltado tiempo para divulgarla entre los lectores de mi blog: StatProb, una enciclopedia de estadística y probabilidad patrocinada por varias asociaciones con interés en la materia.

Más que a la Wikipedia, se parece a los proyectos Citizendium o Knol: los artículos son elaborados por expertos y aparecen firmados. Esto tiene las sobradamente conocidas consecuencias: un desarrollo más cuidado pero, a la vez, mucho más lento. Aunque tal vez esto no sea totalmente indeseable para una enciclopedia dedicada a temas tan técnicos y herméticos como los de ésta.

useR! 2011

La próxima reunión anual de usuarios de R tendrá lugar del 16 al 18 de agosto del 2011 en la Universidad de Warwick, Inglaterra.

Los conferenciantes invitados de este año van a ser Adrian Bowman, Lee Edlefsen, Ulrike Grömping, Wolfgang Huber, Brian Ripley, Jonathan Rougier, Simon Urbanek y Brandon Whitcher.

Los usuarios de R están invitados a preparer charlas y presenter pósters ilustrando el uso de R.

¿Cuándo tocará en España? (Ramón Díaz Uriarte, que forma parte del comité organizador, me ha confirmado en comunicación personal que tardará, que hay una larga lista de candidatos a alojarlas y que vamos a tener que  esperar todavía, me temo).

Modelos lineales mixtos para la optimización de queries

Hoy aprovecho que pasan dos pájaros por el cielo para pegar un tiro que, seguro, es del interés de mis lectores: voy a utilizar un modelo lineal mixto para estudiar los factores que afectan al rendimiento de una familia de queries de SQL complejas.

El objetivo final es contar con criterios empíricos para la optimización de ciertas queries (siento decir optimización de queries: me obliga a ello la voluntad de que los buscadores me indexen donde más búsquedas se vayan a realizar; por una vez, renegaré del talibán ortográfico que llevo dentro) e, indirectamente, ilustrar con datos distintos de los habituales esta técnica estadística.

Contándoles las papelinas a los "expertos"

Hace un tiempo leí un resumen de un libro sobre la fiabilidad de las predicciones de determinados expertos: a toro pasado se las comparaba con los sucesos reales para ver en qué medida habían resultado acertadas. Las conclusiones pueden encontrarlas mis lectores en cualquiera de los dos enlaces anteriores.

En España, ahora, contamos con una página que compara las previsiones realizadas por diversos institutos económicos con los valores reales de las magnitudes que con tanto dispendio de recursos y fanfarria de medios publican de vez en cuando. Está sobrada de efectismo y algo falta de legibilidad, pero no puede ser más oportuna.

useR! 2010

Mientras en España no sabemos aún qué pasa con las II Jornadas de Usuarios de R (de hecho, ni siquiera se han corregido las faltas de ortografía de la página de internet de las primeras), las useR! 2010 marchan a todo trapo: en Gaithersburg, Maryland, los días del 20 al 23 de julio no va a faltar ni rms.

No va faltar una charla a cuenta de la empresa a la que otras debieran parecerse. Habrá que tener a mano el enlace  para cuando uno de los habituales cretinos encorbatados nos vuelva a espetar eso de pero R es una cosa como tan de… universidad…

Sobre la probabilidad condicionada y el problema de Monty Hall

Cuando era estudiante, hace ya demasiado, un compañero mío me comentaba los problemas que tenía para hacer comprender a sus alumnos resultados básicos sobre cálculo de probabilidad, probabilidades condicionadas y similares: a aquellos alumnos el resultado que aparecía en la pizarra les parecía ilógico y no parecía haber manera de sacarlos de su empecinamiento.

Yo le di un consejo: de estar tan empeñados en su error, seguro, aceptaría participar y apostar en algún juego de azar _ad hoc _en el que se los pudiese desplumar. Estoy convencido de que hubiese sido una experiencia tan pedagógica como lucrativa.