Comienza la lectura de “The Elements of Statistical Learning”

Mediante la presente, notifico a los interesados en la lectura de “The Elements of Statistical Learning” que esta semana tenemos que dar cuenta de los capítulos 1 (que es una introducción muy ligera) y 2 (donde comienza el tomate realmente). Esta noche Juanjo Gibaja y yo estudiaremos la mecánica de lectura en común. Los interesados pueden escribirme a cgb@datanalytics.com para, de momento, crear una lista de correo.

9 de enero de 2012 · Carlos J. Gil Bellosta

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM quien abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo. Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores. ...

26 de diciembre de 2011 · Carlos J. Gil Bellosta

Hoy, día del sorteo de la Lotería de Navidad, no se publica entrada

Hoy, día del sorteo de la Lotería de Navidad, no se publica entrada en esta bitácora como acto de protesta y repulsa frente a la celebración folclórica del anumerismo.

22 de diciembre de 2011 · Carlos J. Gil Bellosta

p, n y mi moneda de la suerte

Tengo una moneda de la suerte. Es una moneda de cinco duros, del mundial 82. No es tanto de la suerte (en esta bitácora somos gente seria, carajo) como —tengo razones para sospechar— una moneda sesgada. De hecho, el otro día hice un experimento: la tiré al aire 20 veces y obtuve 14 caras. De acuerdo con R, 1 - pbinom( 14, 20, 0.5 ) [1] 0.02069473 puedo rechazar la hipótesis de que es una moneda cabal con un nivel de confianza (p-valor) de 0.021. ...

20 de diciembre de 2011 · Carlos J. Gil Bellosta

¿La correlación "del siglo XXI"?

Bajo el título Detecting Novel Associations in Large Data Sets se ha publicado recientemente en Science un coeficiente alternativo a la correlación de toda la vida para cuantificar la relación funcional entre dos variables. El artículo (que no he podido leer: si alguien me pudiera pasar el pdf…) ha tenido cierto impacto, al menos momentáneo, en la red. Puede leerse un resumen en esta entrada u otro bastante más cauto en la de A. Gelman. Existe información adicional (e incluso código en R) en esta página. ...

19 de diciembre de 2011 · Carlos J. Gil Bellosta

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales. ...

15 de diciembre de 2011 · Carlos J. Gil Bellosta

The Little Handbook of Statistical Practice

Quiero hacer publicidad aquí —y, de paso, guardarme una nota para mí mismo para futura referencia— del Little Handbook of Statistical Practice, una colección de breves artículos sobre diversos temas de relevancia estadística recopilados por Gerard E. Dallal. En particular, merece cierta atención su recopilación de Statistical Notes del British Medical Journal.

5 de diciembre de 2011 · Carlos J. Gil Bellosta

Google Translate, tamaños muestrales y sesgos

Supongo que mis lectores estarán al tanto de Google Translate y tal vez sepan que utiliza métodos estadísticos para traducir: a partir de una muestra amplia de textos con el mismo contenido pero en distintos idiomas llega a deducir que maison, casa y house son una misma cosa. Pero la yuxtaposición puede dar lugar a situaciones jocosas. He aquí un ejemplo con el que la serendipia me ha hecho tropezar recientemente. Supongo que habréis encontrado alguna vez ese texto que comienza por lorem ipsum dolor sit amet… y que los maquetadores y editores gráficos usan como relleno para mostrar su trabajo. Aparece en tantos sitios que… parece haber confundido al traductor de Google como se aprecia a continuación. Si pido traducir, por ejemplo, la frase Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus que forma parte de ese texto, ...

30 de noviembre de 2011 · Carlos J. Gil Bellosta

Doping, héroes patrios y... estadística

Este verano traté de recorrer en bici la ruta del Viaje a la Alcarria de Cela. No lo acabé porque se lesionó mi compañero a la altura de Pareja y tuvimos que regresar a Madrid en furgoneta. Pero recuerdo que, encarando algún repecho, con la lengua afuera, me comentaba qué duro es esto de la bici. Aproveché luego, en la fuente de algún pueblo, con las camisetas empapadas, para comentarle lo despiadado del circunstancial televidente estival, faria en mano, exigiendo a los ciclistas patrios demarres sobrehumanos en el Tourmalet. ...

29 de noviembre de 2011 · Carlos J. Gil Bellosta

R en la enseñanza: unos comentarios a los comentarios

Iba a responder a los comentarios de mi entrada sobre las Jornadas de R y, muy en particular a los de Fernando Fernández, uno de los más fieles lectores de esta bitácora, y me he extendido tanto que he acabado convirtiéndola en una nueva. Pido excusas por haber tal vez abusado de mis prerrogativas para auparme de esta manera. Tanto a él como a otros les chirrió que escribiese comenzamos una nueva época que en el plazo de tres o cuatro años nos va a conducir, con casi total seguridad, a un escenario en el que […] R se use de manera casi exclusiva en la enseñanza de la estadística en los niveles universitarios. ...

28 de noviembre de 2011 · Carlos J. Gil Bellosta