El lucero del alba

Puede que algunos de mis lectores sepan que el lucero del alba es el nombre con que se conoce al planeta Venus cuando es visible en el cielo al amanecer. En contextos menos poéticos se conoce por tal nombre a esto: Es decir, una determinada configuración de los precios de apertura y cierre de tres días de cotización (bursátil, por ejemplo) de forma que: El primer día hay una bajada El tercer día hay una subida Los precios de apertura y cierre del segundo día son inferiores a los del cierre del primero y apertura del segundo. Se ve que eso es cosa güena. De El Economista extraigo el siguiente párrafo atribuido a un tal Joan Cabrero: ...

27 de diciembre de 2011 · Carlos J. Gil Bellosta

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM quien abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo. Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores. ...

26 de diciembre de 2011 · Carlos J. Gil Bellosta

¿Nos leemos "The Elements of Statistical Learning" de tapa a tapa?

Propone Juan José Gibaja como propósito intelectual para el año nuevo el leer The Elements of Statistical Learning —libro que puede descargarse gratuita y legalmente del enlace anterior— de tapa a tapa, en grupo y a razón de capítulo por semana. La idea es hacerlo en común, enlazando el contenido del libro con código —sea disponible o de nuevo cuño cuando la situación lo requiera— y haciendo públicos las ideas que resulten de esta lectura en una red de bitácoras (a la que esta pertenecería). ...

23 de diciembre de 2011 · Carlos J. Gil Bellosta

Hoy, día del sorteo de la Lotería de Navidad, no se publica entrada

Hoy, día del sorteo de la Lotería de Navidad, no se publica entrada en esta bitácora como acto de protesta y repulsa frente a la celebración folclórica del anumerismo.

22 de diciembre de 2011 · Carlos J. Gil Bellosta

¿Cuánto vale un billete del AVE a Valencia? Una cota inferior

Hice una vez la cuenta y luego se me olvidó. La voy a dejar escrita en mi bitácora para tenerla a mano. Según ADIF, el AVE Valencia (o a Madrid, según desde donde se lo mire), costó (o al menos, tal fue la inversión total prevista) 12400 millones de euros y la estimación anual de viajeros es de 3 millones. Supongamos que el coste de la infraestructura se financia con deuda al, por ejemplo, 4%. Entonces, el coste de los los intereses por viajero es de 12400 * 0.04 / 3 = 165 euros. Pero el billete cuesta, aparentemente, 78 euros. ...

21 de diciembre de 2011 · Carlos J. Gil Bellosta

p, n y mi moneda de la suerte

Tengo una moneda de la suerte. Es una moneda de cinco duros, del mundial 82. No es tanto de la suerte (en esta bitácora somos gente seria, carajo) como —tengo razones para sospechar— una moneda sesgada. De hecho, el otro día hice un experimento: la tiré al aire 20 veces y obtuve 14 caras. De acuerdo con R, 1 - pbinom( 14, 20, 0.5 ) [1] 0.02069473 puedo rechazar la hipótesis de que es una moneda cabal con un nivel de confianza (p-valor) de 0.021. ...

20 de diciembre de 2011 · Carlos J. Gil Bellosta

¿La correlación "del siglo XXI"?

Bajo el título Detecting Novel Associations in Large Data Sets se ha publicado recientemente en Science un coeficiente alternativo a la correlación de toda la vida para cuantificar la relación funcional entre dos variables. El artículo (que no he podido leer: si alguien me pudiera pasar el pdf…) ha tenido cierto impacto, al menos momentáneo, en la red. Puede leerse un resumen en esta entrada u otro bastante más cauto en la de A. Gelman. Existe información adicional (e incluso código en R) en esta página. ...

19 de diciembre de 2011 · Carlos J. Gil Bellosta

Disponibles los vídeos de las charlas de las III Jornadas de Usuarios de R

En las Jornadas de Usuarios de R íbamos a tener la posibilidad de grabar las charlas en vídeo pero resultó que no: aunque la EOI nos brindaba la infraestructura necesaria para la grabación y la retransmisión de las jornadas, corría por cuentra nuestra el pagar al operador de las cámaras, etc. Y éramos pobres. Nos íbamos pues a quedarnos sin retransmisión en directo hasta que, a las dos de la tarde del día anterior, recibí este mensaje de Jose Antonio Palazón: ...

16 de diciembre de 2011 · Carlos J. Gil Bellosta

Gráficos de embudo para controlar la varianza en muestras pequeñas

Publiqué hace un tiempo una entrada en esta bitácora sobre el problema que representa la desigualdad de los tamaños muestrales a la hora de comprender cierto tipo de datos, como por ejemplo, los que trata de representar el gráfico que muestra la incidencia del cáncer de riñón en distintas zonas de en EE.UU. Como indiqué entonces, los valores extremos se encuentran en zonas menos pobladas: cuanto menor es la población, más probables son las proporciones inhabituales. ...

15 de diciembre de 2011 · Carlos J. Gil Bellosta

Un lematizador para el español con R... ¿cutre? ¿mejorable?

Uno de los pasos previos para realizar lo que se viene llamando minería de texto es lematizar el texto. Desafortunadamente, no existen buenos lematizadores en español. Al menos, buenos lematizadores libres. Existen el llamado algoritmo de porter y snowball pero, o son demasiado crudos o están más pensados para un lenguaje con muchas menos variantes morfológicas que el español. Sinceramente, no sé a qué se dedican —me consta que los hay— los lingüistas computacionales de la hispanidad entera: ¿no son capaces de liberar una herramienta de lematización medianamente decente que podamos usar los demás? Lo más parecido a esa herramienta aparentemente inexistente que conozco es Grampal, que funciona a través de una interfaz web. ...

13 de diciembre de 2011 · Carlos J. Gil Bellosta