Curso de estadística y R de Hastie y Tibshirani

Los profesores Hastie y Tibshirani, coautores de Elements of Statistical Learning, de muchas técnicas predictivas y, todo hay que decirlo, ídolos intelectuales míos, organizan un MOOC gratuito, Statistical Learning entre el 21 de enero y el 22 de marzo. Si estás leyendo esto (es decir, si has aterrizado en mi bitácora), te interesa. Si no te apuntas, te aviso, te arrepentirás. Dicho lo cual, yo estaré ahí. Y se cuenta que podrían organizarse grupos locales de participantes —p.e., en Madrid— para resolver dudas y problemas.

15 de enero de 2014 · Carlos J. Gil Bellosta

Nueva edición de mi taller de R y Hadoop en Zaragoza

Los días 17 y 18 de enero impartiré una versión extendida (¡siete horas!) de mi taller de R y Hadoop en Zaragoza. Para los interesados: Información adicional (fechas, horas, lugar) Requisitos de hardware y software para el taller El temario será el mismo que en las ediciones anteriores aunque en esta ocasión habrá más tiempo para profundizar en algunos conceptos, realizar ejercicios adicionales, etc.

13 de enero de 2014 · Carlos J. Gil Bellosta

Error de tipo I, error de tipo II

Aquí está la noticia sobre el resultado de un error de tipo I: Danone takes legal action over milk scare. Este otro, sobre un error de tipo II: Wave a banknote at a pundit and he’ll predict anything. Siempre me ha llamado la atención el segundo caso: ¿tienen realmente responsabilidades penales los geólogos? He leído algunos artículos al respecto y nunca he visto el caso planteado de la manera en que voy a hacerlo aquí. ...

10 de enero de 2014 · Carlos J. Gil Bellosta

Cómo apostar si tienes que

Hace unos días recibí esto, que es la rentabilidad de carteras de inversión (sospecho que no necesariamente reales) de usuarios de cierto portal que compiten por ver quién tiene más ojo en bolsa. ¿No os llama la atención esa rentabilidad >600%? ¿Cómo se puede alcanzar? ¿Es ese señor —a quien no conozco— un hacha de las inversiones? Dos ideas me vienen a la cabeza. Una es esta que, pienso, no aplica. Y no lo hace porque, en particular, y como ya escribí, la apuesta de Kelly maximiza la mediana de las ganancias, pero ignora su varianza. Que, por lo que veremos luego, es el quid de la cuestión. ...

9 de enero de 2014 · Carlos J. Gil Bellosta

¿A qué distancia está el horizonte?

Hoy voy a proponer un pequeño problema de geometría elemental: averiguar a qué distancia está el horizonte. Por concretar, supongamos que mides, p.e., 175 cm, estás en la orilla del mar y miras hacia el horizonte. A cierta distancia, la curvatura de la tierra (que tiene un radio de 6378 km) oculta lo que está más allá. ¿Cuál es dicha distancia? Una complicación adicional: ¿a qué distancia dejaría de verse un barco que tiene una altura de 20 m? ...

8 de enero de 2014 · Carlos J. Gil Bellosta

Diagramas de caja, 44 años después

Efectivamente, 44 años después de que Tukey describiese su schematic plot, los diagramas de caja no han calado en el gran público. Dado que dichos diagramas son la representación más simple que se me ocurre de una distribución de probabilidad, me temo que es síntoma de un mal mayor: que no estamos preparados para aceptar que los fenómenos no están perfectamente parametrizados y sino sujetos a errores, oscilaciones, perturbaciones, errores e imprevistos. ...

7 de enero de 2014 · Carlos J. Gil Bellosta

Los censos huelen a naftalina (y son muy caros)

Los censos huelen a naftalina. Eso de ir contando exhaustivamente cabezas, críos, cabras y cabañas ya lo hacía el rey David en su época. Tampoco son operaciones no pequeñas. El último censo chino movilizó a seis millones de encuestadores y el de EE.UU. costó casi como el AVE a Valencia. Coste (absoluto y relativo) de los últimos censos de diversos países europeos. Sin embargo, eso de contar sin excepciones es un ejercicio de fuerza bruta propio de la oscura época pre-estadística. El progreso ha traído consigo dos cosas —buena la una, regular la otra—, que permiten replantear enteramente los censos. ...

3 de enero de 2014 · Carlos J. Gil Bellosta

Palabras y pelas: un ejercicio apenas incoado

Nos encantan las palabras (¡y los mapas, pero esa es otra historia!). En estos días de tanto discurso hay mucho interés por examinar con lupa qué palabras dijo quién y cuándo en una exégesis cuantitativa y (¿tal vez por eso?) falta de calado. Porque lo que dijo este o aquel, al fin y al cabo, no deja de ser predecible y poco interesante. Rara vez se dice nada que lo sea en horario de máxima audiencia y en fechas tan señaladas. ...

31 de diciembre de 2013 · Carlos J. Gil Bellosta

Tres artículos curiosos sobre gráficos

El primero es How to display data badly, de H. Wainer. Es un poco viejo, de 1984; pero, desgraciadamente, tan vigente si no más. Trata, como puede preverse, del mismo y ya algo manido tema: cómo crear gráficos que representen datos clara y eficazmente. Se agradece que el autor, no sin ironía, lo haya planteado a modo de recetario para conseguir justo lo contrario. El segundo, Visualizing the Law: Using Charts, Diagrams, and Other Images to Improve Legal Briefs, de A. Rosman, es una lectura de evasión para quien comparta mis obsesiones y frustraciones: la vida me ha llevado a tener que leer —y peor aún, necesitar entender— párrafos de los que redactan leguleyos de toda índole y condición. ¿Es necesario que esa gente se explique así? ¿Habría otra manera? Pues la hay: el artículo en cuestión muestra mediante ejemplos cómo determinados pasajes del género legal pueden desenmarañarse trascendiendo la unidimensionalidad del texto corrido y mal empleado si se usan o, al menos, se acompañan de, los gráficos adecuados. ...

27 de diciembre de 2013 · Carlos J. Gil Bellosta

Muestreos aleatorios sobre la península Ibérica, por ejemplo

El problema fue sugerido por Eloy Ortiz en un mensaje a r-help-es. Quería saber cómo muestrear aleatoriamente (i.e., uniformemente) puntos sobre una región de la superficie terrestre delimitada por su bounding box (i.e., las coordenadas que definen un rectángulo sobre la esfera). Obviamente, no vale con muestrear latitud y longitud uniformemente: el área comprendida entre dos meridianos cerca del ecuador es mayor que la comprendida entre otros dos más próximos al polo. Los husos se estrechan lejos del ecuador. ...

26 de diciembre de 2013 · Carlos J. Gil Bellosta