Personal data mining

La Edge Foundation es una organización que se postula algo así como el club de los hombres extraordinarios. Quienes forman parte de ella no dejan de hablar bien de sí mismos y se autoepitetan de multitud de cosas la mar de estupendas: brillantes, sagaces, etc. Esta asociación propone anualmente una pregunta para promover el debate. La del año 2011 fue (y no me atrevo a traducirla por si la rompo): What scientific concept would improve everybody’s cognitive toolkit? Docenas de expertos enviaron propuestas. De entre todas ellas, la más simpática me pareció la de John Allen Paulos (del que ya hemos hablado previamente en esta bitácora), que sugirió las distribuciones de probabilidad. Muy cerca queda la de M. H. Wolpoff, que propuso el concepto GIGO (garbage in, garbage out) que le sería muy provechoso a cierta gente que conozco. ...

3 de mayo de 2011 · Carlos J. Gil Bellosta

¿Cuánto cuesta criar un buey?

Por ser viernes, por estar aún de vacaciones en un país famoso por sus vacas y porque mis lectores estén al tanto de una bitácora que no hay que perderse —que es de la que extraigo las dos imágenes que aparecen a continuación—, va una de bueyes. Primero una foto: En ella, aparece un buey de 567 kg. llamado Grandview Rebel junto a unos barriles que representan el petróleo que ha requerido criarlo: 1.071 litros. Cada kilo de carne de buey necesita 6,25 litros de petróleo. Eso explica la siguiente gráfica, ...

29 de abril de 2011 · Carlos J. Gil Bellosta

Extensiones de la R2

Sin ir más lejos, cojamos el primer ejemplo que aparece en ?ls, es decir, ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm.D9 <- lm(weight ~ group) summary( lm.D9 ) y hagamos cor( weight, predict( lm.D9 ) )**2 ¿Qué obtenemos? Precisamente la R2 del modelo lm.D9. Esta relación abre la puerta a varias extensiones de esta medida de la bondad de ajuste a contextos en los que las expresiones suma de cuadrados de… carecen de sentido. En la UCLA mantienen una página sobre la R2 y sus extensiones que seguro será del provecho de muchos de los lectores de esta bitácora.

28 de abril de 2011 · Carlos J. Gil Bellosta

Incertidumbre, juicios y sesgos

Recomiendo encarecidamente la lectura del artículo Judgment under Uncertainty: Heuristics and Biases de D. Kahneman y A. Tversky. En pocas palabras, trata sobre dos cosas: los atajos mentales que utiliza el ser humano para asociar probabilidades subjetivas a eventos y, sobre todo, los sesgos y errores a los que conducen dichos atajos. A través de una serie de experimentos, los autores revelan cómo individuos —incluso con una sólida formación cuantitativa— yerran sistemáticamente al enfrentarse con determinado tipo de problemas. ...

27 de abril de 2011 · Carlos J. Gil Bellosta

Gráficos (VI): teoría

La última entrega de esta serie sobre gráficos, que tal vez debiera haber sido la primera, mostrará algunos enlaces a recursos en los que educarse en este cienciarte que es el de la representación gráfica de datos. En primer lugar, mencionaré a los maestros. Cualquiera de los libros que Chambers, Cleveland, Tukey o Tufte hayan escrito juntos o por separado es una biblia en el tema. Son lecturas más que recomendadas. A la lista pronto va a ser preciso añadir a Hadley Wickham y su libro ggplot2: Elegant Graphics for Data Analysis. ...

26 de abril de 2011 · Carlos J. Gil Bellosta

Seis consejos para quienes aspiran a la excelencia

Esta bitácora tiene aspiraciones de excelencia (aunque no siempre lo consigue: por ejemplo, en esta entrada utiliza excelencia de una manera que es un calco del inglés incorrecto en español). De ahí que nos interese siempre estar al tanto de técnicas que nos ayuden a superarnos. Así, de las bitácoras del Harvard Business Review extraemos estos seis consejos que deberían servir a quien apunte más arriba que a lo que nos invita la mediocridad del ambiente: ...

25 de abril de 2011 · Carlos J. Gil Bellosta

Causalidad o asociación: indicios de la primera

Distinguir adecuadamente causalidad de asociación es un tema sobre el que se han vertido ríos de tinta. Parte de la formación de un estadístico consiste en reconfigurar su arquitectura neuronal de manera que sienta infinito recelo ante proclamas de causalidad de una manera tan instintiva como la del perro de Paulov. Esta cautela es sin duda necesaria y ha liberado al mundo de infinidad de resultados espurios. Sin embargo, ha incrementado notablemente los que podríamos llamar errores de tipo II. ...

20 de abril de 2011 · Carlos J. Gil Bellosta

Gráficos (V): mapas

En la quinta entrega de mi serie de artículos sobre gráficos quiero mostrar algunos enlaces que he recopilado sobre un asunto que sería más propiamente contenido para nuestros vecinos de GMK: los mapas. Creo que esto de integrar datos y mapas tiene un nosequé adictivo. Conozco varios casos de personas, incluido yo durante un tiempo, que quedamos atrapados por el encanto que tiene generarlos. Yo, incluso, una vez le di algo de guerra al INE por ver si liberaban con alguna licencia decente los datos cartográficos de los que disponen. Pero creo que puede resultar tan complicado como demoler el edificio que tienen en Castellana y refundar de nuevo nuestra benemérita institución estadística. ...

19 de abril de 2011 · Carlos J. Gil Bellosta

Teradata, R y las III Jornadas de Usuarios de R

Como parte de mis atribuciones dentro del comité organizador de las III Jornadas de Usuarios de R estoy tratando de conseguir la participación (y tal vez la financiación) de empresas e instituciones. Me ha parecido oportuno invitar a tomar parte en ellas a Teradata, empresa que, según la Wikipedia, [está] especializada en herramientas de data warehousing y herramientas analíticas empresariales. Teradata no se postula como un vendedor de herramientas de almacenamiento: quiere ir más allá. Su mercado es el de las empresas que aspiran a algo más que a que sus datos permanezcan varados en discos duros esperando, como mucho, a ser exportados a aplicaciones externas. Teradata dice ser capaz de realizar el análisis estadístico de los datos dentro de su propio sistema, eso que se ha dado en llamar in database analytics. ...

18 de abril de 2011 · Carlos J. Gil Bellosta

Canadá 1 - EE.UU. 0

Desde esta bitácora hemos seguido siempre con suma atención las iniciativas públicas de diseminación de datos. Tal vez por ver si cunde el ejemplo en nuestras latitudes. Al rol de gobiernos concienciados en la importancia de contar con un portal desde el que centralizar esta fundamentalísima función democrática se ha sumado recientemente Canadá, que ha seguido los pasos de su metrópoli. Sin embargo, es triste tener que dar noticia en estas páginas de que uno de los proyectos más sólidos y de mayor alcance está en peligro: menos de 10 centavos de dólar cuesta a cada estadounidense su data.gov y aun así va a caer víctima de los recortes presupuestarios. Es difícil abundar en el tema sin realizar valoraciones políticas (a las que esta bitácora quiere mantenerse ajena). ...

15 de abril de 2011 · Carlos J. Gil Bellosta