Representación de datos asociados a grupos

Tropezó precisamente con este problema un compañero mío: ¿cuál es la manera más efectiva de representar 6 o 7 valores numéricos asociados a otros tantos grupos? Es sorprendente que en ninguno de los largos años que uno pasa educándose no le ayuden a resolver ese tipo de problemas (y en cambio sí a saltar un potro o pintar el archifamoso círculo cromático con témperas). Así que para referencia de todos, dejo aquí un enlace a un artículo que encontré el otro día sobre este asunto del que extraigo y traduzco las observaciones fundamentales a la hora de representar conjuntos de datos tales como los que aparecen representados en el siguiente gráfico (en el que se usa un dotplot): ...

3 de mayo de 2012 · Carlos J. Gil Bellosta

Contar, ¿fácil?

Contar debería ser fácil. Sobre todo, cifras relativamente pequeñas. Y más para el Estado, con todo su —aunque menguante, según algunos— poder. Por otro lado, dicen, las cifras son las que son. Y son incuestionables. Además, sirven para cuestionar. Por ejemplo, para cuestionar la labor de la Dirección General de Tráfico, cuyo rendimiento, en gran medida, se mide por el recuento anual de muertes en la carretera. Y en este contexto, y a la luz de lo publicado recientemente en la prensa, diríase que sucede un fenómeno que me parece la mar de sorprendente: el número cobra una importancia que la metodología no puede matizar. Directores, exdirectores y asociaciones de no sé muy bien qué, se atizan —cual garroteros gollescos— con alternativas metodológicas persiguiendo intenciones que, uno sospecha, tienen poco que ver con la creación de un cuadro lo más fidedigno posible de la realidad. (A veces tengo la tentación de promover para este tipo de discusiones —así como existen las bizantinas— el término de discusión argentina). ...

30 de abril de 2012 · Carlos J. Gil Bellosta

España, ¿radial? (II)

Una de las principales objeciones que se le pueden hacer a mi entrada de ayer es que puede estar confundiendo la causa con efecto: puede que parte de la radialidad de la red que obtuve tenga que ver con el tamaño desproporcionado de Madrid que, a su vez, podría haber sido causado por la radialidad de la red tradicional de las comunicaciones españolas. Así que enviemos una partida de pescado en malas condiciones a Mercamadrid, convidemos a toda la provincia, veámosla fenecer víctima de contumaces diarreas y rehagamos la simulación suponiendo que ...

26 de abril de 2012 · Carlos J. Gil Bellosta

España, ¿radial? (I)

Me propuse hace un tiempo combinar lo que aprendí creando rutas callejeras por Zaragoza con una entrada que escribí sobre la estructura radial de las vías de transporte de España. El problema que me planteo es si tiene sentido que la red de carreteras Española tenga estructura radial habida cuenta de la geometría peninsular bajo ciertas hipótesis, siempre discutibles y mejorables, de partida. Así que, en primer lugar, cargué los paquetes de R necesarios, un fichero que creé que contenía las capitales de provincia, su latitud, su longitud y la población de las respectivas provincias y fabriqué una red de carreteras muy ineficiente que unía todos los nodos entre sí: ...

25 de abril de 2012 · Carlos J. Gil Bellosta

Segunda reunión de usuarios de R de Madrid: recordatorio

Aprovecho para recordar a los usuarios de R de Madrid que el jueves 26 de abril, a las siete de la tarde, tendrá lugar la segunda reunión del grupo de usuarios de R de Madrid en la sala Metrópolis de La Tabacalera (glorieta de Embajadores). El programa, como siempre, puede consultarse en la página del grupo.

24 de abril de 2012 · Carlos J. Gil Bellosta

Gráficos "dinamita", desaconsejados

No sé por qué se llaman así. Ni idea. Vine a enterarme de tal nombre a través de un comentario de Carlos Ortega en la lista de usuarios de R. Parece que se usan habitualmente en diversas áreas y tienen el siguiente aspecto: Se trata de diagramas de barras a los que se añaden unos apéndices que tratan de medir la variabilidad a la que se entiende que están sujetas aquellas. Una representación alternativa del mismo conjunto de datos ilustra el motivo por el que se desaconseja su uso: ...

23 de abril de 2012 · Carlos J. Gil Bellosta

Graficaca en el recibo de la luz (y por imperativo legal, para más inri)

Tras una sobremesa en la que tratamos el ya manido tema de los gráficos de tarta, me hace llegar mi tertuliano Jorge Sobrino una solapilla que le adjunta Iberdrola al recibo de la luz que parece una broma de mal gusto. Es muy parecida a la siguiente: La gráfica compara el llamado mix de producción eléctrica de la compañía con el nacional en el periodo de referencia. O, al menos, ese parece ser su objetivo. Pero advertirán los más agudos de mis lectores cómo la elección de una gráfica de tartas dificulta la comparación, que es el presunto objetivo de esas manchas de colores con pretensiones cuantitativas. ¿No podían haber preferido, por ejemplo y sin pensar demasiado, barras adyacentes? ...

20 de abril de 2012 · Carlos J. Gil Bellosta

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión $$y_i = \beta x_i + \varepsilon_i,$$ cuando existe correlación entre X y $\varepsilon$. En tales casos, el estimador por mínimos cuadrados es $$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$ y debido a la correlación entre X y $\varepsilon$, está sesgado. La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $\varepsilon$. La siguiente simulación en R ilustra el problema: ...

19 de abril de 2012 · Carlos J. Gil Bellosta

Periodismo de datos en Via52.com

El jueves pasado, en MediaLab Prado, tuve ocasión de asistir a una presentación de los responsables de Via52, un nuevo semanario digital que quiere sumarse con modestia al panorama mediático. Desde hace meses venimos trabajando en este proyecto, impulsado por David Rojo (@rojovegas) y Andrés Hermosa (@andresh), y que cuenta con la colaboración de un grupo de profesionales del periodismo, el fotoperiodismo, la ilustración y la tecnología. Lo más interesante de esta publicación para quienes siguen esta bitácora es el énfasis que hacen en el periodismo de datos. Además: ...

17 de abril de 2012 · Carlos J. Gil Bellosta

Rutas por Zaragoza con R

Óscar Perpiñán me puso el otro día al tanto del paquete osmar de R, que proporciona la infraestructura para acceder a datos de OpenStreetMap a través de diferentes fuentes, trabajar con ellos con R de una manera unificada y aprovechando la infraestructura que proporcionan otros paquetes como, por ejemplo, sp e igraph. Hoy voy a ilustrar el uso de este paquete adaptando un ejemplo de sus autores para encontrar la ruta óptima entre dos puntos de Zaragoza, la mercería Bell y el colegio La Salle Montemolín, ambos lugares muy vinculados a mi prehistoria. Comenzaré cargando los paquetes necesarios y los datos de OpenStreetMap correspondientes a Zaragoza: ...

16 de abril de 2012 · Carlos J. Gil Bellosta