¿Dónde están aquellos caballeros andantes?

Pues precedidos del mi favorito de todos ellos, Felixmarte de Hircania, el del desnudo brazo, en

felixmarte

dentro del texto del Quijote. El código para obtener el gráfico anterior es

library(qdap)

quijote.raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt",
    encoding = "utf8")

# es posible que necesites esto en Windows:
quijote <- iconv(quijote.raw, from = "utf8", to = "latin1")

quijote <- quijote[-(1:36)]
quijote <- quijote[-(37453:length(quijote))]

dispersion_plot(quijote, c("felixmarte", "amadís",
    "leandís", "bencimarte", "palmerín",
    "olivante", "tirante", "belianís",
    "gironcilio", "lisuarte", "esplandián",
    "roldán", "rodamonte", "florimorte", "platir",                            "tablante"))

Tenéis permiso mío para buscar otros términos en otros textos y ver qué pinta tiene la distribución.

¿Hubo alguna vez un millón de palentinas?

En el año 2013 hubo 54 muertes de mujeres por violencia de género. Eso da una tasa nacional de poco más de dos por millón (de mujeres). El Mundo nos lo ha querido mostrar su distribución provincial así:

victimas_mortales_provincia

Diríase que la tasa palentina es enorme, cinco veces la nacional. Pero en Palencia viven del orden de cien mil mujeres y hubo un único caso en 2013 (además, ni la mujer ni el agresor, se ve, eran de la provincia sino de un pueblo limítrofe de Cantabria; solo que el cadáver apareció en al sur de la linde).

Ruido en las estadísticas oficiales

Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con

Los organismos estadísticos gubernamentales suelen publicar los estimdores puntuales de las estadísticas económicas oficiales. La documentación metodológica de dichos organismos puede hacer constar que estas estimaciones están sujetas a incertidumbre, pero no suelen cuantificarla. Las notas de prensa raramente discuten el error potencial.

La correlación ni siquiera implica "correlación"

Esto es, según Andrew Gelman, la correlación entre dos variables en una muestra ni siquiera implica su “correlación” (entre comillas, por distinguirlas) en la población de interés.

El enlace anterior también discute otras variantes del archiconocido “la correlación no implica causalidad”, tales como

  • la causalidad está correlacionada con la correlación,
  • la falta de correlación está correlacionada con la falta de causalidad,
  • etc.

que, si yo fuera tú, me apresuraría a consultar en el enlace anterior.

RMarkdown a la Tufte

El Sr. Tufte debiera ser un conocido de los habituales de estas páginas. Los desavisados siempre pueden ponerse al día aquí.

El Sr. Tufte escribe libros. Los escribe, los edita, los publica y creo que hasta los vende él solo. No puede ser de otra manera. Mensaje, texto, tipografía, maquetación, gráficos, los elementos todos de sus libros, en cada una de sus páginas, están combinados y medidos hasta el menor de los detalles. Defiende que los elementos gráficos forman parte consustancial del mensaje. Nada de referirse a la figura 7.18 que puede estar dos páginas más allá. Los gráficos tienen que estar cocolocados a la discusión. Etc.

Sí, señor ministro... y encuestas

Cayó en mis manos

ss_netconfusion

que son los resultados de una encuesta en la que la misma pregunta (en puridad, una pregunta sobre una cuestión global y otra sobre un asunto particular de la anterior) reciben respuestas manifiestamente contrarias y contradictorias por parte de una muestra del ostentador de la soberanía.

Lo cual me recordó que hacía tiempo había dado con https://www.youtube.com/watch?v=G0ZZJXw4MTA extraído de Yes, Minister y que en inglés no subtitulado ilustra muy amenamente los efectos que sobre el público tiene la manera en que se plantean las cuestiones.

Paralelización en R con snow

Suelo trabajar un servidor con ocho CPUs. Cuando quiero paralelizar código en R, suelo utilizar [parallel::mclapply](https://stat.ethz.ch/R-manual/R-devel/library/parallel/html/mclapply.html) (como aquí). Pero no tengo una máquina. Tengo varias. Y antes, de hecho, muchas.

¿Cómo paralelizar en distintas máquinas?

Se puede usar Spark (y SparkR), por ejemplo. Pero una ruta que no había ensayado jamás es la de la vieja escuela, i.e., MPI, snow y demás.

Pero si

  • tienes varios servidores corriendo un sistema operativo decente,
  • instalas R y snow (y todo lo que necesites) en todos ellos y
  • configuras los servidores para poder acceder a través de ssh sin contraseña desde uno central,

y, entonces, ejecutas

Me muerdo la lengua... por no contarlo todo

R

Me tengo que morder la lengua por no contarlo todo. Escribiré hasta donde pueda hacerlo. Que es casi nada. La cosa es que ha llegado a mis oídos que una muy importante empresa española con muchos, muchos empleados planea una migración muy seria de SAS a R.

Lo cual no deja de ser un cotilleo empresarial más. Que, como tal, no tendría cabida aquí. Salvo por el hecho de que me consta que me leen muchos estudiantes, muchos profesionales que se replantean sus carreras, muchos desempleados que se están formando de cara a su reincorporación.

Gráficos e interactividad: una ocasión desaprovechada

Cuando los gráficos son estáticos, los compromisos mandan. ¿Mostramos las diferencias relativas? ¿O las magnitudes absolutas? Ocurre casi indefectiblemente que cuando uno opta por una opción siempre alguien en la audiencia levanta el dedo y sugiere la alternativa. ¿Mostramos ambas a la vez? Entonces abusamos de la usualmente limitada superficie construible de nuestro informe y, además, violentamos ese principio de que lo bué, si bré, dos ve bué.

La interactividad en los gráficos permite superponer vistas diversas de unos datos en un recinto acotado. Pagamos un peaje: tenemos que descubrir nosotros mismos la que más nos interesa y navegar hasta ella. Pero, por lo general, compensa.

Como no tengo tiempo, voy a publicar una chorrada (y una coda)

Como no tengo tiempo, voy a publicar una chorrada. Voy a coger unos datos que encuentre por ahí, voy a tomar alguna variable, voy a pintarla (en un mapa, si puede ser) y luego voy a construir una narrativa. Espero que no os deis cuenta y me lo creáis todo.

Comienzo.

Los datos del World Values Survey (aquí podéis obtenerlos) son importantes y guays. De todas las variables que contiene, voy a extraer una, la variable importante (VMI).