Cómo no nació el "big data"
En julio anuncié en mi cuenta de Twitter (léase de abajo a arriba): Ya está disponible.
En julio anuncié en mi cuenta de Twitter (léase de abajo a arriba): Ya está disponible.
Los códigos postales, por ejemplo, son un problema a la hora de crear modelos predictivos: son variables categóricas con demasiados niveles. Así, por ejemplo, los bosques aleatorios de R solo admiten variables categóricas con no más de 32 niveles. Hay trucos de todo tipo para mitigar el problema. Hace un año, Jorge Ayuso me puso sobre la pista de uno de los que tiene más recorrido. Consiste en [su versión más simplificada en]: ...
Pues precedidos del mi favorito de todos ellos, Felixmarte de Hircania, el del desnudo brazo, en dentro del texto del Quijote. El código para obtener el gráfico anterior es library(qdap) quijote.raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt", encoding = "utf8") # es posible que necesites esto en Windows: quijote <- iconv(quijote.raw, from = "utf8", to = "latin1") quijote <- quijote[-(1:36)] quijote <- quijote[-(37453:length(quijote))] dispersion_plot(quijote, c("felixmarte", "amadís", "leandís", "bencimarte", "palmerín", "olivante", "tirante", "belianís", "gironcilio", "lisuarte", "esplandián", "roldán", "rodamonte", "florimorte", "platir", "tablante")) Tenéis permiso mío para buscar otros términos en otros textos y ver qué pinta tiene la distribución.
En el año 2013 hubo 54 muertes de mujeres por violencia de género. Eso da una tasa nacional de poco más de dos por millón (de mujeres). El Mundo nos lo ha querido mostrar su distribución provincial así: Diríase que la tasa palentina es enorme, cinco veces la nacional. Pero en Palencia viven del orden de cien mil mujeres y hubo un único caso en 2013 (además, ni la mujer ni el agresor, se ve, eran de la provincia sino de un pueblo limítrofe de Cantabria; solo que el cadáver apareció en al sur de la linde). ...
Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con Los organismos estadísticos gubernamentales suelen publicar los estimdores puntuales de las estadísticas económicas oficiales. La documentación metodológica de dichos organismos puede hacer constar que estas estimaciones están sujetas a incertidumbre, pero no suelen cuantificarla. Las notas de prensa raramente discuten el error potencial. ...
Esto es, según Andrew Gelman, la correlación entre dos variables en una muestra ni siquiera implica su “correlación” (entre comillas, por distinguirlas) en la población de interés. El enlace anterior también discute otras variantes del archiconocido “la correlación no implica causalidad”, tales como la causalidad está correlacionada con la correlación, la falta de correlación está correlacionada con la falta de causalidad, etc. que, si yo fuera tú, me apresuraría a consultar en el enlace anterior. ...
El Sr. Tufte debiera ser un conocido de los habituales de estas páginas. Los desavisados siempre pueden ponerse al día aquí. El Sr. Tufte escribe libros. Los escribe, los edita, los publica y creo que hasta los vende él solo. No puede ser de otra manera. Mensaje, texto, tipografía, maquetación, gráficos, los elementos todos de sus libros, en cada una de sus páginas, están combinados y medidos hasta el menor de los detalles. Defiende que los elementos gráficos forman parte consustancial del mensaje. Nada de referirse a la figura 7.18 que puede estar dos páginas más allá. Los gráficos tienen que estar cocolocados a la discusión. Etc. ...
Cayó en mis manos que son los resultados de una encuesta en la que la misma pregunta (en puridad, una pregunta sobre una cuestión global y otra sobre un asunto particular de la anterior) reciben respuestas manifiestamente contrarias y contradictorias por parte de una muestra del ostentador de la soberanía. Lo cual me recordó que hacía tiempo había dado con https://www.youtube.com/watch?v=G0ZZJXw4MTA extraído de Yes, Minister y que en inglés no subtitulado ilustra muy amenamente los efectos que sobre el público tiene la manera en que se plantean las cuestiones.
Suelo trabajar un servidor con ocho CPUs. Cuando quiero paralelizar código en R, suelo utilizar [parallel::mclapply](https://stat.ethz.ch/R-manual/R-devel/library/parallel/html/mclapply.html) (como aquí). Pero no tengo una máquina. Tengo varias. Y antes, de hecho, muchas. ¿Cómo paralelizar en distintas máquinas? Se puede usar Spark (y SparkR), por ejemplo. Pero una ruta que no había ensayado jamás es la de la vieja escuela, i.e., MPI, snow y demás. Pero si tienes varios servidores corriendo un sistema operativo decente, instalas R y snow (y todo lo que necesites) en todos ellos y configuras los servidores para poder acceder a través de ssh sin contraseña desde uno central, y, entonces, ejecutas ...
Me tengo que morder la lengua por no contarlo todo. Escribiré hasta donde pueda hacerlo. Que es casi nada. La cosa es que ha llegado a mis oídos que una muy importante empresa española con muchos, muchos empleados planea una migración muy seria de SAS a R. Lo cual no deja de ser un cotilleo empresarial más. Que, como tal, no tendría cabida aquí. Salvo por el hecho de que me consta que me leen muchos estudiantes, muchos profesionales que se replantean sus carreras, muchos desempleados que se están formando de cara a su reincorporación. ...