Windows Subsystem for Linux

Igual todo el mundo conoce ya WSL. Pero por si acaso queda entre la audiencia algún otro despistado, pues, eso: que existe en Windows 10 (¿solo?) un subsistema Linux que permite correr comandos de consola, instalar paquetes (p.e., con apt-get), etc. Incluso R. Me queda solo la duda del entorno gráfico, sobre el que no he visto nada.

En su día, Windows fue un programa de MS-DOS que arrancaba al escribir win en la consola. Después hubo que arrancar la consola como un programa más de Windows.

Modelos de factores ocultos y la caverna de Platón

La filosofía griega, aunque tosca, es rica en imágenes poderosas. El monotemático, además, solo ve su monotema.

Así que observando

no pude dejar de pensar que sugiere perfectamente los modelos (de factores) ocultos: kriggin, Kalman, los HMM, etc.

En definitiva, los humanos vemos las sombras (ruidosas) de unos objetos ideales que permanecen escondidos. Aunque a diferencia del iluminado platónico que logra girar la cabeza, nosotros, simplemente, exprimimos las sombras para conocer más y mejor los objetos que las proyectan.

Hay bulos, sí, pero la pregunta es: ¿qué hacer?

Ayer asistí a una charla, Pseudociencia en la red: la pandemia de bulos y rumores que nos amenaza en la que se habló mucho del qué (qué bulos circulan, dónde se ubican, cómo se difunden, etc.) un poco del quiénes (separando un nosotros, los racionales/racionalistas, de una masa de tamaño indefinido de gentes susceptibles a un pensamiento mágico) y casi nada del qué hacer. Así que formulé una pregunta que reproduzco aquí por si a alguien le apetece darle vueltas.

Brechas salariales: así las calcularía yo

He visto N estimaciones de las brechas salariales (de género) con resultados de lo más variado. En algunos casos he podido estudiar los métodos utilizados y, la verdad, dan grima (cosas con tufo econométrico viejuno y demás).

Y me refiero, particularmente, a aquellos métodos que analizan la pregunta interesante: ¿hay igualdad de salario a igualdad de méritos? Hay publicaciones que llaman brecha a otra cosa (masa salarial dividido por sujetos), que no merece ni ser comentada aquí.

¿Podría ser la solución que almas caritativas creasen viñetas espontáneamente?

R

Uno de los modelos más útiles potencialmente y que menos atención recibe es el de los modelos de conteos autoexcitados. Es decir, aquellos en los que un evento incrementa durante cierto tiempo la probabilidad de que ocurra otro. Creedme, ocurre así muy a menudo en muchas aplicaciones.

Por eso se pone uno muy contento cuando descubre paquetes de R como este.

Pero el hecho de que unos académicos lo hayan creado y puesto ahí por mor de las neonormas (administrativas, morales o de señalamiento) de reproducibilidad, no significa que lo hayan desarrollado para los usuarios finales. O pensando en ellos.

Recomendaciones... ¿personalizadas?

Los científicos de datos deberían saber algo, los rudimentos al menos, de los sistemas de recomendación. Saber, como poco, que los hay personalizados y no personalizados. Así como las ventajas e inconvenientes de unos y otros.

Gartner ha publicado su informe de herramientas de ciencia de datos de 2018. Que es una especie de sistema de recomendación. Obviamente, no personalizado.

Es raro que ningún artículo que haya leído sobre el asunto (escritos por más o menos presuntos científicos de datos) haya hecho hincapié en el asunto.

¿Soy parte del concilábulo heteropatriarcal?

En una de esas comidas navideñas tuve que asistir pasivamente a una conversación en la que se dibujaba una peculiar realidad alternativa: existiría algo así como un conciliábulo (el Márketing) con capacidad de memoria, entendimiento y voluntad propias e interés por implementar una particular agenda de corte heteropatriarcal. Producto de la cual, por ejemplo, las afeitadoras de color rosa para mujeres vendrían a resultar más caras que las azules para hombres, etc. El Márketing sería un grupito de señores fumando puros, jugando al mus que, entre partida y partida, deciden el color, empaquetado, estampado, forma y precio de cada producto imaginable vendido en cualquier tienda del reino; el descuento que se puede aplicar a cada cual según su raza, sexo/orientación sexual, religión, enfermedad crónica y afiliación sindical. Con un solo objetivo: perjudicar a los/as consabidos/as.

Reflexiones bayesianas al hilo del manido: "Independientemente de su ideología, los economistas suelen estar de acuerdo en que..."

Podría hacerse un ránking de disciplinas académicas según el grado de acuerdo entre quienes las cultivan. Supongo que lo lideraríamos los matemáticos. Salvo los constructivistas y esos raritos que dan por malo el axioma de elección, no contamos con familias heterodoxas. En el otro extremo, aventuro, se ubicarían los que hacen crítica literaria y políticas. Pero, seguro, dentro de las ciencias humanas, los economistas quedarían en bastante buen lugar.

Así que si aceptáis mis premisas (postmisas: vienen después), tendréis que conceder también que este fenómeno es corolario del teorema de von Mises:

Kriging con Stan

Este mes de julio, cuórum mediante, impartiré en la UPC un curso que he maltitulado, mor de brevedad, Estadística Bayesiana Aplicada.

Los cursos de estadística bayesiana son teoría, mucha teoría, y unos ejemplos tontos que quieren justificarla. Del tipo: hagamos lo que ya sabemos hacer de otra manera más; busquemos una alternativa molona al p-valor (y usémosla como usar íamos un p-valor, por supuesto), etc.

Mi curso debería haberse titulado algo así como: Problemas reales (aunque simplificados por motivos estrictamente pedagógicos) resueltos con tecnología bayesiana porque, si no, dígame Vd. cómo lo haría: ¿con optim? Jajajajaja…

Documentar como el culo, no pensar en el usuario final, ser incapaz de ponerte en su situación, etc.

R

De vez en cuando pruebo paquetes promisorios. No es infrecuente que cosas que he intentado hace años, algún ejemplo más o menos sencillo que he publicado aquí, acabe convirtiéndose en la piedra angular de algo facturable. Incluso de algo facturable por mí.

geozoning podía haber sido uno de esos. La promesa del paquete es que puede ayudarte a segmentar regiones del espacio de acuerdo con alguna variable, una especie de clústering para información de tipo espacial.

Estructura poblacional de España: 2010-2050

Si se puede hacer para Japón, también se puede hacer para España:

El código,

library(idbr)
library(ggplot2)
library(animation)
library(ggthemes)

idb_api_key("pídela en https://www.census.gov/data/developers/data-sets/international-database.html")

male <- idb1('SP', 2010:2050, sex = 'male')
male$SEX <- "hombres"
male$POP <- -male$POP

female <- idb1('SP', 2010:2050, sex = 'female')
female$SEX <- "mujeres"

spain <- rbind(male, female)

saveGIF({

  for (i in 2010:2050) {

    title <- as.character(i)

    year_data <- spain[spain$time == i, ]

    g1 <- ggplot(year_data, aes(x = AGE, y = POP, fill = SEX, width = 1)) +
      coord_fixed() +
      coord_flip() +
      annotate('text', x = 98, y = -300000,
                label = 'Datos: US Census Bureau IDB; idbr R package', size = 3) +
      geom_bar(data = subset(year_data, SEX == "mujeres"), stat = "identity") +
      geom_bar(data = subset(year_data, SEX == "hombres"), stat = "identity") +
      scale_y_continuous(breaks = seq(-300000, 300000, 150000),
                          labels = paste0(as.character(c(seq(300, 0, -150), c(150, 300))), "k"),
                          limits = c(min(spain$POP), max(spain$POP))) +
      theme_economist(base_size = 14) +
      scale_fill_manual(values = c('#ff9896', '#d62728')) +
      ggtitle(paste0('Estructura poblacional de España en, ', title)) +
      ylab('Población') +
      xlab('Edad') +
      theme(legend.position = "bottom", legend.title = element_blank()) +
      guides(fill = guide_legend(reverse = TRUE))

    print(g1)

  }

}, movie.name = 'spain_pyramid.gif', interval = 0.1,
    ani.width = 700, ani.height = 600)

LDA para dummies (y con un ejemplo)

Tema de hoy: LDA (Latent Dirichlet Allocation). A raíz de la pregunta de una atenta lectora que quiere saber de qué va la cosa. Con un ejemplo: reproducir el mecanismo mental para tratar de averiguar a qué partido vota alguien.

Supongamos que hay cuatro partidos (PP, PSOE, Ciudadanos, IU). Supongamos que una persona al azar votaría a uno de los cuatro. Pero no sabemos a cuál. De todos modos, como leemos las encuestas, sabemos que la probabilidad de que vote PP es alrededor del 30% etc.