¿Pato o conejo? (Y su moraleja)

Supongo que

es conocido de todos. Según la orientación de la imagen, la red neuronal correspondiente la categoriza bien como conejo o bien como pato.

¿El motivo? La red está entrenada con una serie de fotos etiquetadas por humanos y en ellas, las figuras en que parecen conejos están en ciertos ángulos (los naturales en fotos de conejos) y en las que aparecen patos, en otros.

"Deep learning": una evaluación crítica

Tal vendría a ser la traducción del título de este artículo con el que, mentándolo, hago contrapeso a opiniones enlatadas con sabor a gominola.

Por no dejarlo todo en dos líneas, enumero aquí los diez mayores retos (¿problemas?) que encuentra hoy en día el autor en el deep learning:

  1. Que necesita demasiados datos
  2. Que apenas tiene capacidad de transferencia (i.e., de trasladar lo aprendido en un contexto a otro)
  3. Que no sabe gestionar sistemas jerárquicos
  4. Que no es bueno infiriendo
  5. Que no es lo suficientemente transparente (en este punto cita, por supuesto, a nuestra autora favorita, Catherine O’Neill)
  6. No usa conocimiento previo (¡uh, uh, bayesianos!)
  7. No distingue correlación y causalidad (¿y quién sí?)
  8. Presume un mundo estable, inmutable
  9. Funciona bien como aproximación, pero no es enteramente fiable
  10. Plantea problemas de ingeniería, de integración con otros componentes para crear sistemas

x[] <- lapply(...)

R

Estos días he aprendido una expresión muy compacta para operar sobre las columnas de una tabla en R:

x <- iris # por ejemplo
x[] <- lapply(x, function(x) factor(x)) # o cualquier otra función

Aunque lapply debería devolver (y, de hecho, devuelve) una lista, esos corchetes de x fuerzan de una manera contraintuitiva que la salida final sea una tabla.

La magia es consecuencia de que [<- es una función en sí misma (puedes consultar help("[<-") si quieres) con un comportamiento que es el que es (porque sí, a veces las cosas son simplemente como son).

GoF para modelos bayesianos

Existe una muy perezosa escuela de pensamiento que sostiene que dado que las probabilidades son subjetivas, cualquier modelo y, en particular, los bayesianos, como expresión de la subjetividad de sus autores, no necesita ser contrastado con la realidad. Porque, de hecho, la realidad no existe y es una construcción que cada cual hace a su manera, deberían añadir.

Existe, por supuesto, una escuela realista tan mayoritaria que ni siquiera es consciente de que lo es. Basta leer la primera página de Statistical Modeling: The Two Cultures para hacerse una idea muy clara de a lo que me refiero.

"Estadística Básica Edulcorada"

Quiero contribuir a dar a conocer el libro Estadística Básica Edulcorada de Alejandro Quintela.

Debería, se supone, hacer una crítica de lo que publico, pero lo omitiré en esta ocasión porque, para eso, tendría que haberlo leído con más detenimiento en lugar de simplemente hojearlo deteniéndome en los capítulos más entretenidos. Lo cual significa que sí que los tiene: de hecho, está repleto de ejemplos más o menos curiosos, problemas y paradojas más o menos conocidas, que tienen un valor en sí mismas al margen de las secciones teóricas más áridas.

¿Están los hogares preparados para una nueva recesión?

La respuesta es evidente: unos sí; otros, no. Pero en sitios como este se argumenta desde el promedio.

Que si uno se come un pollo y otro ninguno, son los estadísticos —precisamente, los estadísticos— los que dicen que se han comido medio cada uno. ¡Ya!

Turing y la telepatía

Turing dejó escrito:

[T]he statistical evidence [for extra sensorial perception], at least for telepathy, is overwhelming.

He visto usarse esta cita como evidencia de que Turing, al igual que Newton y muchos otros, daba una de cal y otra de arena. Sin embargo, el párrafo completo de donde se extrae la cita admite la ironía como muy probable interpretación alternativa:

I assume that the reader is familiar with the idea of extra-sensory perception, and the meaning of the four items of it, viz. telepathy, clairvoyance, precognition and psycho-kinesis. These disturbing phenomena seem to deny all our usual scientific ideas. How we should like to discredit them! Unfortunately the statistical evidence, at least for telepathy, is overwhelming. It is very difficult to rearrange one’s ideas so as to fit these new facts in. Once one has accepted them it does not seem a very big step to believe in ghosts and bogies. The idea that our bodies move simply according to the known laws of physics, together with some others not yet discovered but somewhat similar, would be one of the first to go.

Siete llaves al sepulcro del método delta

El desafortunado tuit

es de lo más parecido a que me repitan unos chorizos que me ha ocurrido últimamente. Salvo que en lugar de chorizos, lo que se me manifestaban fueron años estudiando matemáticas y, por extensión, las partes más analíticas de la estadística.

Con inmerecida delicadeza, se me respondió:

De texto a función

R

Problema: convertir una expresión definida por un usuario (p.e., algo como "a+b") en una función (i.e., function(a, b) a + b).

Solución:

    gen_foo <- function(expr){
        my_args <- all.vars(parse(text = expr))
        expr <- paste0("function(",
                       paste(my_args, collapse = ","),
                       ") ", expr)
        eval(parse(text = expr))
    }

Demostración:

    multiplica <- gen_foo("a * b")
    multiplica(5, 31)

0.7% NYC - MAD .3%

Ayer leí este artículo en el que se denuncia cómo en Nueva York, donde tan elevados son los alquileres, apenas se construyen nuevos apartamentos. En 2017, al parecer, su número creció apenas el 0.7%.

Pero, ¿a quién le importa Nueva York? Veamos qué pasa en Madrid. Gracias al buen hacer de su ayuntamiento, tenemos datos que resumo aquí:

[table id=2 /]

[Nota: aparentemente, aquí iba una tabla que se perdió en la última migración del blog.]

Estadística "sin el dolor agónico"

Acabo de ver

y:

  • Me parece increíble que se pueda ir a una conferencia seria a describir el t-test. ¿Así está el cotarro?
  • En tanto que anacrónica (critica hoy una tecnología de 1908), tanto la critica y como su tono me parecen injustos.
  • En tanto que no (¡aún se enseña casi tal cual!), entiendo muchas cosas.

Curso de python básico orientado al análisis de datos

Se acaba de publicar en GitHub el/nuestro Curso de python básico orientado al análisis de datos.

Digo nuestro un tanto impropiamente: casi todo el material es de Luz Frías, mi socia en Circiter. Mía hay alguna cosa suelta.

Como como minicoautor soy el comentarista menos creíble del contenido, lo dejo al juicio de cada cual. Y, por supuesto, se agradecen correcciones, comentarios, cañas y fusilamientos (con la debida caballerosidad, por supuesto, en lo de las atribuciones).