Cultura viejuna y anumerismo

Intolerable.

Abres las páginas de cultura de cualquier periódico y compruebas que los periodistas no tienen recato alguno en hablar de (incluso elogiar) obras inescrutables de pintores oscuros, géneros minoritarios, libros eruditísimos, películas aburridísimas en que no pasa un carajo, obras teatrales rarísimas con actores semidesnudos que se descuelgan del techo con un arnés, ballets soporíferos y todo tipo de burrufalla que defiene el estándar de lo que hoy en día se entiende por ser culto. ¡Carajo!

DBSCAN, ¿algo nuevo bajo el sol?

Ha sido en latitudes otras que las habituales que he aprendido y leído (mas no probado) sobre DBSCAN. Se conoce que es un nuevo (aunque ya tiene sus añitos: algo así como 20) método de clústering.

Por un lado, se agradecen las novedades.

Por el otro, tengo cierta aversión a las cosas que proceden de los congresos de Knowledge Discovery and Data Mining, que es donde fue publicado el algoritmo.

En esencia, funciona así: se fijan dos parámetros, e y n. Un punto es central si a distancia e o menor tiene, al menos, otros n puntos. Los clústers los conforman:

Esta tarde doy un curso abierto y gratuito de introducción a la programación

Efectivamente, esta tarde doy un curso de unas tres horas de introducción a la programación. Es gratuito y está abierto a quien quiera pasarse (hasta completar aforo). Será en las oficinas de KSchool de 18:30 a 21:00. Los interesados pueden escribir a elsa.duran en kschool punto com para reservar la plaza.

La sesión es un preámbulo a mi curso de R pero independiente del mismo. Está pensado para aquellos que no han programado apenas y que quieren tomarlo. Pero es de interés general y, reitero, independiente del antedicho curso.

El g-test para tablas de contingencia

Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tiendan a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación.

Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras.

La falacia del fiscal (pero con frecuencias naturales)

No sé si alguien conoce la historia de Sally Clark. Fue condenada por el asesinato de sus dos hijos. Ambos padecieron, según ella, el síndrome de la muerte súbita del lactante. La probabilidad, sin embargo, de que sus dos hijos lo padecieran (supuesto que son eventos independientes, i.e., que no hay, por ejemplo, factores genéticos comunes) era muy baja: una de 73 millones. Por eso la enchironaron.

Pero, ¿qué es 1 / 73e6? Eso es $latex P(D|I)$, es decir, la probabilidad del suceso (los datos) condicionada a la inocencia de Sally. Sin embargo, la probabilidad que tiene que tener encuenta un juez no es esa sino $latex P(I|D)$, es decir, la probabilidad de ser inocente a la vista de los datos.

La paradoja de Berkson

Queremos calentar unas empanadas en el horno y, ¡oh desgracia!, no funciona. Pueden pasar dos cosas (independientes entre sí):

  • El horno está estropeado ($latex A$)
  • El horno está desenchufado ($latex B$)

Hemos observado el evento $latex A \cup B$ y nos preocupa mucho $latex P(A | A \cup B)$, es decir, que tengamos que llamar al técnico y comernos frías las empanadas a la vista de que el horno no responde.

Encuentro Big Data 2015 (.co)

A fines de octubre participaré en el Encuentro Big Data 2015 en Bogotá. Formaré parte de una mesa redonda sobre formación (y políticas de formación) en este campo.

Tengo una postura poco convencional sobre esos temas y, me atrevería a decir, polémica en cuanto a la relación entre las administraciones públicas y las burocracias enseñativas y el hecho de que la gente explore, conozca y aprenda cosas como Spark. Aunque, supongo, quienes me han hecho el honor de invitarme no lo saben (aún).

Google Maps (o CartoDB, etc.) "says 'NO'"

Si no sabéis a qué hace referencia el título, no os perdáis esto (y otros vídeos de la serie).

ComputerSaysNo

El otro día (véase esto) mostré una imagen de mi última charla sobre mapas. Hoy le toca el turno a esta otra:

britain

Se trata de un mapa de Gran Bretaña de alrededor de 1250 realizado por un tal Matthew Paris. Tiene una particularidad: cuenta E. Tufte que en un borde el autor indica que la isla debería ser más alargada, pero que, de respetar las proporciones, no le habría cabido el mapa en el pergamino. Y a la gente le hace gracia.

Del hombre medio a la factura media

Del hombre medio (u homme moyen de Quetelet para los eruditos) ya hemos hablado antes: es un concepto decimonónico, de la época de los albores de la estadística, que permite argumentar alrededor de una construcción inexistente: el sujeto que está en la media de todo, la medida de la normalidad.

Pero buscad “factura media” en Google (entrecomillado) y veréis como en el siglo XXI todavía se argumenta alrededor de construcciones ideales similares. Para determinar si un servicio sube o baja de precio, reguladores, periodistas, asociaciones de consumidores, etc. examinan la facture moyenne.

¡Qué primitivos eran aquellos antepasados nuestros...! ¿O no?

El sábado pasado, en Medialab Prado (gracias a @xvilan y @adolflow por la invitación) presenté lo que pudiera llamarse un pequeño manifiesto por una cartografía antropocéntrica.

En él mostré un mapamundi T-O (o tau-omega), que tiene esta pinta:

t_o_mapamundi

Se trata, efectivamente, de una representación del mundo conocido allá por el siglo XI. Se ven en él Europa, Asia y África separados por un mar en forma de T y encerrados en una enorme O. Supongo que todo el mundo entonces sabía que la costa no era tal y como se representaba allí. Que había cabos, islotes, itsmos, etc.