Google

Google vs Goodhart vs GPT-n vs el nuevo (y desconocido) equilibrio

Google

Supe de un nuevo buscador de internet llamado Google posiblemente en verano de 1998. Leí sobre él en una revista de informática de la biblioteca pública que aún subsiste delante del lugar donde estaba pasando las vacaciones. Escribí “G-O-O-G-L-E” en un papelito para no olvidar esa extraña secuencia de caracteres y, días más tarde, en un cibercafé, la probé por primera vez.

Supimos pronto que el nuevo buscador, mucho mejor que los entonces existentes, implementaba un nuevo algoritmo, infinitamente más eficiente que los del resto.

¿Pato o conejo? (Y su moraleja)

Supongo que

es conocido de todos. Según la orientación de la imagen, la red neuronal correspondiente la categoriza bien como conejo o bien como pato.

¿El motivo? La red está entrenada con una serie de fotos etiquetadas por humanos y en ellas, las figuras en que parecen conejos están en ciertos ángulos (los naturales en fotos de conejos) y en las que aparecen patos, en otros.

Quienes ignoran la estadística están condenados a reinventarla

Esa frase la he pronunciado en alguna ocasión y no sé si la habré escrito en este blog. La reescribo porque hace apenas unas horas he leído un artículo en el que un tipo ha redescubierto el partial pooling (quien lo ignore lea esto urgentemente). Claro, proponía unas cosas tan raras como ocurrentes que se reducían en la estrategia que he contado: tengo cierta intuición de una idea genial que no llego a aprehender enteramente y procedo a moverme dando tumbos y a golpe de ocurrencias en la difusa dirección en la que parece apuntar.

Advertencias sobre el uso de los n-gramas de Google

Dudaba en si dedicar la entrada a popularizar los n-gramas de Google en lugar de advertir sobre sus sesgos. Pero, habida cuenta de que lo primero sería llover sobre mojado (véase esto o esto), me he decantado por lo segundo.

El primer problema es el del reconocimiento de caracteres. Aunque la tecnología mejorará, aún se encuentra, p.e., cami6n en lugar de camión.

El fundamental, no obstante, es que los libros aparecen una única vez independientemente de su popularidad. Esto plantea problemas para medir el impacto cultural de determinados términos: su presencia o ausencia en los n-gramas puede no encontrar correlato en la calle.

Acceso a Google Analytcs desde R

R

Google Analytics puede usarse desde su consola o bien descargando datos y procesándolos por tu cuenta. Para lo cual, desde R,

require(RGoogleAnalytics)

client.id <- "1415926535-u377en6un7lugar2de7lamancha0de1cuyo5nombre0m.apps.googleusercontent.com"
client.secret <- "CEcI5nEst6pAs6Un2SecREt6-f8nt"
token <- Auth(client.id,client.secret)
#save(token,file="~/.ga_token_file")

Obviamente, para lo anterior:

  • Hay que instalar y cargar los paquetes relevantes
  • Tienes que usar tu propio id y secreto de cliente como indica aquí
  • Tienes que tener una cuenta en Google Analytics, claro

Además, puedes descomentar la última línea si quieres guardar tus credenciales para futuros usos (con las debidas medidas de seguridad). Tras lo cual,

¿Dónde he estado (según Google)?

Leí esto el otro día. Lo voy a replicar con mis datos.

Contexto

Google guarda datos de tus ubicaciones: tu tableta, tu ordenador, tu teléfono Android son espías a su servicio. Los datos los guarda en aquí (creo que necesitarás que en tu navegador haya una sesión abierta con tus credenciales del universo Google). Pulsando en administrar archivos y luego en crear archivos puedes seleccionar el tipo de información sobre ti que posee Google y que quieres descargarte. Para este ejemplo, será el Historial de Ubicaciones.

El impacto (causal) de Google

Voy a escribir sobre un artículo como no debe hacerse: sin haberlo leído. Los bayesianos dirían que esta opinión que aquí voy a vertir es mi prior para cuando encuentre el tiempo y bajo la cual matizaré lo que en el se diga. Lo advierto, en todo caso, para que quien me lea no renuncie al sanísimo escepticismo.

Voy a hablar de Inferring causal impact using Bayesian structural time-series models y del paquete de R que lo acompaña, CausalImpact, cuyos autores trabajan en Google.

Predicciones de series temporales a gran escala y en paralelo con R

En el artículo Large-Scale Parallel Statistical Forecasting Computations in R encontrarán los interesados información sobre cómo está usando Google R para realizar predicciones de series temporales a gran escala usando cálculos en paralelo.

El artículo tiene dos partes diferenciadas. Por un lado está la que describe los métodos que usan para realizar predicciones sobre series temporales. Parecen sentir cierto desdén por la teoría clásica, comprensible dado el gran número de series temporales que tratan de predecir y el mimo —entiéndase como uso de materia gris— que exige aquella. Prefieren un proceso en el que el coste sea esencialmente computacional: construir predicciones usando gran número de modelos distintos y promediándolos después para obtener resultados que, aunque lejos del óptimo para cada caso particular, resultan adecuados para su fin.

Google Translate, tamaños muestrales y sesgos

Supongo que mis lectores estarán al tanto de Google Translate y tal vez sepan que utiliza métodos estadísticos para traducir: a partir de una muestra amplia de textos con el mismo contenido pero en distintos idiomas llega a deducir que maison, casa y house son una misma cosa.

Pero la yustaposición puede dar lugar a situaciones jocosas. He aquí un ejemplo con el que la serendipia me ha hecho tropezar recientemente.

Supongo que habréis encontrado alguna vez ese texto que comienza por lorem ipsum dolor sit amet… y que los maquetadores y editores gráficos usan como relleno para mostrar su trabajo. Aparece en tantos sitios que… parece haber confundido al traductor de Google como se aprecia a continuación. Si pido traducir, por ejemplo, la frase Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus que forma parte de ese texto,

Un paseo por Google Fusion Tables

El siguiente vídeo contiene una entrevista con Alon Halevy, que dirige el Data Group en Google Research. Aunque confunda Suecia y Finlandia, merece la pena la presentación que hace de Google Fusion Tables, una plataforma para compartir, combinar, distribuir y representar gráficamente conjuntos de datos.

Google, Motorola, móviles, patentes e ideas

La noticia de que Google acaba de comprar la división de telefonía móvil de Motorola ha suscitado una doble justificación por parte de los analistas:

  • Que Google pretende desarrollar un modelo vertical de negocio en telefonía móvil (i.e., cubriendo todo el ciclo del producto: diseño y fabricación de terminales, desarrollo del software, publicidad y otros servicios).
  • Que Google quiere hacerse con las patentes de Motorola.

Aunque los motivos últimos sean, probablemente, una mezcla de estos y, posiblemente, otros motivos, el factor patentes no es circunstancial. En julio, Google se quedó sin las 6000 patentes de la extinta Nortel al verse superado en la subasta por un consorcio de empresas (Apple, RIM, Sony y otras) que pagó 4500 millones de dólares por ellas.

Una (propuesta de) guía de estilo de R

R

Síntoma del creciente interés por R es el hecho de que Google haya elaborado y publicado una guía de estilo para R. Me he tomado la libertad de traducirla. Espero que a Google no le importe.

Es conveniente (Google, yo y, seguramente, muchos otros lo creemos así) atenerse a un código de estilo a la hora de programar. No es éste foro en el que enumerar las ventajas que se derivan de ello: si habéis desarrollado código codo con codo con otros, sabréis a qué me refiero; si no, haced caso al consejo de quienes os precedieron y ahorraréis tiempo y dinero.