Nlp

Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente.

Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas.

Hitler era comunista y judío

O así nos cuenta Google. Y me explico rápidamente para que no me demande nadie.

Uno de los servicios de Google con los que he topado recientemente es Google Squared, un buscador muy particular —y que parece funcionar sólo en inglés— que devuelve tablas: uno puede buscar nikon lenses, o statistical software y obtendrá lo que verá al pinchar en los correspondientes enlaces: tablas en las que las filas corresponden a lentes de Nikon o paquetes estadísticos y las columnas a atributos. Es increíble que Google adivine que los relevantes para las lentes son, entre otros, la distancia focal o la apertura mientras que para el software estadístico lo son la licencia o el desarrollador.

Nuevo paquete para procesar texto en R: stringr

Nlp, R

Hadley Wickman, el autor de plyr, reshape y ggplot2, ha vuelto a la carga en su exitoso empeño por hacernos cambiar de forma de programar en R.

Con su nuevo paquete, stringr, aspira a facilitarnos aún más la vida. En un reciente artículo, enumera sus ventajas:

  • Procesa factores y caracteres de la misma manera (de verdad, muy práctico)
  • Da a las funciones nombres y argumentos consistentes
  • Simplifica las operaciones de procesamiento de cadenas eliminando opciones que apenas se usan
  • Produce salidas que pueden ser utilizadas fácilmente como entradas a otras funciones
  • Incorpora funciones para procesar texto presentes en otros lenguajes pero no en R

Cambios cosméticos en el blog

Acabo de realizar unos cuantos cambios, mayormente cosméticos, en mi blog. He añadido una lista de artículos recomendados al final de cada entrada, he eliminado el enlace a la entrada aleatoria, he incluido una lista de los últimos comentarios y, finalmente, he incluido propaganda contextual de Google.

Lo he hecho por dos motivos. El primero es pecuniario, obviamente. No espero que me retire ni que me permita dejar de tener que madrugar. Nada de eso. Pero tal vez sí que me cubra un porcentajillo de los vicios.

Leyendo en diagonal (pero con cuidado)

Un profesor mío de historia en primero de BUP nos confesó un día que para corregir exámenes leía en diagonal: pasaba la vista de la esquina superior izquierda de la hoja a la inferior derecha y según las palabras que entendía por el camino ponía una nota u otra.

Justo o no el procedimiento, es cierto que de un mero golpe de vista sobre un texto se pueden adivinar muchas cosas sobre su contenido. Andando los años, además, los ordenadores nos están comenzando a ayudar a realizar este tipo de lecturas superficiales. Si no, véase este gráfico publicado en El País que resume el discurso de Zapatero en el Debate del Estado de la Nación (del 2010):