Probando hunspell para el procesamiento de texto en español

Nlp, R

El paquete hunspell de R permite procesar texto utilizando como soporte la infraestructura proporcionada por Hunspell, el corrector ortográfico que subyace a muchas aplicaciones en R.

Existe una viñeta que ilustra el uso del paquete pero, como siempre, en inglés. En español las cosas son parecidas pero, como siempre, nunca exactamente iguales. En esta entrada, por lo tanto, voy a repasar partes de la viñeta aplicándolas a nuestra tan frecuentemente maltratada mas por ello no menos querida por algunos como yo (pausa) lengua.

Pasión y curiosidad

En mi charla del viernes pasado, alguien me preguntó si seguía teniendo la pasión con la que se conoce participé en aquella competición de ciencia de datos que glosé.

Estuve a punto de responder que a los 42 uno está un poco más allá de la pasión y un poco más acá de la colonoscopia. Aunque, lo reconozco, más que porque es una repuesta graciosa que porque refleje verdad alguna.

Lo que sí que es cierto es que he estado meditando sobre si la pregunta era oportuna o no. A ratos he pensado que no, que fue tramposa. Pero ahora me decanto por considerarla legítima y merecedora, cuando menos, de una respuesta más desarrollada.

La tierra es redonda (p < 0.05)

A sus 72 años, en 1994, J. Cohen dejó casi para la posteridad un excelente artículo, The earth is round (p < .05).

Traduzco el resumen:

Tras cuatro décadas de severa crítica, el ritual del contraste de hipótesis (NHST) —decisiones mecánicas y dicotómicas alrededor del sagrado criterio del 0.05— todavía perdura. Este artículo repasa los problemas derivados de esta práctica, incluyendo la casi universal malinterpretación del p-valor como la probabilidad de que H0 sea falsa, la malinterpretación de su complementario como la probabilidad de una réplica exitosa y la falsa premisa de que rechazar H0 valida la teoría que condujo a la prueba. Como alternativa, se recomiendan el análisis exploratorio de datos y los métodos gráficos, la mejora y la estandarización progresiva de las medidas, el énfasis en la estimación de los tamaños de los efectos usando intervalos de confianza y el uso adecuado de los métodos estadísticos disponibles. Para garantizar la generalización, los sicólogos deben apoyarse, como ocurre en el resto de las ciencias, en la replicación.

Diapositivas de "Antikaggle: contra la homeopatía de datos"

He colgado las diapositivas de Antikaggle: contra la homeopatía de datos. Sobre todo, para que aquellos que aún conserven la pasión por saber más puedan visitar los enlaces que recopilé y que figuran en ella.

El vídeo, se dice, aparecerá pronto. Sin él, las diapositivas, puro soporte visual, quedan huérfanas.

Tema, tono y contenid son premeditadamente polémicos; las consecuencias, previsibles. Fe de ello dan los comentarios de los asistentes.

¿Hay terroristas islámicos en Poissonistán?

La distribución binomial (de parámetro n, p) es una suma de n variables aleatorias de Bernoulli independientes de parámetro p.

Independientes, reitero.

La distribución de Poisson es aproximadamente, una distribución binomial con un n muy grande y un p muy pequeño.

Los eventos subyacentes siguen siendo independientes, reitero.

Viene esto al caso de una tabla que ha circulado por Twitter,

en la que se comparan estimaciones de los parámetros $latex \lambda$ de una serie de distribuciones de Poisson… como si todas lo fuesen.

La inesperada correlación de los ratios

Tomemos dos variables aleatorias independientes y positivas,

    set.seed(123)
    n <- 100
    x <- runif(n) + 0.5
    y <- runif(n) + 0.5

No tengo ni que decir que su correlación es prácticamente cero,

    cor(x,y)
    #-0.0872707

y que en su diagrama de dispersión tampoco vamos a poder leer otra cosa:

Ahora generamos otra variable independiente de las anteriores,

    z <- runif(n) + 0.5

y calculamos el cociente de las primeras con respecto a esta:

    xz <- x / z
    yz <- y / z

¿Independientes? Hummmm…

Una mala manera de perder un par de horas

R

Es esta:

156.67 * 100
# 15667
as.integer(156.67 * 100)
#15666

Claro, hay que leer ?as.integer para enterarte de que, en realidad, la función que quieres usar es round.

Una mala manera de perder un par de horas.