Carlos J. Gil Bellosta

Probando hunspell para el procesamiento de texto en español

El paquete hunspell de R permite procesar texto utilizando como soporte la infraestructura proporcionada por Hunspell, el corrector ortográfico que subyace a muchas aplicaciones en R. Existe una viñeta que ilustra el uso del paquete pero, como siempre, en inglés. En español las cosas son parecidas pero, como siempre, nunca exactamente iguales. En esta entrada, por lo tanto, voy a repasar partes de la viñeta aplicándolas a nuestra tan frecuentemente maltratada mas por ello no menos querida por algunos como yo (pausa) lengua. ...

Lo que pasa cuando interrumpes a alguien que desarrolla una actividad intelectual seria

¿Quién demonios inventó esos espacios de trabajo diáfanos?

Pasión y curiosidad

En mi charla del viernes pasado, alguien me preguntó si seguía teniendo la pasión con la que se conoce participé en aquella competición de ciencia de datos que glosé. Estuve a punto de responder que a los 42 uno está un poco más allá de la pasión y un poco más acá de la colonoscopia. Aunque, lo reconozco, más que porque es una respuesta graciosa que porque refleje verdad alguna. Lo que sí que es cierto es que he estado meditando sobre si la pregunta era oportuna o no. A ratos he pensado que no, que fue tramposa. Pero ahora me decanto por considerarla legítima y merecedora, cuando menos, de una respuesta más desarrollada. ...

En defensa de lo simple

No es propiamente estadística. Tiene que ver también con la consultoría, pero no necesariamente con la relacionada con numerillos. Pero se traslada a ambas línea a línea. Es ¿Eres complicado o sencillo? y se lee en un momento.

La tierra es redonda (p < 0.05)

A sus 72 años, en 1994, J. Cohen dejó casi para la posteridad un excelente artículo, The earth is round (p < .05). Traduzco el resumen: Tras cuatro décadas de severa crítica, el ritual del contraste de hipótesis (NHST) —decisiones mecánicas y dicotómicas alrededor del sagrado criterio del 0.05— todavía perdura. Este artículo repasa los problemas derivados de esta práctica, incluyendo la casi universal malinterpretación del p-valor como la probabilidad de que H0 sea falsa, la malinterpretación de su complementario como la probabilidad de una réplica exitosa y la falsa premisa de que rechazar H0 valida la teoría que condujo a la prueba. Como alternativa, se recomiendan el análisis exploratorio de datos y los métodos gráficos, la mejora y la estandarización progresiva de las medidas, el énfasis en la estimación de los tamaños de los efectos usando intervalos de confianza y el uso adecuado de los métodos estadísticos disponibles. Para garantizar la generalización, los sicólogos deben apoyarse, como ocurre en el resto de las ciencias, en la replicación. ...

Diapositivas de "Antikaggle: contra la homeopatía de datos"

He colgado las diapositivas de Antikaggle: contra la homeopatía de datos. Sobre todo, para que aquellos que aún conserven la pasión por saber más puedan visitar los enlaces que recopilé y que figuran en ella. El vídeo, se dice, aparecerá pronto. Sin él, las diapositivas, puro soporte visual, quedan huérfanas. Tema, tono y contenid son premeditadamente polémicos; las consecuencias, previsibles. Fe de ello dan los comentarios de los asistentes.

¿Hay terroristas islámicos en Poissonistán?

La distribución binomial (de parámetro n, p) es una suma de n variables aleatorias de Bernoulli independientes de parámetro p. Independientes, reitero. La distribución de Poisson es aproximadamente, una distribución binomial con un n muy grande y un p muy pequeño. Los eventos subyacentes siguen siendo independientes, reitero. Viene esto al caso de una tabla que ha circulado por Twitter, en la que se comparan estimaciones de los parámetros $\lambda$ de una serie de distribuciones de Poisson… como si todas lo fuesen. ...

La inesperada correlación de los ratios

Tomemos dos variables aleatorias independientes y positivas, set.seed(123) n <- 100 x <- runif(n) + 0.5 y <- runif(n) + 0.5 No tengo ni que decir que su correlación es prácticamente cero, cor(x,y) #-0.0872707 y que en su diagrama de dispersión tampoco vamos a poder leer otra cosa: Ahora generamos otra variable independiente de las anteriores, z <- runif(n) + 0.5 y calculamos el cociente de las primeras con respecto a esta: xz <- x / z yz <- y / z ¿Independientes? Hummmm… cor(xz, yz) # 0.5277787 Parece que no. Porque valores grandes del cociente aplastan a la vez a los valores de x e y y a la inversa. La correlación entre las nuevas variables crece con la del denominador, de hecho. ...

Ha muerto Hans Rosling

Una mala manera de perder un par de horas

Es esta: 156.67 * 100 # 15667 as.integer(156.67 * 100) #15666 Claro, hay que leer ?as.integer para enterarte de que, en realidad, la función que quieres usar es round. Una mala manera de perder un par de horas.