R | Carlos J. Gil Bellosta

agate: análisis de datos optimizado para humanos (y no para máquinas)

Una de las cosas que menos me canso de repetir es que R no es (solo) un lenguaje de programación. R es un entorno para el análisis de datos. Los informáticos se horrorizan con él: no entienden por qué es como es. Pero, fundamentalmente, su problema es que no conciben que pueda haber sido diseñado para el REPL y no (solamente) para crear programas. Casi todo el tiempo que paso con R abierto lo consumo trabajando interactivamente, no programando. R está pensado para facilitar ese tipo de trabajo, no para crear programas complejos. Está optimizado para el usuario, no para la máquina. De ahí se sigue una cascada de corolarios que no ha lugar plantear aquí. ...

Lo poco y lo mucho; lo malo, lo regular y lo bueno

Estos días pasados ha habido un hilo en la lista de correo de ayuda de R en español (¿todavía no te has dado de alta en ella?) en la que alguien preguntaba cómo crear paquetes y dónde encontrar documentación al respecto. La buena intención de quienes han tratado de ayudarle, me temo, ha sido contraproducente. Lo han empapelado con una lista (casi con aspiraciones de exhaustividad) de recursos y más recursos en los que se indica cómo resolver el problema. ...

GAM

Hoy he dado una charla en la Carlos III. En la comida me han preguntado, algo extrañados, por un ejemplo que había enseñado en el que ajustaba un modelo usando GAMs. El motivo era que quienes preguntaban —que trabajan con ese tipo de modelos— encuentran muy difícil, se ve, convencer a otros usuarios de los métodos estadísticos (economistas, etc.) de adoptarlos. Yo he contestado que hace unos pocos días a unos primíparos que acababan de ajustar sus tres primeros lms con R les invité a probar GAMs con sus datos. ¿Por qué no? ...

Asignación en R: ¿flecha o lo innombrable?

Alguien a quien no quiero nombrar (pero que sabe de sobra quién es) me comentaba el otro día algo que no sabía de la asignación en R: las presuntas diferencias entre <- e =. Que en resumen eran: ambos asignan pero = hace una copia del objeto asignado mientras que <- no. Como consecuencia, <- es más eficiente desde el punto de vista de la gestión de la memoria. ¿Será cierto? ¿Qué nos dirá tracemem al respecto? No seáis vagos y probad ...

El g-test para tablas de contingencia

Hace unos días recibí una consulta de una vieja amiga lingüista. Ella trabaja en algo que creo que se llama cocolocación: el estudio de palabras que aparecen o que tienden a aparecer juntas en textos. Digamos que es algo así como una correlación o una regla de asociación. Los lingüistas están muy interesados en ese tipo de fenómenos. Tradicionalmente (cada gremio tiene su librillo) usan la información mutua. Pero, al final, lo que tienen es una tabla de contingencia: situaciones en que aparece una, la otra, ambas o ninguna de las palabras. ...

Madrid decide, propone, vota, etc.

De siempre, no sé por qué motivo, me interesaron esas cosas relacionadas con la democracia directa. En la feria del libro del año nosecuántos compré un libro al respecto (que presté y no me han devuelto). He seguido de cerca el desarrollo de plataformas como Agora y conozco a alguno de sus desarrolladores. Di guerrita en Suiza a los locales para que me explicasen pros, contras y funcionamientos de lo que allí tienen instalado. Estoy al tanto de los problemas que ha planteado la democracia directa en California (sobre lo que recomiendo esto). Etc. ...

Programa Profesional de Iniciación a R II

Del 10 de noviembre al 17 de diciembre impartiré la segunda edición de mi Programa Profesional de Iniciación a R. Los detalles pueden consultarse en el enlace anterior. Es la segunda edición. De la primera hablé aquí. El programa es esencialmente el mismo: presentar y trabajar con aquellas herramientas que hacen de R una herramienta útil dentro de BBVA, Santander, Mapfre, etc. Para trascender Excel y, entre otros, manipular datos como un pro, crear gráficos estadísticos complejos de calidad, crear informes automáticos que combinan análisis de datos, gráficos, texto, etc., desarrollar plataformas interactivas de visualización y análisis de datos. En el curso se tocarán (aunque sin profundizar) las herramientas para el análisis estadístico de datos con R (p.e., regresiones) y algunas técnicas de machine learning (p.e., árboles de decisión y random forests), pero no se trata de un curso de estadística. ...

purrr: otro dialecto para la programación funcional en R

Acaba de publicarse purrr. Es un paquete del universo Wickham que ofrece funciones para desarrollar otro dialecto funcional sobre R. R es un lenguaje oportunista: ni del todo funcional, ni del todo orientado a objetos, ni del todo procedural. Es como es porque nació con un objetivo muy concreto y fue adoptando cosas de aquí y de allá como cuando uno recorre el supermercado. Merece la pena traer a colación cómo el primerísimo R (cuando era S), durante los ochenta, antes de adoptar la forma actual a través de los diversos libros de colores de Chambers y compañía, estaba fuertemente inspirado por Lisp. ...

Anunciado el programa de las VII Jornadas de Usuarios de R

Se acercan las VII Jornadas de Usuarios de R. Y se acaba de actualizar la página con la siguiente información: El programa, en el que, además de charlas, hay varios talleres muy atractivos. La cena social (para la que es bueno que reserves: ¡necesitamos una buena estimación de cuántos acabaremos siendo!) El anuncio de una visita guiada gratuita a la ciudad de Salamanca. Como novedad con respecto a otras jornadas, el anuncio de una excursión durante el sábado a la sierra de Francia y alrededores. La asistencia a las jornadas es gratuita y, de momento, estamos inscritos unos 150. ¿Te sumas tú también?

Un problema "sencillo": posiciones y ruido

Voy a describir la solución un problema sencillo. Se trata de un objeto que se mueve a una velocidad no necesariamente constante en línea recta. Este objeto emite su posición y velocidad periódicamente (p.e., cada segundo). Por centrar ideas, su posición y velocidad reales en esos momentos es n <- 100 v.real <- rnorm(n, 1, 0.2) x.real <- cumsum(v.real) (Perdóneseme lo gañán de la física que aplico para calcular las posiciones: prometo que se puede y que sé hacerlo mejor; pero para el presente caso, vale). ...