R

Hoy hablaremos de r-es.org

R

Hoy voy a hablar del portal de la Comunidad R Hispano, r-es.org. Quiero aprovechar la inusitada popularidad de mi bitácora desde que se anunció el curso básico de R para hacerlo.

Y hacerlo para invitar a todo el mundo a conocerlo, a visitarlo, a participar en él y a mejorarlo.

Porque es posible. Xavier de Pedro lo ha diseñado utilizando Tiki, un gestor documental, que brinda a la comunidad de usuarios la posibilidad, otorga el derecho y, en cierto modo, según se mire, le impone la obligación de enriquecerlo con aportaciones.

La prehistoria de R, según Patrick Burns

R

Para muchos de nosotros, R es algo del siglo XXI. Patrick Burns, sin embargo, es capaz de estirar la memoria hasta hace casi 30 años, 1984, momento en el que S, que era entonces un proyecto experimental de los laboratorios Bell, salió al mundo.

S evolucionó hacia S+ entre 1984 y 1992. Al aparecer R, la situación era aproximadamente así:

Y, de hecho, en las primeras versiones de R, el código (extraído del artículo R: Lessons Learned, Directions for the Future de Ross Ihaka) tenía esta pinta:

Curso de R gratuito no presencial

R

Hace unos diez años aprendí R por mi solo y por mi cuenta. Entonces era una rareza y no me constaba que en mi universidad hubiese nadie trabajando con él.

Diez años después, R ha cobrado tal importancia que son muchos los interesados en aprenderlo. Para subvenir a esta demanda, Juanjo Gibaja y yo hemos diseñado un curso de R básico con las siguientes características:

  • Es gratuito.
  • No da derecho a diplomas o certificados de ningún tipo.
  • No es presencial.
  • Plazas ilimitadas.
  • Está basado en el autoestudio: cada participante tendrá que leer y trabajar por su cuenta.
  • Es colaborativo: hemos desarrollado una plataforma web para que quienes sigan el curso puedan plantear preguntas y, como parte fundamental del programa, tratar de responder las de sus compañeros.
  • Está supervisado por Juanjo y yo: nos encargaremos del programa, de dar soporte de última instancia a las preguntas abiertas por los estudiantes.
  • Es genérico. Cada cual quiere aprender R por un motivo distinto: unos, para analizar encuestas; otros, por su interés en la minería de datos; algunos, para analizar series temporales,… El curso está pensado para llevar a cada cual hasta el mismo umbral de su tema de interés de forma que pueda después de él avanzar en el tema por su cuenta. Pero sin hacer especial hincapié en ningún asunto concreto.
  • El contenido estadístico será mínimo (se limitará a algo de estadística descriptiva y poco más).

Los interesados encontrarán más información en este documento.

SAP, HANA, RHANA y R

R

SAP es tal vez la mayor empresa europea de software. Aunque es principalmente conocida por sus programas de gestión empresarial, ha hecho sus pinitos en el mundo de los gestores de bases de datos con HANA. Una de sus principales peculiaridades es que almacena la información en memoria, beneficiándose, por un lado, del abaratamiento del hardware y, por el otro, de la velocidad de acceso.

Otra, de mucho más interés para quienes siguen esta bitácora, es la posibilidad de conectarlo con R. He ido recopilando varios enlaces sobre el asunto en los últimos tiempos, como

Desencriptando (II): la avaricia es mala

El otro día propuse y resolví un problema de encriptación con R. Utilizaba uno de los llamados métodos avariciosos (o greedy) para hallar el máximo de una función (que era, en esencia, la función de verosimilitud de una determinada permutación de caracteres dentro del espacio probabilístico de todas ellas).

Este método funcionó con una cadena relativamente larga para desencriptar pero falla con otras más cortas. Por ejemplo, con

cadena <-c("u","r","i","b","y","r","l","g","m","h","e","r","y",
"b","g","m","a","c","p","y","c","m","d","r","h","z","y",
"r","e","i","c","l","r","i","n","e","c","t","d","t","c","z",
"c","y","c","v","r","o","d","y","s","e","r","q","c","y","c",
"n","g","q","c","i","g","m","r","y","d","i","v","r")

Si ejecuto el código que presenté el otro día,

Patrones hexagonales con R

R

Navegando por internet di con el gráfico

(que puede encontrarse aquí) además de un enlace al código en Matlab usado para generarlo.

Diríase que lo programó un contable. Tratad de seguirlo y veréis por qué lo digo.

Y por entretenerme, traté de generarlo con R. Y creo que de una manera algo más intuitiva:

  1. Creo una función que sabe pintar un hexágono en una posición dada.
  2. Creo una retícula de centros de hexágonos del tamaño adecuado.
  3. Pinto finalmente un hexágono en cada uno de esos centros.

El código es

España, ¿radial? (II)

Una de las principales objeciones que se le pueden hacer a mi entrada de ayer es que puede estar confundiendo la causa con efecto: puede que parte de la radialidad de la red que obtuve tenga que ver con el tamaño desproporcionado de Madrid que, a su vez, podría haber sido causado por la radialidad de la red tradicional de las comunicaciones españolas.

Así que enviemos una partida de pescado en malas condiciones a Mercamadrid, convidemos a toda la provincia, veámosla fenecer víctima de contumaces diarreas y rehagamos la simulación suponiendo que

España, ¿radial? (I)

Me propuse hace un tiempo combinar lo que aprendí creando rutas callejeras por Zaragoza con una entrada que escribí sobre la estructura radial de las vías de transporte de España. El problema que me planteo es si tiene sentido que la red de carreteras Española tenga estructura radial habida cuenta de la geometría peninsular bajo ciertas hipótesis, siempre discutibles y mejorables, de partida.

Así que, en primer lugar, cargué los paquetes de R necesarios, un fichero que creé que contenía las capitales de provincia, su latitud, su longitud y la población de las respectivas provincias y fabriqué una red de carreteras muy ineficiente que unía todos los nodos entre sí:

Segunda reunión de usuarios de R de Madrid: recordatorio

R

Aprovecho para recordar a los usuarios de R de Madrid que el jueves 26 de abril, a las siete de la tarde, tendrá lugar la segunda reunión del grupo de usuarios de R de Madrid en la sala Metrópolis de La Tabacalera (glorieta de Embajadores).

El programa, como siempre, puede consultarse en la página del grupo.

Variables instrumentales con R

Los economistas usan unas cosas a las que llaman variables instrumentales con las que uno apenas se tropieza fuera de contextos econométricos. El problema se plantea en el contexto de la regresión

$$y_i = \beta x_i + \varepsilon_i,$$

cuando existe correlación entre X y $\varepsilon$. En tales casos, el estimador por mínimos cuadrados es

$$\hat{\beta} =\frac{x’y}{x’x}=\frac{x’(x\beta+\varepsilon)}{x’x}=\beta+\frac{x’\varepsilon}{x’x}$$

y debido a la correlación entre X y $\varepsilon$, está sesgado.

La solución que se plantea en ocasiones es el de usar variables instrumentales, es decir, variables correlacionadas con X pero no con $\varepsilon$. La siguiente simulación en R ilustra el problema: