Anuncio

La intrahistoria de mi libro de R

Una de las preguntas más fértiles que pueden formularse frente a algo es la del motivo de su existencia: ¿por qué existe en lugar de, simplemente, no existir?

El otro día anuncié públicamente la existencia de mi libro de R. No es el mejor ni el peor. Es hijo de las circunstancias que lo hicieron nacer. Que describo a continuación.

I

Corría el 2014. Yo tecleaba entonces en las oficinas de eBay en Zúrich. La oficina estaba escindida en dos: SAS y Python. No había apenas R por minúsculo problema técnico: no había (aparentemente) drivers para Teradata. La conexión entre R y Teradata estaba rota. Pero en una tarde y con unas cuantas líneas de Java, fabriqué un paquete de R que daba conexión ODBC con Teradata y más (lo típico: queries parametrizadas, etc.). Fue para mi uso personal, luego se popularizó (sí, me llegó una oferta para trabajar en Accenture de EE.UU. por parte de un grupo de usuarios agradecidos que no conocía); ahora no sé qué será de él.

Un libro de R: mi libro de R

No quería hacerlo público aún pero alguien se ve que lo estaba leyendo por ahí. No sé si Google habrá levantado ya la pájara. Tampoco es que fuese un secreto: lo he usado para varios cursos y me consta que ha sido usado por terceros para tal fin.

Pero ya está, es oficial: mi libro de introducción a R (inacabado) está colgado (aquí).

Y no voy a añadir nada más al respecto porque está todo en la introducción.

ILOVEFS + rOpenSpain: 13 y 14 de febrero en Medialab Prado

Los días 13 y 14 de febrero y con motivo del ILOVEFS, se han convocado en Medialab Prado unas sesiones para seguir dando a conocer las bondades del software libre. El programa y el resto de los detalles pueden consultarse aquí.

Yo estaré en una de las mesas/estaciones hablando de R en general y de rOpenSpain muy en particular. Así que los interesados en lo primero en general y lo segundo en particular, seréis muy bienvenidos.

Secciones censales en la Wikipedia

Era una vergüenza que tantos de nosotros estemos dándole vueltas periódicamente al concepto de sección censal y este no tenga una mala entrada en la Wikipedia.

O no la tenía hasta que creé un microartículo en ella.

Estoy seguro que muchos de los lectores de estas páginas saben más (y a ciencia cierta; y pueden, además, encontrar la fuente donde aparece propiamente escrito por la autoridad pertinente) sobre el asunto que lo que aparece ahí reflejado. Y por su cuenta o a través de otros (p.e., servidor) se encargarán de hacerlo constar.

Charla: las *-metrías en la práctica de la ciencia de datos: el papel de la teoría

El próximo 8 de febrero daré una charla dentro del ciclo de Data Konferences.

Para la mía han creado el siguiente cartelito:

El resumen que preparé es:

Una de las características definitorias de la nueva ciencia de datos es su desdén por los planteamientos teóricos. Aspira a encontrar estructura en los datos aplicando una serie de técnicas, generalmente muy intensivas computacionalmente, pero omitiendo cualquier planteamiento o condicionamiento a priori. Este planteamiento subvierte el que fundamenta las *metrías (sicometría, econometría, etc.): en ellas, en análisis de datos tiene como objetivo medir (de ahí el nombre) una serie de parámetros presupuestos por un planteamiento teórico previo. Este conflicto tiene derivadas filosóficas (que, a pesar de su interés, no consideraremos) y otras de índole práctica. Porque gran parte del trabajo real del científico de datos actual sigue el programa de las *metrías, a pesar de las manifestaciones habituales al contrario. Esta charla quiere poner de manifiesto el valor de la teoría subyacente e ilustrar cómo el quehacer de un científico de datos consiste frecuentemente en medir parámetros establecidos dentro de un marco teórico riguroso a través de una serie de ejemplos prácticos reales.

rOpenSpain: ahí tiro el guante

La gente de rOpenSci hace cosas a las que merece la pena atento. Tanto por los objetivos como por medios y las formas. Recomiendo seguir sus últimas publicaciones acerca de la profesionalización del proceso de desarrollo de código.

Llevo unos meses jugando con una idea inspirada por rOpenSci: crear un respositorio y un consorcio más o menos formal que desarrolle, mantenga y mejore herramientas (en R) de interés para el procesamiento y análisis de datos ya no científicos sino españoles. Hablo, obviamente, de INE (EPA, EPF, censo, padrón,…), CIS (barómetros, etc.), IGN (Siane,…), encuestas electorales, etc.

Circiter

Este es, finalmente, el anuncio de que Circiter existe. Circiter (una SL con todas las de la ley) es la empresa a través de la que voy (vamos: nótese que hablo en plural) a trabajar en el futuro.

Qué hacemos (qué nos gusta)

Esencialmente, cuatro cosas:

  • Formación, si toca. No es lo más emocionante, pero mientras siga inflándose la burbuja, ahí estaremos. Tenemos varios cursos preparados (dos niveles de R, Spark, etc.) y bajo pedido, de lo que sabemos, lo que haga falta.
  • Sistemas, programación, etc. Generalmente, relacionado con ciencia de datos. E incluyendo cosas como migraciones de sistemas viejunos a R o Python, aggiornamento de código, produccionalización, etc.
  • Ingeniería estadística.
  • Análisis de datos, cómo no. Aunque es la actividad que encuentro que peor se acomoda dentro de la consultoría, además de que comercialmente lo tenemos muy crudo de competir con los vendedores de humo que todos conocemos.

En resumen, aquello de lo que hablo por aquí.

La anticonferencia: una idea que me ronda la cabeza

La anticonferencia me ronda la cabeza.

No es una conferencia, (de ahí el prefijo), aunque se parezca a ella en lo de reunir a un grupillo de gente interesada en un asunto.

No es un jacatón. Los jacatones están, sobre el papel, bien; pero demasiado a menudo su producto se queda ahí, tiene poca (o nula) trayectoria o impacto. ¿Me dejáis que diga que son mayormente intranscendentes?

Pero creo que los de rOpenSci dieron en el clavo con su Unconference. Es una reunión similar a un jacatón, pero con un objetivo claro: desarrollar paquetes y extender el universo de herramientas de rOpenSci.

Curso de introducción a R en Gijón

Tenía que haberlo publicado antes, pero… ahí va:

Esta semana se va a impartir un curso de introducción a R en el que participo. Está organizado por la UNED y se puede asistir presencialmente (si estás en Gijón esos días) o en remoto desde cualquier parte.

La info, aquí.