¡Qué mala suerte tengo con las anomalías!

El siempre muy benéfico Banco de Santander me ha proporcionado —onerosamente: veráse el porqué— un conjunto de datos con el que ilustrar a los lectores de este blog en el uso del paquete outliers de R. Los datos son los siguientes: dia <- 17:26 precio <- 10 + c( 22, 21, 39, 18, 24, 26, 26,26,29, 28 ) / 100 Los días son los discurridos desde que di una orden de adquisición de un fondo de inversión a través de dicha entidad financiera hasta que tuve constancia de que se había completado: el dinero se había adeudado de la cuenta corriente y las participaciones, aparecían listadas en la cuenta de valores. El precio contiene los valores liquidativos diarios del fondo durante tales días. He aquí su representación gráfica: ...

29 de octubre de 2010 · Carlos J. Gil Bellosta

¿Siete lenguajes de programación emergentes?

Hace un par de días apareció un artículo en InfoWorld en el que se enumeraban siete lenguajes de programación emergentes. Parece que por emergentes ha de entenderse cada vez más extendidos en la empresa. Como R hacía parte del rol, comencé alegrándome. Después me surgieron dos elementos de sospecha. Véase la lista de los siete lenguajes seleccionados: Python, un viejo conocido. Ruby Matlab JavaScript, que está gozando de una segunda primavera gracias a AJAX y demás R, ¡cómo no! Erlang (vale la pena echarle un vistazo: tiene cosas la mar de interesantes) Cobol (¡ufa!) Extensiones CUDA Los elementos de sospecha son dos (ni tres ni siete): ...

27 de octubre de 2010 · Carlos J. Gil Bellosta

A vueltas con los fractales

Si bien no hace mucho publicaba una entrada sobre el triángulo de Sierpinsky, mi tocayo Carlos Ortega (y ahora gentil colaborador) nos ha proporcionado un enlace en este blog a un pedazo de código que bien vale la pena replicar aquí para el solaz (y tal vez, incluso, provecho) de los lectores de estas páginas. Es: library(fields) # for tim.colors library(caTools) # for write.gif m = 400 # grid size C <- complex( real=rep(seq(-1.8,0.6, length.out=m), each=m ), imag=rep(seq(-1.2,1.2, length.out=m), m ) ) C <- matrix(C,m,m) Z <- 0 X <- array(0, c(m,m,20)) for (k in 1:20) { Z <- Z^2+C X[,,k] <- exp(-abs(Z)) } image(X[,,k], col=tim.colors(256)) write.gif(X, "Mandelbrot.gif", col=tim.colors(256), delay=100) (extraído de aquí). ...

26 de octubre de 2010 · Carlos J. Gil Bellosta

Una solución al problema de la separación perfecta con regresiones logísticas

Cuando el otro día planteé al mis lectores el problema de cómo representar de manera efectiva un conjunto de datos pequeños, no lo hice de manera enteramente ociosa. Eran datos reales de un cliente que tropezó con el llamado problema de la separación perfecta al intentar aplicar una regresión logística. Veamos de nuevo los datos: En la gráfica cada punto representa un individuo (posiblemente una persona). Los grupos los distinguen en dos clases (posiblemente, enfermos y sanos). La variable en el eje de la x mide el nivel de cierta proteína (supongo que en las células de algún tipo de tejido). Si se intenta realizar una regresión logística sobre este conjunto de datos sucede una catástrofe: el algoritmo diverge, aparecen mensajes de error en la pantalla, etc. ¡Es el problema de la separación perfecta! ...

25 de octubre de 2010 · Carlos J. Gil Bellosta

Tutorial: instalación de la extensión de R para RapidMiner

Por popular demanda, voy a explorar cómo de dificultoso es instalar el puente entre R y RapidMiner en Windows y a dejar escrito cómo se hace. Lo instalé hace días en Linux (Ubuntu) sin mayor problema. Pero hay quien parece que haberlos tenido en la ubicua plataforma. No sé mucho de Windows y las diferentes versiones y configuraciones que pueda tener.Solo sé que he probado los pasos de este tutorial sobre un Windows 7 Profesional (creo) de 32 bits. ...

22 de octubre de 2010 · Carlos J. Gil Bellosta

Hoy me he enamorado en el metro

Hoy me he enamorado en el metro. Apenas comenzaba a leer mi articulillo cuando he tropezado con esta frase: GPL treats data as an accessory to viewing a graph. Y la siguiente era aún mejor: GPL is based on the mathematical definition of the graph of a function and uses that definition to organize data linked to the graph. Y más adelante: […] it is based on the assumption that statistical procedures serve graphics; graphics are not ancillary displays of statistical results, but are means of perceiving statistical relationships directly. ...

21 de octubre de 2010 · Carlos J. Gil Bellosta

¡Feliz día de la estadística!

Hoy, 20 de octubre, se celebra el primer día de la estadística. Puede encontrarse más información en el suplemento económico de El País y en la página del INE. También se puede participar en las actividades programadas para el día. Quien esté en Papúa Nueva Guinea, podrá cantar en loor de la estadística; quien esté en Londres podrá, además, participar en estas actividades; los demás, siempre podemos entretenernos con las que nos sugiere Patrick Burns. ¡Felicidades!

19 de octubre de 2010 · Carlos J. Gil Bellosta

Sin sexo por decisión judicial

Pues sí, nos quedamos sin sexo. Por culpa de unos jueces y una interpretación tan recta como corta de miras de nosequé leyes europeas. La cosa viene de atrás: a la hora de categorizar clientes, usuarios o, en definitiva, personas en proyectos diversos de minería de datos (o en el cotidiano desempeño de los actuarios), ¿qué variables con información personal es legítimo utilizar? El uso de variables tales como raza, satisfacción de cuotas a algún sindicato, etc., legal o no, infringiría los códigos deontológicos más básicos. Pero, ¿el sexo? ...

17 de octubre de 2010 · Carlos J. Gil Bellosta

Más sobre lo de Netezza

El otro día, al hablar de la compra de Netezza por parte de IBM, hice referencia a un comentario del blog que es casi el flotador al que me asgo cuando quiero averiguar la verdad de las cosas que se me tuercen (últimamente). Dediqué en mi entrada una única línea para referirme a un único párrafo de la otra. Una visión tan parcial y puntual puede haber generado malinterpretaciones que me apresuro a enmendar con la profusión que el tema merita. ...

14 de octubre de 2010 · Carlos J. Gil Bellosta

El índice de inflación sostenible (que no existe)

La estadística oficial (tal como la entienden el INE y organismos similares) ejercen un, así lo llamamos los pedantes, pernicioso efecto reificador. Me explico: todos tenemos una idea intuitiva sobre lo que significa la inflación, la tasa de desempleo o el producto nacional bruto. Pero la inflación, la tasa de desempleo o el producto nacional bruto son —en realidad y para todos los efectos— lo que nos dice el INE que son: unos números que publican días, semanas o incluso años después de ocurrido el hecho medible. ...

12 de octubre de 2010 · Carlos J. Gil Bellosta