Carlos J. Gil Bellosta

Problema de la semana sobre la media

Como esta semana se me están agotando las ideas antes que los días de blog, en lugar de discurrir una entrada, propongo un problema para que sean mis lectores quienes lo hagan por mí. Que se imaginen dueños de un pozo petrolífero cuyos costes de explotación son de 75 dpb (dólares por barril). El precio del petróleo no es fijo: puede tomar aleatoriamente los valores 50, 100 o 150 dpb, aunque se sabe que todos son equiprobables. ...

SAS, ¿el futuro? Una perspectiva demográfica

Recientemente tuvo lugar la conferencia del nosequé de SAS en algún lugar de EE.UU. Alguien decidió rodar el siguiente vídeo: En él aparecen algunos de los participantes en las conferencias realizando comentarios simpáticos. Pero conforme iba viendo desfilar rostros, no dejaba de pensar en que existía un patrón en la muestra. ...

Solipsismo, comunidad y rendimiento

Desde esta bitácora hemos seguido atentamente el a veces espinoso asunto del rendimiento de R. De ello es muestra entradas como ésta. Por eso retomamos el asunto para comentar desde una óptica distinta un análisis publicado hace un mes cuyo autor estudia la ineficiencia de funciones básicas como la media y otras similares. Y llega a conclusiones que no es necesario manifestar explícitamente a quien ejecute esto en R: x <- rnorm(50000) foo.mean <- function(){ mean(x) } foo.mean.int <- function(){ .Internal(mean(x)) } foo.sum <- function(){ sum(x) / length(x) } system.time(tmp <- replicate(10000, foo.mean())) system.time(tmp <- replicate(10000, foo.mean.int())) system.time(tmp <- replicate(10000, foo.sum())) Efectivamente, la media es lenta: pierde mucho tiempo en comprobaciones, revisando opciones y casos particulares. Además, es una función genérica que tiene que encontrar el método adecuado. Todo eso supone, efectivamente, un sobrecoste. ...

Un curso completo de minería de datos en Youtube

CITRIS (Center for Information Technology Research in the Interest of Society) está subiendo a su canal de Youtube los vídeos de las clases de un curso de minería de datos impartidos por el profesor Ram Akella en la Universidad de Berkeley. Están disponibles los vídeos del: 26 de enero, sobre la regresión lineal 2 de febrero, sobre la regresión logística 9 de febrero, continuación del anterior 16 de febrero, sobre métodos de clasificación (NN y naive bayes) 23 de febrero y 2 de marzo, sobre naive bayes 9 de marzo, sobre diversas aplicaciones de SVD a problemas de minería de texto y motores de búsqueda 16 de marzo, sobre métodos de arracimamiento con aplicaciones a segmentación de mercados 30 de marzo, sobre extracción de la información 13 de abril, 20 de abril (día en el que todos llegaron tarde) y 27 de abril sobre motores de recomendación 4 de mayo, curiosamente al final, sobre aspectos más formales y globales de la minería de datos

¿Qué nos jugamos? (Addenda: no queremos jugarnos nada)

Al tratar el principio de Kelly el otro día omití, craso error, decir que dicho criterio nos invita a no apostar en casi ninguna circunstancia. En efecto, siendo el tamaño de la apuesta —más propiamente, el porcentaje del capital que apostar— el que propone el criterio igual a $$ x = \frac{bp-(1-p)}{b}, $$ cabe preguntarse cuándo es este mayor que cero. Y lo es cuando $$pb - (1-p) > 0, $$ es decir, cuando el juego es favorable. En efecto, el término de la izquierda de la desigualdad anterior es la esperanza del beneficio obtenido en cada partida. Y si esta cantidad ha de ser positiva, el principio de Kelly recomienda no jugar ni a la ruleta, ni a la lotería ni invertir en forex… de no ser tú mismo el casino, lotero o banco que cobra comisiones.

Consejos para utilizar R "en producción"

El otro día di con una entrada en una bitácora con cinco consejos para utilizar R en producción. Cuatro de ellos son razonables: Crear un sistema de validación, monitorización y alertas. Y, en particular, desarrollar un mecanismo para que R notifique los problemas encontrados por correo electrónico. En la entrada original hay código que puede utilizarse para tal fin. Usar la función sink para facilitar la detección y corrección de los errores. Usar Linux de 64 bits con mucha, mucha memoria. Aunque el autor de la entrada que comenta no lo diga, añado yo de mi cosecha que es conveniente utilizar rm y gc explícitamente cuando dejen de utilizarse objetos voluminosos para eliminarlos más satisfactoriamente y facilitar labor del recolector de basura. Usar sentencias tryCatch. El último de los consejos del autor es más cuestionable: utilizar —más bien se refiere a reescribir— tus propias funciones. Pone como ejemplo la función glm, que no tiene mucho éxito de crítica, al parecer. ...

¿Qué nos jugamos?

Imagínese que le proponen participar reiteradamente en un juego de azar. Dispone de una cantidad de dinero inicial, $a$ euros, y puede apostar en un juego en el que o gana con probabilidad $p$ $b$ veces la apuesta o la pierde enteramente. Puede repetir el juego cuantas veces quiera y apostar el porcentaje que desee de su dinero. ¿Cuánto se apostaría? ¿Qué porcentaje de su capital inicial se jugaría? Suponga que decide apostar siempre un porcentaje fijo, $x$ del dinero del que disponga en cada momento. Tras la primera jugada, tendría $a + b a x = a(1+bx)$ de ganar y le quedarían $a (1-x)$ de perder. Puede seguir jugando y en cada partida su capital se multiplicaría por $1+bx$ o por $1-x$ según su suerte. Al cabo de $n$ partidas, de haber ganado $w$ de ellas, su capital inicial se habría multiplicado por ...

Terrorismo y sesgos en la percepción de la improbabilidad

En el Financial Times del 3 de mayo aparece un artículo de Gideon Rachman que es de los pocos que merece ser leído sobre el fatigoso y, como se verá, poco relevante tema de la muerte de Bin Laden. Y es interesante —y relevante para los lectores de esta bitácora— porque toca un tema del que ya nos hemos ocupado y que seguro que revisitaremos: el de las probabilidades subjetivas y, en particular, el de las distorsiones con las que los seres humanos percibimos y calibramos probabilidades pequeñas. ...

Hitler era comunista y judío

O así nos cuenta Google. Y me explico rápidamente para que no me demande nadie. Uno de los servicios de Google con los que he topado recientemente es Google Squared, un buscador muy particular —y que parece funcionarsolo en inglés— que devuelve tablas: uno puede buscar nikon lenses, o statistical software y obtendrá lo que verá al pinchar en los correspondientes enlaces: tablas en las que las filas corresponden a lentes de Nikon o paquetes estadísticos y las columnas a atributos. Es increíble que Google adivine que los relevantes para las lentes son, entre otros, la distancia focal o la apertura mientras que para el software estadístico lo son la licencia o el desarrollador. ...

Un rol de herramientas de minería de datos

¿Cuántas herramientas de minería de datos puedes enumerar? ¿Cuántas dirías que existen en el mercado? Una búsqueda naïf en Google todavía conduce a un añejo artículo de 1998 con el que no sé cuántas veces habré tropezado ya. Pero recientemente ha sido publicado un artículo de R. Mikut y M. Reischl que pone la lista al día: Data Mining Tools. Además de una categorización de las herramientas disponibles, información sobre cuota de mercado y otros datos concomitantes, incluye una serie de listas de herramientas así como el enlace (que no he encontrado en parte alguna) a una hoja de Excel con información sobre 269 de ellas (195 actuales y 74 antiguas).