Un curso completo de minería de datos en Youtube

CITRIS (Center for Information Technology Research in the Interest of Society) está subiendo a su canal de Youtube los vídeos de las clases de un curso de minería de datos impartidos por el profesor Ram Akella en la Universidad de Berkeley. Están disponibles los vídeos del: 26 de enero, sobre la regresión lineal 2 de febrero, sobre la regresión logística 9 de febrero, continuación del anterior 16 de febrero, sobre métodos de clasificación (NN y naive bayes) 23 de febrero y 2 de marzo, sobre naive bayes 9 de marzo, sobre diversas aplicaciones de SVD a problemas de minería de texto y motores de búsqueda 16 de marzo, sobre métodos de arracimamiento con aplicaciones a segmentación de mercados 30 de marzo, sobre extracción de la información 13 de abril, 20 de abril (día en el que todos llegaron tarde) y 27 de abril sobre motores de recomendación 4 de mayo, curiosamente al final, sobre aspectos más formales y globales de la minería de datos

17 de mayo de 2011 · Carlos J. Gil Bellosta

¿Qué nos jugamos? (Addenda: no queremos jugarnos nada)

Al tratar el principio de Kelly el otro día omití, craso error, decir que dicho criterio nos invita a no apostar en casi ninguna circunstancia. En efecto, siendo el tamaño de la apuesta —más propiamente, el porcentaje del capital que apostar— el que propone el criterio igual a $$ x = \frac{bp-(1-p)}{b}, $$ cabe preguntarse cuándo es este mayor que cero. Y lo es cuando $$pb - (1-p) > 0, $$ es decir, cuando el juego es favorable. En efecto, el término de la izquierda de la desigualdad anterior es la esperanza del beneficio obtenido en cada partida. Y si esta cantidad ha de ser positiva, el principio de Kelly recomienda no jugar ni a la ruleta, ni a la lotería ni invertir en forex… de no ser tú mismo el casino, lotero o banco que cobra comisiones.

16 de mayo de 2011 · Carlos J. Gil Bellosta

Consejos para utilizar R "en producción"

El otro día di con una entrada en una bitácora con cinco consejos para utilizar R en producción. Cuatro de ellos son razonables: Crear un sistema de validación, monitorización y alertas. Y, en particular, desarrollar un mecanismo para que R notifique los problemas encontrados por correo electrónico. En la entrada original hay código que puede utilizarse para tal fin. Usar la función sink para facilitar la detección y corrección de los errores. Usar Linux de 64 bits con mucha, mucha memoria. Aunque el autor de la entrada que comenta no lo diga, añado yo de mi cosecha que es conveniente utilizar rm y gc explícitamente cuando dejen de utilizarse objetos voluminosos para eliminarlos más satisfactoriamente y facilitar labor del recolector de basura. Usar sentencias tryCatch. El último de los consejos del autor es más cuestionable: utilizar —más bien se refiere a reescribir— tus propias funciones. Pone como ejemplo la función glm, que no tiene mucho éxito de crítica, al parecer. ...

13 de mayo de 2011 · Carlos J. Gil Bellosta

¿Qué nos jugamos?

Imagínese que le proponen participar reiteradamente en un juego de azar. Dispone de una cantidad de dinero inicial, $a$ euros, y puede apostar en un juego en el que o gana con probabilidad $p$ $b$ veces la apuesta o la pierde enteramente. Puede repetir el juego cuantas veces quiera y apostar el porcentaje que desee de su dinero. ¿Cuánto se apostaría? ¿Qué porcentaje de su capital inicial se jugaría? Suponga que decide apostar siempre un porcentaje fijo, $x$ del dinero del que disponga en cada momento. Tras la primera jugada, tendría $a + b a x = a(1+bx)$ de ganar y le quedarían $a (1-x)$ de perder. Puede seguir jugando y en cada partida su capital se multiplicaría por $1+bx$ o por $1-x$ según su suerte. Al cabo de $n$ partidas, de haber ganado $w$ de ellas, su capital inicial se habría multiplicado por ...

12 de mayo de 2011 · Carlos J. Gil Bellosta

Terrorismo y sesgos en la percepción de la improbabilidad

En el Financial Times del 3 de mayo aparece un artículo de Gideon Rachman que es de los pocos que merece ser leído sobre el fatigoso y, como se verá, poco relevante tema de la muerte de Bin Laden. Y es interesante —y relevante para los lectores de esta bitácora— porque toca un tema del que ya nos hemos ocupado y que seguro que revisitaremos: el de las probabilidades subjetivas y, en particular, el de las distorsiones con las que los seres humanos percibimos y calibramos probabilidades pequeñas. ...

10 de mayo de 2011 · Carlos J. Gil Bellosta

Hitler era comunista y judío

O así nos cuenta Google. Y me explico rápidamente para que no me demande nadie. Uno de los servicios de Google con los que he topado recientemente es Google Squared, un buscador muy particular —y que parece funcionarsolo en inglés— que devuelve tablas: uno puede buscar nikon lenses, o statistical software y obtendrá lo que verá al pinchar en los correspondientes enlaces: tablas en las que las filas corresponden a lentes de Nikon o paquetes estadísticos y las columnas a atributos. Es increíble que Google adivine que los relevantes para las lentes son, entre otros, la distancia focal o la apertura mientras que para el software estadístico lo son la licencia o el desarrollador. ...

9 de mayo de 2011 · Carlos J. Gil Bellosta

Un rol de herramientas de minería de datos

¿Cuántas herramientas de minería de datos puedes enumerar? ¿Cuántas dirías que existen en el mercado? Una búsqueda naïf en Google todavía conduce a un añejo artículo de 1998 con el que no sé cuántas veces habré tropezado ya. Pero recientemente ha sido publicado un artículo de R. Mikut y M. Reischl que pone la lista al día: Data Mining Tools. Además de una categorización de las herramientas disponibles, información sobre cuota de mercado y otros datos concomitantes, incluye una serie de listas de herramientas así como el enlace (que no he encontrado en parte alguna) a una hoja de Excel con información sobre 269 de ellas (195 actuales y 74 antiguas).

4 de mayo de 2011 · Carlos J. Gil Bellosta

Personal data mining

La Edge Foundation es una organización que se postula algo así como el club de los hombres extraordinarios. Quienes forman parte de ella no dejan de hablar bien de sí mismos y se autoepitetan de multitud de cosas la mar de estupendas: brillantes, sagaces, etc. Esta asociación propone anualmente una pregunta para promover el debate. La del año 2011 fue (y no me atrevo a traducirla por si la rompo): What scientific concept would improve everybody’s cognitive toolkit? Docenas de expertos enviaron propuestas. De entre todas ellas, la más simpática me pareció la de John Allen Paulos (del que ya hemos hablado previamente en esta bitácora), que sugirió las distribuciones de probabilidad. Muy cerca queda la de M. H. Wolpoff, que propuso el concepto GIGO (garbage in, garbage out) que le sería muy provechoso a cierta gente que conozco. ...

3 de mayo de 2011 · Carlos J. Gil Bellosta

¿Cuánto cuesta criar un buey?

Por ser viernes, por estar aún de vacaciones en un país famoso por sus vacas y porque mis lectores estén al tanto de una bitácora que no hay que perderse —que es de la que extraigo las dos imágenes que aparecen a continuación—, va una de bueyes. Primero una foto: En ella, aparece un buey de 567 kg. llamado Grandview Rebel junto a unos barriles que representan el petróleo que ha requerido criarlo: 1.071 litros. Cada kilo de carne de buey necesita 6,25 litros de petróleo. Eso explica la siguiente gráfica, ...

29 de abril de 2011 · Carlos J. Gil Bellosta

Extensiones de la R2

Sin ir más lejos, cojamos el primer ejemplo que aparece en ?ls, es decir, ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm.D9 <- lm(weight ~ group) summary( lm.D9 ) y hagamos cor( weight, predict( lm.D9 ) )**2 ¿Qué obtenemos? Precisamente la R2 del modelo lm.D9. Esta relación abre la puerta a varias extensiones de esta medida de la bondad de ajuste a contextos en los que las expresiones suma de cuadrados de… carecen de sentido. En la UCLA mantienen una página sobre la R2 y sus extensiones que seguro será del provecho de muchos de los lectores de esta bitácora.

28 de abril de 2011 · Carlos J. Gil Bellosta