Un lematizador para el español con R (II)

El otro día publiqué mi pequeño lematizador para el español con R. Era el subproducto de un antiguo proyecto mío de cuyos resultados daré noticia en los próximos días. Pero veo con infinita satisfacción que Emilio Torres, viejo conocido de quienes, por ejemplo, hayáis asistido a las II o III Jornadas de Usuarios de R, ha estado abundando en el asunto y, ciertamente mejorándolo (cosa que, todo hay que decir, tiene escaso mérito): basta mirar los sus comentarios a la entrada original. ...

5 de enero de 2012 · Carlos J. Gil Bellosta

Minería de datos: estado de la profesión y tendencias

Supongo que muchos de los lectores de esta bitácora conocerán ya el enlace que les presento. El resto encontrarán de interés el resumen que Gregory Piatetsky-Shapiro, editor de KDNuggets, hizo del estado de la profesión en la conferencia SuperData Summit en San Diego el pasado año. Para acceder a las diapositivas, pínchese sobre la imagen siguiente:

4 de enero de 2012 · Carlos J. Gil Bellosta

Ingeniería fiscal para mi hipoteca: ¿vendo un futuro?

Tengo una hipoteca. El tipo de interés que pago es el Euribor a 12 meses más un diferencial. He usado una calculadora de hipotecas y he descubierto que si el Euribor sube un 1%, mi cuota (anual, es decir, sumando los incrementos de los 12 meses) se incrementaría en 660 euros. Y me he preguntado: ¿existe algún producto financiero que me dé dinero si sube el Euribor? ¿Existe alguna manera de protegerme de una subida del índice? ...

3 de enero de 2012 · Carlos J. Gil Bellosta

IVA, IRPF y cosas que no entiendo

Sé lo justito sobre estos temas. Lo justito como para no entender nada. Seguro que las cosas no son tan fáciles como yo creo entenderlas y estoy seguro de que algún lector me las sabrá complicar (con algún párrafo que comience algo así como no son tan fáciles las cosas porque…) para que las comprenda. En España hay dos grandes impuestos, IVA e IRPF. El IVA es un porcentaje (prácticamente) fijo del consumo: si consumes 100 pagas el mismo porcentaje que si consumes 1000. El IRPF es un porcentaje creciente de los ingresos: si ganas 100, pagas un porcentaje menor que si ganas 1000. ...

2 de enero de 2012 · Carlos J. Gil Bellosta

¿Curiosidades de la lotería?

Tenía guardado un enlace de un artículo del periódico sobre curiosidades de la lotería. Describe dos hechos curiosos: Que la terminación más repetida, el 5, ha aparecido 32 ocasiones en 201 gordos (se ve que ha habido 200 sorteos, pero un año hubo, cosas de la vida, dos gordos). Que dos números, el 15640 y el 20297 han sido gordos en dos ocasiones. Una pregunta, pues, para mis lectores: ¿qué es más improbable, que la terminación más frecuente haya ocurrido en 32 (o más) ocasiones o que haya habido dos (o más) gordos repetidos? ...

2 de enero de 2012 · Carlos J. Gil Bellosta

Captura de datos, MediaLab Prado y NeedleBase

Ya he hablado en ocasiones anteriores en este foro de MediaLab Prado. Y también de los talleres que está realizando sobre periodismo de datos. El día 12 de enero —y a ver qué invento para poder acudir— habrá una sesión sobre captura de datos uno de cuyos talleres tratará sobre scraping usando NeedleBase. Anoche vi el siguiente vídeo sobre esta herramienta, y quedé impactado sobre las cosas que puede llegar a hacer. ...

30 de diciembre de 2011 · Carlos J. Gil Bellosta

Gráficos de pares de variables mejorados (con R)

Un gráfico de pares de variables —que no he sabido traducir mejor desde el original inglés pairplot— es algo como lo siguiente: Ahora es posible construir gráficos de pares más sofisticados e informativos usando el paquete GGally de R. Usando el código (extraído de SAS and R) library(GGally) ds <- read.csv("http://www.math.smith.edu/r/data/help.csv") ds$sex <- as.factor( ifelse(ds$female==1, "female", "male") ) ds$housing <- as.factor( ifelse(ds$homeless==1, "homeless", "housed") ) smallds <- subset(ds, select=c("housing", "sex", "i1", "cesd")) ggpairs(smallds, diag=list(continuous="density", discrete="bar"), axisLabels="show") se obtiene la siguiente versión mejorada: ¿Gusta más?

29 de diciembre de 2011 · Carlos J. Gil Bellosta

¿Es rentable invertir en bolsa en el largo plazo?

Quien busque información al respecto por ahí verá opiniones y cifras. En cualquier caso, y como se verá aquí, todo depende del cuándo. Finalmente, después de mucho buscarla, he conseguido información sobre la rentabilidad histórica de la bolsa española —específicamente, del IGBM, el índice de la Bolsa de Madrid— desde su creación en 1940. Se observa en la serie que 100 pesetas invertidas en tal año se convirtieron en casi 17000 en el 2004. La evolución (en escala lineal) del índice es: ...

28 de diciembre de 2011 · Carlos J. Gil Bellosta

El lucero del alba

Puede que algunos de mis lectores sepan que el lucero del alba es el nombre con que se conoce al planeta Venus cuando es visible en el cielo al amanecer. En contextos menos poéticos se conoce por tal nombre a esto: Es decir, una determinada configuración de los precios de apertura y cierre de tres días de cotización (bursátil, por ejemplo) de forma que: El primer día hay una bajada El tercer día hay una subida Los precios de apertura y cierre del segundo día son inferiores a los del cierre del primero y apertura del segundo. Se ve que eso es cosa güena. De El Economista extraigo el siguiente párrafo atribuido a un tal Joan Cabrero: ...

27 de diciembre de 2011 · Carlos J. Gil Bellosta

IBM sobre Excel como herramienta estadística

Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM quien abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo. Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores. ...

26 de diciembre de 2011 · Carlos J. Gil Bellosta