Posts

El borrador de Ley de transparencia, disponible

Hace unos días, el mismo en el que se anunciaron las elecciones anticipadas (en España) fue publicado el borrador de lo que podría llegar a convertirse en la futura Ley de transparencia. Aunque el actual gobierno no será ya el encargado de tramitarlo (y a saber qué hará el que llegue), merece la pena echarle un vistazo. Tengo comentarios al respecto, muchos de hecho. Y en gran medida coinciden con los que se expresan en este otro blog. ...

Dos aplicaciones (¿sorprendentes?) del análisis de la correlación canónica

Cuando estudiaba en la primavera del 93 álgebra lineal para mis segundos exámenes parciales, tenía en el temario —que no sé si denominar correctito— dos asuntos a los que nuestra profesora —y es difícil, ¿eh?, aunque admito que entonces no había internet— no supo sacar punta. Uno era el asunto entero de los valores propios. Recuerdo ahora que me sugerían constantemente la pregunta ¿para qué? El otro, un pequeño desvío en el temario para tratar un asunto exótico y como metido con el calzador porque, tal vez, habíamos agotado el normal antes del fin del periodo lectivo: el problema de los valores propios generalizados. La pregunta que me obligaban a formularme era todavía más triste que la anterior. Era, simplemente, ¿qué? ...

Los siete pecados capitales de la minería de datos

Por ser viernes, traigo a estas páginas un vídeo tan pedagógico como ameno. Es la conferencia de Dick De Veaux dentro la M2010 Data Mining Conference auspiciada por SAS. El autor repasa los siete pecados capitales de la minería de datos, a saber No realizar las preguntas adecuadas No entender el problema correctamente No prestar suficiente atención a la preparación de los datos Ignorar lo que no está ahí Enamorarse de los modelos Trabajar en solitario Usar datos malos Frente a ellas, propone las siguientes virtudes: ...

El paquete pxR, en CRAN

El 1 de junio escribí en la lista de ayuda de R en español para ver si alguien se animaba a colaborar en la creación de un paquete de R para importar datos en formato PC-Axis. Este formato es usado por gran número de institutos estadísticos, entre ellos el INE español, para difundir y publicar datos en formato electrónico. Existe una herramienta gratuita pero cerrada para analizar este tipo de datos, pero clamaba al cielo que los usuarios de R no contásemos con una manera de importarlos directamente. Además, lo necesitaba para un pequeño proyecto (del que hablaré próximamente). ...

Diagramas de puntos (dotplots)

Aunque los diagramas de puntos fueron introducidos por Cleveland en los años ochenta, a pesar de sus ventajas, no gozan de la popularidad de otros métodos de representación gráfica. Leí hace poco un artículo de Naomi Robbins en el que se proponían los gráficos de puntos como alternativa a los de barras. Encuentra en aquellos tres ventajas: Una representación más limpia y con menos tinta inútil. Permite resolver el problema de la representación de varias observaciones por sujeto más elegantemente que yuxtaponiendo barras, como ilustra el gráfico que aparece debajo. Y una tercera que encuentro más dudosa: que resuelven el problema de los diagramas de barras truncados: el no representar el trazo que une el origen con los valores representados —dice la autora—, el efecto perceptualmente distorsionador de truncar la gráfica no es tan acusado. Aunque yo mantengo mis reservas al respecto. ...

¿Qué es un banco? ¿Qué son las pruebas de resistencia? (En primera derivada)

En primera derivada, un banco es un señor que pone 10, capta 90 en depósitos de ahorradores —a los que da un interés del 4 %— y presta 100 al 5 %. El código en R que aparece a continuación indica cuál es el beneficio del señor: capital <- 10 depositos <- 90 int.dep <- 0.04 int.pres <- 0.05 prestamos <- capital + depositos ingresos <- prestamos * ( 1 + int.pres ) gastos <- depositos * ( 1 + int.dep ) beneficio <- ingresos - gastos rentabilidad.capital <- 100 * beneficio / capital Quien lo ejecute comprobará cómo el señor obtiene un jugoso beneficio. Además, el señor podría hacerlo aún más jugoso incrementando el valor de los depósitos, es decir, captando más ahorro con el mismo capital inicial. Queda como ejercicio para mis lectores repetir los cálculos anteriores con depositos <- 190, etc. ...

La escuela de Chicago se defiende

El vídeo de Taleb que publiqué la semana pasada recoge un ataque frontal a un presunto vicio del entramado económico-financiero actual: su excesiva dependencia en la teoría y la matematización de los mercados financieros. Hasta tal punto se ha cuestionado el papel de las matemáticas (y su responsabilidad en la reciente crisis financiera y bancaria) que la llamada Escuela de Chicago, cuna de toda esta arquitectura, está a la defensiva. Publico aquí el enlace a una entrevista del Financial Times con el decano de la Escuela de Negocios de la Universidad de Chicago, que da su visión sobre el fenómeno (pulsar en la imagen para ver el vídeo): ...

Paella sin arroz con sabor a judías enlatadas

El otro día leí el artículo A Prototype Model of Stock Exchangede G. Caldarelli, M. Marsili y Y.C. Zhang. La promesa que me ofrecía era la de la creación de un sistema relativamente realista de los agentes que operan en los mercados financieros que diese lugar a una evolución de precios con propiedades similares a las observadas. Sin embargo, el planteamiento, interesante en un principio, se deshinchó enseguida: El modelo planteado por los autores ni siquiera aspira a representar los aspectos más distintivos del mercado: en lugar de agentes tremendamente desiguales en tamaño y entrelazados en una maraña de dependencias e influencias mutuas, los agentes son todos equivalentes en tamaño (si bien es cierto que en el estado estacionario de la simulación los ingresos adquieren una distribución dada por una ley de potencias) y que actúan de manera independiente entre sí una vez observados los precios en el mercado. Los resultados, una serie temporal de precios, es calificada por los autores como muy rica, aunque enseguida pasan, en un dechado de honradez, a apuntar diferencias más o menos manifiestas entre sus características estadísticas y las observadas en mercados reales. Entiendo y aplaudo el virtuosismo técnico empleado por los autores del artículo y la implementación de los algoritmos involucrados. No obstante, tras leerlo, me embriaga una extraña sensación que no debe de ser muy distinta de aquellos comensales a los que se les anunció paella, se les advirtió que no traía arroz ni gambas y comprobaron después que sabía a judías de lata.

Y Kenia qué, ¿eh?

—Sí, ya sabemos que en EE.UU. e Inglaterra las cosas son distintas, pero nosotros semos mediterráneos y tenemos sol y aceite de oliva. —Además, uno siempre puede comprar la publicación España en cifras en las librerías Índice a un precio popular establecido anualmente en el BOE (o, incluso, ¡descargarla en PDF gratis!). —Ejque… Etc. Pero, y Kenia qué, ¿eh? ¿Nos vamos a dejar ganar por Kenia?

Clústering (II): ¿es replicable?

Sólo conozco un estudio ?y lo digo bona fide; si alguno de mis lectores conoce otro, le ruego que me lo indique? en el que las técnicas de clústering hayan sido rectamente aplicadas. Se trata del artículo Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring de cuyo resumen extraigo y traduzco lo siguiente: Un procedimiento de detección de clases automáticamente descubrió la distinción entre la leucemia mieloide aguda (AML) y la leucemia linfoblástica aguda (ALL) sin conocimiento previo de las clases. Después se construyó un predictor de clases… ...