Discretización de variables continuas (con árboles)

La primera entrada de esta bitácora es de enero de 2010. En aquella época, recuerdo, había apartado un artículo sobre categorización de variables continuas, i.e., el proceso de convertir (¿para qué?) una variable continua en categórica de una manera óptima. Aparte de cuestionar el paraqué (¿por qué porqué es sustantivo y paraqué no?) de la cosa me asaltaron dudas sobre el cómo. Si se quiere discretizar, ¿por qué no usar directamente un árbol? Es decir, un árbol simple en el que se modele la variable objetivo en función de la continua que se desee discretizar. ...

25 de abril de 2016 · Carlos J. Gil Bellosta

En una API de cuyo endpoint no quiero acordarme...

… rigen los siguientes términos de servicio (que traduzco, porque el original vienen en inglés): Usuarios autorizados: usuarios afiliados a una institución educativa de investigación o sin ánimo de lucro. Supongo que ese es el fin de la historia: estoy expulsado de ella, salvo que retuerza el hilo de la casuística, relaje el perímetro de las acepciones y me considere afiliado a alguna de las instituciones educativas donde imparto alguna clase; y justifique, claro está, que no tienen ánimo de lucro. ...

22 de abril de 2016 · Carlos J. Gil Bellosta

El cincuenta en raya (y el tres en raya)

Supongo que todos conocéis el tres en raya. El cincuenta en (casi) raya, sin embargo, es esto: Hay dos variables, (pluviosidad y ratio hombres/mujeres) y los cincuenta punticos casi en raya corresponden a los estados de EE.UU. ¿Asombrosa correlación? No tanto. Aquí se discute cómo, en realidad, por su cercanía sociocultural y climática cada uno de los estados del gráfico son manifestaciones de tres grupos de ellos que, estos sí, esta? en raya (¿casualmente?). ...

21 de abril de 2016 · Carlos J. Gil Bellosta

El impacto causal del óbito del Sr. Botín en la cotización bursátil del benemérito Banco de Santander

El Sr. Botín, presidente que fue del Banco de Santander, falleció el 2014-09-10. Cabe preguntarse por el impacto causal à la Google de no continuidad de su gestión a cargo de dicha institución. Comienzo pues. Primero los datos: library(tseries) library(CausalImpact) santander <- get.hist.quote(instrument="san.mc", start= Sys.Date() - 365*3, end= Sys.Date(), quote="AdjClose", provider="yahoo", origin="1970-01-01", compression="d", retclass="zoo") bbva <- get.hist.quote(instrument="bbva.mc", start= Sys.Date() - 365*3, end= Sys.Date(), quote="AdjClose", provider="yahoo", origin="1970-01-01", compression="d", retclass="zoo") ibex <- get.hist.quote(instrument="^IBEX", start= Sys.Date() - 365*3, end= Sys.Date(), quote="AdjClose", provider="yahoo", origin="1970-01-01", compression="d", retclass="zoo") obito.botin <- as.Date("2014-09-10") cotizaciones <- cbind(santander, bbva, ibex) cotizaciones <- cotizaciones[!is.na(cotizaciones$AdjClose.ibex)] Con lo anterior, he bajado las cotizaciones diarias de las acciones del Banco de Santander, las del BBVA y la del IBEX 35 durante los últimos tres años. Eso deja la fecha de la muerte del Sr. Botín, aproximadamente, en la mitad. ...

20 de abril de 2016 · Carlos J. Gil Bellosta

Diapositivas de mi charla sobre feather

Las diapositivas de mi charla Birds of the same feather… en el grupo de usuarios de R de Madrid pueden verse/bajarse de aquí.

19 de abril de 2016 · Carlos J. Gil Bellosta

Visualización de k-medias y DBSCAN

En mi clase de aprendizaje no supervisado en el máster de ciencia de datos de la U-TAD mostré un vídeo en el que se ilustraba el funcionamiento del algoritmo de las k-medias. Una alumna encontró un recurso mucho mejor. Que trae, además, como bonus, una ilustración del funcionamiento de DBSCAN (véase también esto).

18 de abril de 2016 · Carlos J. Gil Bellosta

Ahora caRtociudad encuentra información administrativa relativa a un punto

Y lo hace así: library(caRtociudad) get_cartociudad_location_info(40.473219,-3.7227241, year = 2015) # $seccion # [1] "2807908148" # # $distrito # [1] "2807908" # # $provincia # [1] "Madrid" # # $municipio # [1] "Madrid" Esto da respuesta a una pregunta de Rubén. La función es en su mayor parte (salvo algunos retoques más estéticos que otra cosa míos) de Luz Frías, que hizo omiso caso de la inexistente docuentación del INE sobre su servicio de mapas y capturó directamente la petición que el portal de Cartociudad hace al servicio. ...

15 de abril de 2016 · Carlos J. Gil Bellosta

Diapositivas de mi charla "Datos, modelos y parámetros"

Las diapositivas de mi charla Datos, modelos y parámetros en el grupo Machine Learning Spain pueden verse/bajarse de aquí.

14 de abril de 2016 · Carlos J. Gil Bellosta

¿Quieres aprender R? ¡Matricúlate en mi curso en KSchool!

Si quieres aprender R, bien puedes matricularte en el curso que voy a impartir en KSchool. Es un programa de iniciación a R centrado en aquellos aspectos de R que más usan en la práctica diaria quienes trabajan con datos (y no son estadísticos duros). ¡Y ya vamos por la tercera edición! Tendrá lugar durante el mes de junio (y un poco de julio). Son diez sesiones de tres horas. Los detalles están aquí. ...

13 de abril de 2016 · Carlos J. Gil Bellosta

Este jueves, Feather en la reunión de usuarios de R de Madrid

Sí, hablaré de feather. Los detalles, aquí.

12 de abril de 2016 · Carlos J. Gil Bellosta