Ese es el nombre agramatical de una nueva consejería pergeñada por una red neuronal recurrente que he ajustado usando un año de BOEs.
El código, adaptado de aquí y sustancialmente mejorado, es
library(mxnet) batch.size <- 32 seq.len <- 64 num.hidden <- 128 num.embed <- 8 num.lstm.layer <- 1 num.round <- 1 learning.rate <- 0.1 wd <- 0.00001 clip_gradient <- 1 update.period <- 1 make.data <- function(dir.boe, seq.len = 32, max.vocab=10000, dic = NULL) { text <- lapply(dir(dir.
Igual hay alguien que busca un proyecto interesante de análisis / visualización de datos. Tengo uno en mente para el que ando sin tiempo. Así que lo sugiero aquí por si alguien quiere hincarle el diente.
Consiste en:
Bajarse el BOE hasta cuando hay texto en formatos decentes (principios de los 90, si no recuerdo mal) Extraer los 1,2,3,¿4?-gramas Construir algo parecido a esto Ponerme en la letra chiquita de los créditos y pagarme una cerveza ¿O no es interesante?
El artículo 8 de la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público dice, (con mi subrayado):
La reutilización de la información de las Administraciones y de los organismos del sector público a los que se refiere el artículo 2 de la presente ley podrá estar sometida, entre otras, a las siguientes condiciones generales: a) Que el contenido de la información no sea alterado. b) Que no se desnaturalice el sentido de la información.
El otro día publiqué código para bajar el BOE completo. Pero no conté qué me llevó a escribirlo.
El motivo es que, en un tiempo en que andaba menos ocupado que ahora, quise ver si se podía medir la complejidad de la ley. En realidad, la de los textos legales. ¿Debería haber motivo para que estos sean más impenetrables —de serlo— que un manual de Python? En eso consistía ese proyecto en el que acabé no embarcándome.
Rescato aquí para futura o ajena referencia un pedazo de código que utilicé un día para un proyecto que se abortó y que tenía que ver con el análisis del texto del BOE. Reza así:
setwd("~/boe/boes") library(RCurl) h = getCurlHandle() for( i in 1:3231){ mi.url <- paste("http://www.boe.es/diario_boe/xml.php?id=BOE-A-2013-", i, sep = "") nom.fich <- paste("2013-A-", formatC(i, width = 6, format = "d", flag = "0"), ".xml", sep = "") res <- getURI(mi.