Encuestas electorales: medios y sesgos (II)

Aquí quedó pendiente hablar de datos y métodos. Los primeros proceden de El Mundo. Solicité a Marta Ley, una coautora, los datos pero, antes de que contestase que sí (¡gracias!), me di cuenta de que podía obtenerlos solito: basta con capturar la llamada que el javascript local hace al servidor. ¿Métodos? Mejorables: se suaviza la intención de voto (con loess) y se estima la diferencia con un modelo de efectos mixtos, i.e., modelo<- lmer(delta ~ 1 + (1 | medio), data = misdatos) ¿Caveats? Veo dos: el primero, que loess suaviza teniendo en cuenta también observaciones futuras. Los autores de las encuestas no ven la verdad: solo los resultados de las encuestas previas. Debería haber usado como referencia la mejor predicción basada en observaciones pasadas. El segundo, que los porcentajes de los distintos partidos suman un total. Los sesgos no son independientes y yo los modelo como tales. ...

9 de mayo de 2016 · Carlos J. Gil Bellosta

Un corpus de textos en español para NLP

Mañana doy clase de NLP en el máster de ciencia de datos de KSchool. Para lo que necesito un corpus decente. Los hay en inglés a tutiplén, pero las hordas de lingüistas hispanoparlantes que se pagan los vicios a costa de tajadas de mi IRPF han sido incapaces de colgar ninguno en español que pueda ubicar y reutilizar. Necesito una colección de textos en español con ciertas características: Tener un cierto tamaño (¿unas cuantas centenas de ellos?) Que no sean demasiado grandes (¿unos cuantos párrafos?) Ser medianamente homogéneos. Estar bien escritos, sin faltas de ortografía, etc. Así que he decidido poner en valor otra de esas onerosas reliquias de la cultura analógica y de letras que es el Museo Thyssen; en particular, las descripciones que constan en las fichas de los cuadros. De hecho, corriendo esto: ...

6 de mayo de 2016 · Carlos J. Gil Bellosta

Encuestas electorales: medios y sesgos (I)

Existen las encuestas electorales. Las publican medios. Algunos, se dice, tienen sesgos. Lo he estudiado y a continuación muestro resultados. Para el PP: Para el PSOE: Para Podemos y cía: Para Ciudadanos: Para IU: En otra entrada, datos y métodos. Hoy solo adelanto que el eje horizontal mide puntos porcentuales y que las encuestas se remontan a enero de 2015.

5 de mayo de 2016 · Carlos J. Gil Bellosta

Transparencia, libertad y carcas (de antaño y hogaño)

Me cuenta Google que Hegel defendía eso de que la historia es el relato del desarrollo de la libertad humana (o algo parecido y en alemán). Y si algo ha de desarrollarse (y, además, al lento ritmo de la historia) en lugar de extenderse como las epidemias en esas pelis de catástrofes, es porque ha de vencer resistencias. Recuerdo las de antaño: no ha de confundirse libertad con libertinaje, un concepto que treinta años después sigo sin entender. Así nos decían los carcas allá por los ochenta. ...

4 de mayo de 2016 · Carlos J. Gil Bellosta

¡Haced click ya!

En esto.

3 de mayo de 2016 · Carlos J. Gil Bellosta

90 millones de euros en tecnologías del lenguaje

El gobierno español ha anunciado (ya hace un tiempo) un plan de impulso a las tecnologías del lenguaje con una dotación de 90 millones de euros (lo que costó el fichaje de Ronaldo). Veremos en unos años qué ha dado de sí la cosa. En particular, si habrá permitido que los usuarios de R dispongamos de herramientas libres (porque de momento, ya están cobrándonoslas vía Agencia Tributaria) para hacer nuestros cacharreos. O si, por contra, unos espabiladillos habrán sabido ordeñar la vaca con la excusa de desarrollar proyectos que acaben en una memoria que presentar en el ministerio de turno para justificar la subvención y unos zips en los discos duros de los ordenadores del fondo. Esas herramientas y proyectos, vamos, hechos a desgana y que, una vez cortado el chorro de la subvención, caen en el olvido. ...

29 de abril de 2016 · Carlos J. Gil Bellosta

Cómo ir de Regumiel de la Sierra a Montejo de la Vega de la Serrezuela

Pues así: Continúe por CALLE SAN JUAN DE RABANERA Gire justo a la izquierda por CALLE DIPUTACION Gire justo a la derecha por CALLE CABALLEROS Gire ligeramente a la izquierda por PLAZA RAMON Y CAJAL Gire a la izquierda por PLAZA MARIANO GRANADOS Gire a la izquierda por PASEO ESPOLON (EL) Gire ligeramente a la izquierda por AVENIDA VALLADOLID Gire ligeramente a la izquierda por N-122 Continúe por A-11 Continúe por N-122 Gire ligeramente a la izquierda por CARRETERA SIN NOMBRE Continúe por N-122 Gire a la izquierda por BU-924 Continúe por N-122 Continúe por BU-930 Gire a la derecha por BU-940 Continúe por CALLE FELIPE GARCIA Continúe por BU-940 Gire ligeramente a la derecha por BU-932 Gire a la izquierda por CALLE PAJARES Continúe por BU-V-9321 Continúe por SG-V-9321 Continúe por road Continúe por SG-V-9321 Gire a la derecha por CALLE BAÑUELOS O al menos, eso dice la novísima función caRtociudad::get_cartociudad_route. Que, además (y además de otras cosas) te dice que, en coche, tardarías 6969024… ¿milisegundos? ...

29 de abril de 2016 · Carlos J. Gil Bellosta

Rmarkdown en el panel principal de Shiny

Comparto con mis lectores un experimento de esta misma mañana: cómo insertar en el panel principal de Shiny un documento generado con Rmarkdown. Que, por supuesto, cambia según se seleccionen unos u otros parámetros en Shiny. Es un ejemplo sencillo, estúpido, sin comentarios, desordenado y, en resumen, muy mejorable. Puede descargarse de aquí. El truco es de los sucios: En server.R se guardan los parámetros que envía ui.R en un fichero de intercambio con save. La plantilla del .Rmd lee esos parámetros durante el proceso de compilación (con rmarkdown::render). ui.R pinta el html con htmlOutput. Y, a partir de la plantilla, ¡a crecer!

28 de abril de 2016 · Carlos J. Gil Bellosta

Gráficos interactivos con R: un resumen

Aquí encontrará el lector un resumen de herramientas para crear gráficos interactivos con R que, por referencia, discute ggvis: desarrollados por los creadores de ggplot2 rCharts: una interfaz de R con una serie de librerías de javascript para crear gráficos plotly: hace magia para añadir interactividad a gráficos creados con ggplot2 (y otros) googleVis: que permite utilizar Google Chart Tools desde R

27 de abril de 2016 · Carlos J. Gil Bellosta

La ciencia: dos puntos de vista

La escala de grises media entre un blanco y un negro, las dos posturas frecuentemente identificables que expongo. Postura uno: ciencia como fin en sí mismo. Los científicos reclaman a través de un bucle burocrático recursos a las clases productivas. Si alguien levanta la ceja alegan eso de que sin ciencia no hay futuro y de preguntárseles por evidencias del impacto social de su quehacer responden, a lo más, con evidencia anecdótica. ...

26 de abril de 2016 · Carlos J. Gil Bellosta