R | Carlos J. Gil Bellosta

¿Reemplaza pxmake a pxR? Espero que sí (y, además, que ninguno de los dos haga falta pronto)

De pxR ya he hablado alguna vez. Pueden verse las entradas que le he dedicado aquí. pxR es un paquete coral de R que promoví, en el que escribí la mayor parte del código y que aún mantengo muy renuentemente. Permite leer y crear ficheros con el formato px, que utilizan todavía algunos servicios de estadística pública por el mundo. Eso no quita que “antediluviano” sea el adjetivo que mejor lo describe: fue creado antes de la popularización de los formatos modernos y, no en vano, la última de las entradas que le dediqué allá por 2023 se titulaba ¿Dejar morir pxR? ...

Positron

El 1 de marzo de 2011 escribí esto anunciando un nuevo IDE multiplataforma (¡qué falta hacía!) para R. Trece años más tarde, la misma empresa nos provee de otro bien público, Positron. Aún no he podido instalar la beta pública en mi Arch Linux por un conflicto con VS Code —sí, Positron parece ser un VS Code tuneado—, pero prometo una captura de pantalla una vez se arregle el asunto. En tanto, ¿qué espero de Positron? No otra cosa que la facilidad que ofrece RStudio para el análisis informal e interactivo de datos. Ni los IDEs habituales ni los notebooks ofrecen un mecanismo ágil para la exploración: ambos están enfocados en ofrecer un producto final cerrado: un software que funcione en el primer caso, un documento en el segundo. Si Positron nos permite hacer con Python lo que RStudio con R —y lo que he visto por ahí apunta en esa dirección: Positron parece una reconstrucción de RStudio sobre una plataforma distinta—, el mundo será un poquito más bello.

modelplotr

Si leéis algo y tropezáis con un gráfico como es que lo que lo rodea vale la pena. En este caso, lo que lo rodea es este texto que algún LLM me ha resumido así: El texto analiza la importancia de evaluar el valor comercial de los modelos predictivos y las limitaciones de las métricas de evaluación tradicionales como la curva ROC. Presenta cuatro gráficos de evaluación (ganancias acumuladas, elevación acumulada, respuesta y respuesta acumulada) y tres gráficos financieros (costos e ingresos, ganancias y retorno de la inversión) que pueden ayudar a explicar el valor comercial de un modelo. El texto proporciona ejemplos de cómo utilizar el paquete R modelplotr para crear estos gráficos.

Cartogramas "de Dorling"

Motivado por esta entrada construí usando muns <- st_read("data/CifraPob2023.shp") peninsula <- muns[muns$ccaa != 'Canarias',] plot(peninsula["pob_23"]) peninsula <- st_transform(peninsula, 25830) peninsula_dorling <- cartogram_dorling( x = peninsula, weight = "pob_23", k = 0.2, itermax = 100) plot(peninsula_dorling["pob_23"]) sobre unos datos que ya no recuerdo de dónde bajé. La única línea no autoexplicativa del código es peninsula <- st_transform(peninsula, 25830) que transforma las coordenadas originales de los datos en coordenadas proyectadas (o, más bien, las coordenadas proyectadas que rigen en la zona peninsular). El 25830 en cuestión me lo chivó un LLM. Antes de usar cartogram_dorling pensé cómo podría programar algo parecido a mano. La primera idea que a uno se le ocurre es la programación lineal —que, en este caso no sería lineal sino… ¿cuadrática?—; pero, casi seguro, el tamaño del problema con todas las restricciones potenciales lo hace computacionalmente inviable. Casi seguro, hay que recurrir a heurísticas para obtener una solución razonable. ...

Nueva (y espero que última) versión de MicrodatosEs

El otro día visité el museo de ciencias naturales de Madrid. Constaté que aún no he perdido mi extraño interés por esas pocas especies que dizque convivieron con los dinosaurios. MicrodatosEs es casi una criatura de esa época. No tanto, pero casi. Me sorprende, de hecho, que tuviese algún usuario; que este, además, encontrase un bug y que, finalmente, diese noticia de él. La versión que lo soluciona es la que ahora figura y ocupa espacio en CRAN. ...

Basta una línea para mejorar tus mapas; pero, ¿cuál?

A la vista de los mapas pocos habrán que no prefieran el de la derecha. Los mapas están extraídos de la entrada Improve your maps in one line of code changing map projections, cuyo título ha sido elegido muy acertadamente en tanto que los mapas han sido construidos usando gd_n2_main_laea <- gd_n2_main %>% st_transform(crs = 3035) a <- gd_n2_main %>% ggplot() + geom_sf(fill = "#F48FB1", color = NA)+ geom_sf(data = bord, color = "#C2185B", size = .5)+ coord_sf(crs = 3857) b <- gd_n2_main_laea %>% ggplot() + geom_sf(fill = "#DCE775", color = NA)+ geom_sf(data = bord, color = "#AFB42B", size = .5) library(patchwork) a + b + plot_annotation(tag_levels = "A") y, por lo tanto, solo difieren en la línea ...

¿Dejar morir pxR?

¿Dejar morir pxR? He ahí la cuestión. pxR es un paquete de R en CRAN en el que figuro como mantenedor. Es un subproducto de mis antiguas inclinaciones hacia el procomún. Me fue útil para alguna que otra actividad inútil. El paquete sirve para importar a R datos en el formato Px. Este formato fue concebido en una época en la que aún no existían cosas mejores y mejor pensadas —XML, JSON, datos tidy, etc.—, los ficheros se intercambiaban en disquette (¿se escribía así? ya no recuerdo bien) y casi todo el mundo usaba Windows. Era lo que había y hay que entenderlo; de otra manera, no se comprende casi ninguna de las decisiones de diseño del formato. Que, por otra parte, parece basado en la siguiente pareja de principios funcionales: ...

Nueva "edición" de mi libro de R

Acabo de subir —que suena menos pomposo que publicar— la primera versión de la segunda edición de mi libro de R. Los cambios con respecto a la primera son: He migrado a Quarto. Algunas correcciones, sobre todo en bloques de código que dejaron de funcionar por hacer llamadas a servicios que han desaparecido (o, como Google Maps, han cambiado el método de suscripción). Algún material nuevo, sobre todo relacionado con dplyr y el tidyverse. Aun asi, el libro sigue siendo fundamentalente agnóstico con respecto a ese dialecto. He incorporado algunas mejoras sugeridas por algún amable lector en el pasado. He comenzado —solo comenzado— a preparar soluciones para los casi 200 ejercicios planteados en el libro. El enlace, ahora sí, aquí. ...

Curso en línea: "R para visualización de datos"

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—. (Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)

Curso en línea: "R para visualización de datos"

Entrada breve solo para anunciar el curso/libro/manual gratuito y en línea R para visualización de datos de Luz Frías —de quien todo lo que diga será poco—. (Hubo un tiempo en el que única tecnología disponible para hacer llegar conocimiento a la gente era escribiendo libros. Había libros buenos y libros malos pero todos costaban dinero. Así que algunos escribían reseñas sobre ellos que permitían al potencial lector hacerse una idea de si valía o no la pena hacerse con él. Pero la distribución gratuita de contenido por internet, debería hacer morir el viejo género del escribir sobre lo que otros han escrito. Basta aquí una recomendación —encarecida— y el enlace para que el interesado lo hojee en menos tiempo que costaría leer lo que sobre él pudiera contarse.)