CausalImpact me ha complacido mucho

Estoy aquí analizando datos para un cliente interesado en estudiar si como consecuencia de uno de esos impuestos modennos con los que las administraciones nos quieren hacer más sanos y robustos. En concreto, le he echado un vistazo a si el impuesto ha encarecido el precio de los productos gravados (sí) y si ha disminuido su demanda (no) usando CausalImpact y me ha complacido mucho que la salida de summary(model, "report") sea, literalmente, esta: ...

27 de marzo de 2020 · Carlos J. Gil Bellosta

Densidades unidimensionales en R

Es un asunto tangencial que, además, se soluciona las más de las veces con density. Pero parece que tiene mucha más ciencia detrás. Por algún motivo, acabé un día en la página del paquete logspline, que ajusta densidades usando splines. Su promesa es que puede realizar ajustes de densidades tan finos como que está extraído de Polynomial Splines and their Tensor Products in Extended Linear Modeling, el artículo que le sirve de base teórica. El algoritmo subyacente es capaz, como da a entender el gráfico anterior, de graduar la resolución en la determinación de la densidad para representar debidamente tanto las zonas con detalles finos sin difuminarlos como las regiones más aburridas sin crear irregularidades espurias. ...

26 de marzo de 2020 · Carlos J. Gil Bellosta

Casos de coronavirus en Madrid provincia: un modelo un poco menos crudo basado en la mortalidad (II)

[Nota: el código relevante sigue estando en GitHub. No es EL código sino UN código que sugiere todos los cambios que se te puedan ocurrir. Entre otras cosas, ilustra cómo de dependientes son los resultados de la formulación del modelo, cosa muchas veces obviada.] Continúo con la entrada de ayer, que contenía más errores que información útil respecto a objetivos y métodos. Los objetivos del análisis son los de obtener una estimación del número de casos activos de coronavirus en la provincia de Madrid. La de los casos oficiales tiene muchos sesgos por culpa de los distintos criterios seguidos para determinarlos a lo largo del tiempo. Sin embargo, es posible que los fallecimientos debidos al coronavirus, antes al menos de que se extienda el triaje de guerra, son más fiables. Eso sí, la conexión entre unos (casos) y otros (defunciones) depende de una tasa de letalidad desconocida. El objetivo del modelo es complementar la información de los casos notificados con la de defunciones. ...

20 de marzo de 2020 · Carlos J. Gil Bellosta

Casos de coronavirus en Madrid provincia: un modelo muy crudo basado en la mortalidad

[Nota: si no sabes interpretar las hipótesis embebidas en el código que publico, que operan como enormes caveats, no hagas caso en absoluto a los resultados. He publicado esto para ver si otros que saben más que yo lo pulen y consiguen un modelo más razonable usándolo tal vez, ojalá, como núcleo.] [Edición: He subido el código a GitHub.] [El código de esta sección y los resultados contienen errores de bulto; consúltese el código de GitHub.] ...

19 de marzo de 2020 · Carlos J. Gil Bellosta

lme4 + simulate

Esta entrada es casi una referencia para mí. Cada vez tiro más de lme4 en mis modelos y en uno en concreto que tengo entre manos toca simular escenarios. Para lo cual, simulate.merMod. Véamoslo en funcionamiento. Primero, datos (ANOVA-style) y el modelo que piden a gritos: library(plyr) library(lme4) a <- c(0,0,0, -1, -1, 1, 1, -2, 2) factors <- letters[1:length(a)] datos <- ldply(1:100, function(i){ data.frame(x = factors, y = a + rnorm(length(a))) }) modelo <- lmer(y ~ (1 | x), data = datos) El resumen del modelo está niquelado: summary(modelo) # Linear mixed model fit by REML ['lmerMod'] # Formula: y ~ (1 | x) # Data: datos # # REML criterion at convergence: 2560.3 # # Scaled residuals: # Min 1Q Median 3Q Max # -3.6798 -0.6442 -0.0288 0.6446 3.3582 # # Random effects: # Groups Name Variance Std.Dev. # x (Intercept) 1.5197 1.2328 # Residual 0.9582 0.9789 # Number of obs: 900, groups: x, 9 # # Fixed effects: # Estimate Std. Error t value # (Intercept) -0.009334 0.412212 -0.023 En particular, ...

18 de marzo de 2020 · Carlos J. Gil Bellosta

Interacciones y selección de modelos

Desafortunadamente, el concepto de interacción, muy habitual en modelización estadística, no ha penetrado la literatura del llamado ML. Esencialmente, el concepto de interacción recoge el hecho de que un fenómeno puede tener un efecto distinto en subpoblaciones distintas que se identifican por un nivel en una variable categórica. El modelo lineal clásico, $$ y \sim x_1 + x_2 + \dots$$ no tiene en cuenta las interacciones (aunque extensiones suyas, sí, por supuesto). ...

16 de marzo de 2020 · Carlos J. Gil Bellosta

Seguimiento de los nuevos casos diarios de coronavirus en «tiempo real» con R

El código usado en Coronavirus: los nuevos casos diarios se estabilizan en muchos países menos en... pic.twitter.com/XOwxyccsZG — Carlos Gil Bellosta (@gilbellosta) March 10, 2020 es library(reshape2) library(ggplot2) library(plyr) url <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv" cvirus <- read.table(url, sep = ",", header = T) cvirus$Lat <- cvirus$Long <- NULL cvirus$Province.State <- NULL cvirus <- melt(cvirus, id.vars = "Country.Region") colnames(cvirus) <- c("país", "fecha", "casos") cvirus$fecha <- as.Date(as.character(cvirus$fecha), format = "X%m.%d.%y") tmp <- cvirus[cvirus$país %in% c("Italy", "Spain", "France", "Germany", "South Korea", "UK"),] foo <- function(x){ x <- x[order(x$fecha),] data.frame(fecha = x$fecha[-1], casos = diff(x$casos)) } res <- ddply(tmp, .(país), foo) res$país <- reorder(res$país, res$casos, function(x) -max(x)) res <- res[res$fecha > as.Date("2020-02-15"),] ggplot(res, aes(x = fecha, y = casos)) + geom_point(size = 0.5) + geom_line(alpha = 0.3) + facet_wrap(~país, scales = "free_y") + ggtitle("Coronavirus: new daily cases") + theme_bw() ggsave("/tmp/new_daily_cases.png", width = 12, height = 8, units = "cm")

10 de marzo de 2020 · Carlos J. Gil Bellosta

Seguimiento del coronavirus en "tiempo real" con R

Mi código (guarrongo) para seguir la evolución del coronavirus por país en cuasi-tiempo real: library(reshape2) library(ggplot2) url <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv" cvirus <- read.table(url, sep = ",", header = T) cvirus$Lat <- cvirus$Long <- NULL cvirus$Province.State <- NULL cvirus <- melt(cvirus, id.vars = "Country.Region") colnames(cvirus) <- c("país", "fecha", "casos") cvirus <- cvirus[cvirus$país %in% c("Italy", "Spain"),] cvirus$fecha <- as.Date(as.character(cvirus$fecha), format = "X%m.%d.%y") ggplot(cvirus, aes(x = fecha, y = casos, col = país)) + geom_line() tmp <- cvirus tmp$fecha[tmp$país == "Spain"] <- tmp$fecha[tmp$país == "Spain"] - 9 ggplot(tmp, aes(x = fecha, y = casos, col = país)) + geom_line() tmp <- tmp[tmp$fecha > as.Date("2020-02-14"),] ggplot(tmp, aes(x = fecha, y = log10(casos), col = país)) + geom_line() Los datos están extraídos de aquí, por si alguien quiere reemplazar casos por defunciones o recuperados.

9 de marzo de 2020 · Carlos J. Gil Bellosta

Una R-referencia con referencias para epidemiólogos circunstanciales

Lo del coronavirus nos ha convertido a todos en epidemiólogos circunstanciales. Casi ninguno de vosotros tenéis acceso a los datos necesarios para hacer cosas por vuestra cuenta, pero sí, tal vez gracias a esta entrada, las herramientas necesarias para ello. Podéis empezar por el paquete survellance de R, que implementa muchos de los métodos más modernos para la monitorización de brotes epidémicos. En particular, puede que os interese la función bodaDelay, intitulada Bayesian Outbreak Detection in the Presence of Reporting Delays, y que implementa una serie de métodos para estimar el número real de casos cuando las notificaciones de los positivos llegan tarde. O, en plata, si dizque hay 613 confirmados oficiales, ¿cuántos podría llegar a haber realmente? ...

9 de marzo de 2020 · Carlos J. Gil Bellosta

Intervalos de confianza, intervalos de predicción

Contexto: modelo <- lm(dist ~ speed, data = cars) Intervalos de confianza: head(predict(modelo, interval = "confidence")) # fit lwr upr #1 -1.849460 -12.329543 8.630624 #2 -1.849460 -12.329543 8.630624 #3 9.947766 1.678977 18.216556 #4 9.947766 1.678977 18.216556 #5 13.880175 6.307527 21.452823 #6 17.812584 10.905120 24.720047 Intervalos de predicción: head(predict(modelo, interval = "prediction")) # fit lwr upr #1 -1.849460 -34.49984 30.80092 #2 -1.849460 -34.49984 30.80092 #3 9.947766 -22.06142 41.95696 #4 9.947766 -22.06142 41.95696 #5 13.880175 -17.95629 45.71664 #6 17.812584 -13.87225 49.49741 Creo que la diferencia (y el significado) es claro. Para todos los demás, esto.

4 de marzo de 2020 · Carlos J. Gil Bellosta