Series Temporales

gam vs rrff (y, en general, modelos generativos vs cajas negras)

Para modelizar una serie temporal, y simplificándolo mucho, ¿gam o rrff? Como todo, depende. El otro día oí de un caso en el que los segundos vencían a los primeros claramente. Natural.

Hay contextos con una estructura matemática clara y potente. En particular, muchos en los que trabajo actualmente. ¿Para qué usar una herramienta genérica cuando cuento con una específica? Esos datos, mis datos, exigen estructura matemática.

Luego hay otros casos en los que uno se lanza al río. Luego uno siempre quiere invertir el proceso y ver qué carajos está ocurriendo con los datos (véase esto).

Mortalidad en carretera (contada de una manera distinta)

Con motivo de fin de año se ha hablado de fallecidos en accidentes de tráfico como por ejemplo en El Mundo o en El País. Y sí, parece que el número observado de muertos ha aumentado.

Lo cual es mucho menos relevante de lo que se da a entender. Si tiras una moneda al aire 100 veces y sacas 48 caras y luego repites el experimento, podrías sacar 53 (y habría aumentado el número observado de caras) o 45 (y habría disminuido). Lo relevante es si ha cambiado o no la probabilidad de cara de la moneda. De lo cual, y volviendo al caso de la siniestralidad, ya me ocupé en su día.

Ey, ¡en esta serie hay más muertos que en Juego de Tronos!

La serie en cuestión es esta (abridla en otra pestaña para verla en la plenitud de su definición):

Con tiene todas (explicar por qué no son todas sería complicado, pero se puede dar el cuantificador casi por bueno) las defunciones (diarias) en España desde la fecha indicada.

Los datos brutos están en la figura superior. Las tres siguientes tienen la descomposición estacional, la tendencia y los residuos tal como los estima stl.

Dizque al sexto mes... pero ¿y los datos?

He leído esto, que trata de lo distinta que es

a la izquierda y a la derecha de la línea roja punteada.

La historia contada desde las posterioris basadas en datos difiere de la apriorística (recordad: ideología = priori). En concreto

Reconoceréis una aplicación de causalImpact y lo que significa el gráfico está comentado en todas partes.

Código y datos, por mor de la reproducibilidad, aquí.

Consultando el número de visitas a páginas de la Wikipedia con R

R

Hace un tiempo probé el paquete wikipediatrend de R ya no recuerdo para qué. Desafortunadamente, el servicio que consulta debía de estar caído y no funcionó. Ahí quedó la cosa.

Una reciente entrada de Antonio Chinchón en su blog me ha invitado a revisitar la cuestión y ahora, al parecer, stats.grok.se vuelve a estar levantado. Por lo que se pueden hacer cosas como:

visitas <- wp_trend("R_(lenguaje_de_programaci%C3%B3n)",
    from = "2010-01-01", to = Sys.Date(),
    lang = "es")

[Aquí ahorro al lector unos párrafos de pésima literatura.]

Detrás de la detección de anomalías en series temporales

Por azares, me ha tocado lidiar con eso de la detección de anomalías. Que es un problema que tiene que ver con dónde colocar las marcas azules en

anomaly_detection

El anterior es el gráfico construido con los datos de ejemplo del paquete AnomalyDetection. De hecho, así:

library(AnomalyDetection)

data(raw_data)
res <- AnomalyDetectionTs(raw_data,
    max_anoms=0.02,
    direction='both', plot=TRUE)
res$plot

Aparentemente, AnomalyDetectionTs hace lo que cabría sospechar. Primero, una descomposición de la serie temporal, tal como

Los límites que la varianza impone a las energías renovables

El asunto de las energías renovables, a partir de cierto umbral de capacidad instalada, se convierte en uno de gestión de la varianza.

eolica_alemania

En este artículo se discuten esos problemas para el caso alemán. No trata tanto el problema de la gestión de los picos (particularmente los intradiarios) como de la variabilidad estacional, dentro del año, de la producción eólica y solar, que no se corresponde con la del consumo.

Predicciones de series temporales a gran escala y en paralelo con R

En el artículo Large-Scale Parallel Statistical Forecasting Computations in R encontrarán los interesados información sobre cómo está usando Google R para realizar predicciones de series temporales a gran escala usando cálculos en paralelo.

El artículo tiene dos partes diferenciadas. Por un lado está la que describe los métodos que usan para realizar predicciones sobre series temporales. Parecen sentir cierto desdén por la teoría clásica, comprensible dado el gran número de series temporales que tratan de predecir y el mimo —entiéndase como uso de materia gris— que exige aquella. Prefieren un proceso en el que el coste sea esencialmente computacional: construir predicciones usando gran número de modelos distintos y promediándolos después para obtener resultados que, aunque lejos del óptimo para cada caso particular, resultan adecuados para su fin.

Para los expertos en series temporales (II)

El otro día propuse un ejercicio de series temporales, el análisis de una serie temporal bastante conocida. Entre otras cosas, para ver si alguien la reconocía. O si daba con un análisis más o menos adecuado de la misma. Y, ¡vaya!, no he tenido ninguna respuesta…

De todos modos, antes de realizar mi primera entrada pregunté a un amigo experto en la materia para ver si resultaba demasiado evidente. Le pedí expresamente que no perdiese mucho tiempo con ella. Y observó algunos patrones interesantes (como que el número de valores distintos en la serie no excedían la treintena) así como una cierta estructura de correlación.

Para los expertos en series temporales

El otro día, en una bitácora de la que he perdido la referencia, el autor retaba a sus lectores a desentrañar los secretos de una serie temporal famosa. La había desdibujado sometiéndola a una transformación lineal para evitar que fuese identificada en Google.

Lo emulo hoy aquí y dejo a mis lectores esta vez una serie temporal (igualmente desdibujada y que diría yo que famosa) por si alguno, desocupado, quiere hincarle el diente y desentrañar sus misterios.