Casos de coronavirus en Madrid provincia: un modelo un poco menos crudo basado en la mortalidad (II)
[Nota: el código relevante sigue estando en GitHub. No es EL código sino UN código que sugiere todos los cambios que se te puedan ocurrir. Entre otras cosas, ilustra cómo de dependientes son los resultados de la formulación del modelo, cosa muchas veces obviada.]
Continúo con la entrada de ayer, que contenía más errores que información útil respecto a objetivos y métodos.
Los objetivos del análisis son los de obtener una estimación del número de casos activos de coronavirus en la provincia de Madrid. La de los casos oficiales tiene muchos sesgos por culpa de los distintos criterios seguidos para determinarlos a lo largo del tiempo. Sin embargo, es posible que los fallecimientos debidos al coronavirus, antes al menos de que se extienda el triaje de guerra, son más fiables. Eso sí, la conexión entre unos (casos) y otros (defunciones) depende de una tasa de letalidad desconocida. El objetivo del modelo es complementar la información de los casos notificados con la de defunciones.
Me apoyo, además, en esta entrada de blog en la que aprendemos que:
- Un contagiado, de morir, lo hace al cabo de unos 22 días de contagio (aunque en nuestro modelo, los sujetos morirán entre los días 6 y 22 sin distingos entre ellos).
- Un contagiado, de sanar, lo hace al cabo de unos 27 días.
- Un contagiado puede contagiar a otros durante todo el periodo hasta que al final muere o sana.
Los datos disponibles son los de fallecidos en Madrid por día tal como los provee Datadista. El modelo del modelo (es decir, uno que estás invitadísimo a criticar, reescribir, adaptar y, cómo no, mejorar), está disponible en GitHub.
El modelo que propongo tiene una limitación importante: todos los sujetos tienen la misma probabilidad de morir en caso de contagio. Por otro lado, he tratado de resolver el problema de la variabilidad de la tasa de transmisión (no va a ser igual en pleno 8M que ahora que estamos encerrados en casa) implementando algo parecido a un gaussian random field à la INLA para el famoso R0.
El hecho de incorporar la mortalidad observada infla los casos esperados de enfermos en comparación a un modelo más naif que solo tiene en cuenta lo que dicen las autoridades. Aunque la variabilidad, lo confieso, depende grandemente de las variantes del modelo usado.
Los gráficos que resumen el modelo (que tal vez vaya actualizando) pueden consultarse en GitHub. Las del día en que escribo son:
donde se comparan los casos oficiales (en rojo) con las estimaciones del modelo y
que muestra los casos estimados hoy.