noelmrtn

Modéliser l'épidémie de COVID-19

Depuis quelques semaines j'agrège quotidiennement dans une base SQL les données ouvertes et officielles de l'épidémie de COVID-19 en France. Celles-ci rassemblent des indicateurs très diverses tels que : les tests positifs, les hospitalisations, les réanimations, le nombre de reproduction du virus, et bien d'autres. De plus ces données sont transmises sous forme de séries temporelles et sont déclinées par critère : géographique (département, région), d'age ou de sexe. A la vue de ces détails, il me semble donc qu'en croisant ces différentes sources, il serait possible de modéliser l'épidémie au cours du temps, voir à quelques jours d'avance.

Je souhaite aborder différents modèles des plus naïfs aux plus complexes. Pour chacun d'eux je détaillerai ma démarche, ainsi que les limites qu'ils supposent. Aussi, ma formation en physique théorique ne remplace pas les connaissances d'un épidémiologiste ou d'un bio-mathématicien qui saura bien plus aisément justifier ou remettre en cause mes approches. Si d'aventure vous souhaitez me transmettre des remarques à ce sujet ou des propositions de collaborations, la magie d'internet vous permet de me contacter à l'adresse suivante : bonjour puis @ pour finir noelmrtn.fr.

1 — Modéliser les contaminations grâce au \(R_0\)

Le \(R_0\) ou taux de reproduction correspond au nombre moyen de personnes qui vont être infectés par un individu contagieux. Dans notre cas, nous nous concentrerons sur le Sars-Cov-2 qui développe la maladie COVID-19.

Pour le Sars-Cov-2 son facteur de reproduction ou \(R_0\) est estimée entre 2 et 6. Cependant, cette valeur peut varier en fonction du temps en raison de différents effets environnementaux : l'hygiène (masque, lavage de mains, etc.), le nombre de personnes côtoyées, les déplacements, les restrictions (fermeture des commerces, confinement). Ainsi la valeur du nombre de reproduction est mis à jour régulièrement par le Ministère de la Santé en se basant sur les données épidémiologiques.

1.1 — Estimer les futurs contaminés

Sachant la définition du \(R_0\), si \(N\) personnes sont positives au coronavirus, on estimera en moyenne qu'elles contamineront \(R_0 \cdot N\) personnes. Cependant, ce nombre de nouveaux de contaminés estimé ne va pas être visible au J+1 car la maladie dispose d'un temps d'incubation de plusieurs jours.

La durée d'incubation est estimée entre 5 et 6 jours selon l'Institut Pasteur, avec des cas extrêmes à 2 et 12 jours. Ainsi, pour modéliser le nombre de personnes infectés que va engendrer un sujet positif au cours du temps, il nous faut utiliser une distribution de probabilité. On définit \(P_P(d_p, d_c)\) comme la probabilité d'être positif à une date \(d_p\) après une après une contamination à une date \(d_c\).

En première approximation, le nombre de nouveaux positifs à une date \(d_p\) correspond à la somme des cas des déclarés en \(d_p\) issus de contaminations les jours précédents : \[ N(d_p) = \sum_{d_c = d_p - 15}^{d_p - 1} R_0(d_c) \, N(d_c) \, P_P(d_p, d_c) \,, \tag{1} \] où \(R_0(d_c)\) est la valeur du taux de reproduction le jour de la contamination et \(N(d_c)\) le nombre de positifs à la même date. Nous réduisons la somme aux 15 jours précédents la positivité, car selon les données de l'Institut Pasteur des cas antérieurs sont très rares.

Pour compléter cette approche, il faudrait aussi distribuer les contaminations autour de la date où le cas a été dépisté. En effet, les études montrent que la contagiosité du Sars-Cov-2 apparaît avant l'apparition des premiers symptômes. Cependant, je vais définir \(N(d)\) comme la moyenne glissante des cas positifs sur les 7 derniers jours, pour éviter d'observer des effets de périodicité dus aux jours non-ouvrés (ces artefacts ne représentent pas le comportement de la maladie, qui évidemment n'est pas moins contagieuse le dimanche). Ainsi, la moyenne glissante revient à prendre en compte qu'un cas est réparti uniformément sur la semaine passée, et revient à distrbuer son potentiel de contagion sur celle-ci. Une approche plus complète voudrait de définir une probabilité de contagiosité \(P_C(d_c, d_d)\) pour une contagion en \(d_c\) et un dépistage en \(d_d\), ce qui réécrit l'équation \((1)\) comme : \[ N(d_p) = \sum_{d_c = d_p - 15}^{d_p - 1} R_0(d_c) P_P(d_p, d_c) \sum_{d_d = d_c-3}^{d_c+3} N(d_d) \, P_C(d_c, d_d) \,, \tag{2} \] en se limitant à aux 3 jours précédents et suivant le dépistage de la maladie.

1.1.1 — Distribution Gaussienne

Comme première approche, je suppose que les positifs vont se déclarer en suivant une distribution Gaussienne autour de la valeur moyenne d'incubation \(\mu_i\). Cette distribution implique que l'apparition des cas est symétrique autour de la valeur moyenne d'incubation. Nous définissions donc la densité de probabilité comme : \[ p_G(\Delta t, \mu_i, \sigma) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(\Delta t - \mu_i)^2}{2 \sigma^2}\right) \,, \tag{3} \] avec \(\Delta t\) le temps entre l'infection et le dépistage positif, et \(\sigma^2\) la variance autour de la durée moyenne d'incubation.

Alors que nous avons défini la densité de probabilité après une durée \(\Delta t\) entre l'exposition et la positivité, il nous faut cette valeur à une date \(d_p\) pour une contamination en \(d_c\). Pour ce faire nous allons intégrer la densité de probabilité par morceaux : \[ P^{(G)}_{P}(d_p, d_c) = \int_{t = d_c}^{d_c + 1} p_G(d_p-t, \mu_i, \sigma) \, dt \,. \tag{4} \]

Enfin, en appliquant notre distribution en \((4)\) dans \((1)\) nous obtenons la modélisation suivante :

Modèle Gaussien Du 20 oct. 2020 au 28 dec. 2020