Introduction
Il existe un certain nombre d'indicateurs qui peuvent s'avérer utiles pour surveiller l'évolution et les répercussions d'une pandémie comme celle de la COVID-19 en ce qui a trait aux décès. La surmortalité est considérée comme un meilleur indicateur pour surveiller l'ampleur de la pandémie et effectuer des comparaisonsNote1Note2. La surmortalité désigne [traduction] « la mortalité supérieure à ce qui serait attendu selon le taux de mortalité sans crise au sein de la population visée »Note3. La surmortalité comprend aussi les effets collatéraux de la pandémie, comme les décès survenus en raison de la surcharge du système de soins de santé, ou les décès évités en raison de la diminution de la pollution atmosphérique ou de la réduction de la circulationNote4Note5Note6.
Estimation de la surmortalité
La mesure de la surmortalité présente certaines difficultés, la plus grande étant celle d'estimer correctement un certain niveau de décès attendus qui se produiraient en l'absence de COVID-19 comme point de comparaison pour le nombre de décès actuelNote1. En effet, un décès est un événement rare sur le plan statistique et le nombre annuel de décès peut beaucoup varier, d'une année à l'autre, tout particulièrement dans les provinces et les territoires moins peuplés. De plus, le nombre de décès annuel peut être influé par des changements dans la composition de la population, notamment en ce qui a trait à l'âge, et par des changements dans les taux de mortalité (p. ex. amélioration de la mortalité).
Une deuxième difficulté est celle de recueillir les données les plus à jour possible sur les décès. Au Canada, les données sur les décès sont recueillies par les bureaux provinciaux et territoriaux de la statistique de l'état civil. La capacité de fournir rapidement ces données à Statistique Canada varie grandement d'une région à une autreNote7. Par ailleurs, il est possible que la pandémie impose aux établissements de soins de santé et autres établissements un fardeau qui perturbe le processus de collecte des données, mais il est également possible qu'elle accroisse la pression pour accélérer leur collecte. En raison de la couverture incomplète du nombre de décès, il s'avère difficile de tirer des conclusions quant à l'ampleur de la surmortalité au Canada pouvant être attribuée à la pandémie de COVID-19.
Depuis le 13 mai 2020, Statistique Canada diffuse des chiffres provisoires sur la surmortalité pour 2020Note8. Bien que les données soient diffusées à des fins de transparence, et qu'il soit entendu qu'elles seront surveillées et mises à jour régulièrement, l'incertitude associée à l'estimation du nombre de décès attendus et à la couverture incomplète du nombre de décès fait en sorte qu'il est difficile de tirer des conclusions sur l'ampleur de la surmortalité au Canada attribuable à la pandémie de COVID-19. Des modèles statistiques sont utilisés pour obtenir des estimations du nombre de décès ajustées pour tenir compte du caractère incomplet des données et pour estimer la mortalité attendue non liée à la COVID-19. Les estimations de l'excédent de décès (surmortalité) sont obtenues en comparant le nombre de décès ajusté avec le nombre de décès attendus modélisé pour toutes les semaines en 2020 jusqu'au 4 juillet. Une description des modèles figure à la section suivante.
Méthodologie
Cette section décrit les différents modèles utilisés pour l'estimation du nombre de décès attendus et l'ajustement du nombre de décès observé.
Estimation de la mortalité attendue
Le modèle utilisé pour estimer le nombre de décès attendu est fondé sur un modèle de régression quasi-Poisson adapté en fonction des données hebdomadaires sur le nombre de décès. Il a été adapté d'un algorithme de détection des maladies infectieuses mis au point par Farrington et coll.Note9, qui a été largement utilisé dans le contexte de surveillance de la mortalité au cours des dernières annéesNote10. Des modifications ultérieures à l'algorithme, mises en œuvre à l'origine par Noufaily et coll.Note11 et améliorées davantage par Salmon et coll.Note12, visant à résoudre certaines limites du modèle ont aussi été adoptées aux fins de la présente.
Le modèle a été mis en œuvre dans le langage de programmation R avec l'utilisation de la trousse de surveillanceNote12, et a été appliqué aux nombres de décès hebdomadairesNote13 (toutes causes) s'étendant sur une période de référence d'approximativement quatre ans (2016 à 2019). Les chiffres historiques sont une combinaison de données sur les décès tirées de la Base canadienne de données sur l'état civil (2016 à 2018) et de données provisoires sur les décès (2019) tirées du Système national d'acheminement (SNA). Des estimations des décès attendus ont été calculées pour toutes les semaines de 2020 jusqu'à la semaine se terminant le 4 juillet 2020.
Un modèle linéaire généralisé Poisson surdispersé ayant une tendance temporelle linéaire et un facteur saisonnier est adapté aux données. La composante saisonnière vise à représenter la tendance attendue à travers les semaines qui se répète d'une année à l'autre et consiste en un terme de spline d'ordre 0 avec 11 nœuds, représentant 10 périodes distinctes à l'intérieur d'une année donnéeNote14. Les 10 périodes sont séparées entre une période unique de 7 semaines correspondant à la semaine actuellement estimée, et les 3 semaines précédentes et subséquentes, ainsi que 9 autres périodes de 5 semaines correspondant au reste de l'année.
Le modèle peut être exprimé en utilisant la configuration linéaire logarithmique suivante :
où est le nombre attendu à la semaine t, est le coefficient correspondant à la tendance temporelle linéaire et le facteur saisonnier pour la semaine t, c(t) indiquant la période de l'année à laquelle la semaine t appartientNote12.
Le modèle quasi-Poisson assouplit l'hypothèse Poisson selon laquelle la variance doit être équivalente à la moyenne. Plutôt, , et , où le paramètre de surdispersion est estimé à partir du modèle utilisant la formule :
où n est le nombre de semaines utilisées dans la période de référence, et p est le nombre de paramètres dans le modèle. Une valeur de indique qu'il n'y a aucune surdispersion (modèle Poisson régulier), et indique une sous-dispersion (une rare occurrence, de là la condition pour ). Un poids w est attribué à chacune des observations historiques, en fonction de la valeur de son écart-type dans un modèle non pondéré. Cela réduit l'influence des valeurs aberrantes possibles sur l'estimation du nombre attendu et de l'intervalle de prévision correspondant.
Finalement, un intervalle de prévision de 95 % est calculé pour le nombre attendu à la semaine t en présumant que le nombre suit une répartition binomiale négative avec une moyenne et un paramètre de taille établi à .
Ajustement du nombre de décès pour tenir compte du caractère incomplet des données
Les délais plus ou moins longs de déclaration auront nécessairement une incidence sur l'analyse des décès par date (ou semaine) de décès. Cela nécessite une correction appropriée des données observées pour estimer le nombre de décès qui se sont produits, mais qui n'ont pas encore été déclarés. Les données reçues par Statistique Canada par l'intermédiaire du SNA comportent des renseignements sur le jour du décès, la date de la déclaration et certaines données démographiques (p. ex. âge et sexe).
Les délais de déclaration sont susceptibles de changer avec le temps, et tout particulièrement en période de pandémie. C'est pourquoi le modèle estime des facteurs de correction qui sont fondés sur des données récentes, et utilise différentes périodes pour les semaines pendant la pandémie et celles qui la précèdent. Le nombre de décès hebdomadaires survenus entre le 29 décembre 2019 et le 22 mars 2020 a été ajusté selon la répartition des délais de déclaration estimés à partir des enregistrements de décès reçus avant le 22 mars 2020. Le nombre de décès pour les semaines du 22 mars au 4 juillet a été ajusté selon les délais de déclaration observés du 22 mars au 7 août. Dans certaines régions, le degré d'exhaustivité des données sur les enregistrements de décès peut être très faible pour les semaines les plus récentes. Les chiffres ajustés des estimations hebdomadaires sont fournis seulement pour les semaines où les taux de couverture estimés respectent un seuil minimumNote15.
La méthode utilisée pour l'ajustement des décès observés a été développée par Brookmeyer et DamianoNote16 originalement pour l'estimation de comptes journaliers. Elle a été adaptée ici afin de produire des estimations sur une base hebdomadaire. Le modèle a été mis en œuvre dans un code envoyé par les auteursNote17 dans le langage de programmation R. Le nombre de décès ayant eu lieu la semaine t et déclarés la semaine t+d (c.-à-d. avec un délai de d semaines), , est modélisé à l'aide du modèle de régression de Poisson suivant :
où représente le nombre provisoire déclaré transformé par log à la semaine t, et est le terme qui représente l'ajustement pour la sous-déclaration. Il convient de noter que la portion de droite de l'équation est dans une échelle logarithmique de sorte que l'ajustement de sous-déclaration peut être vu comme un ajustement multiplicatif dans l'échelle d'origine. Le nombre ajusté de décès ayant eu lieu la semaine t est alors le nombre de décès observés divisé par la probabilité estimée que le délai de déclaration du décès soit inférieur ou égal à un maximum de x semaines, x+t étant la dernière semaine possible pour observer les décès, autrement dit x est le délai maximal dans l'ensemble de données moins la semaine des décès t :
Nombre de décès ajustés (t)=
Estimation de la surmortalité
Le calcul des estimations hebdomadaires de l'excédent de mortalité se fait en soustrayant le nombre de décès attendus en l'absence du pathogène (COVID-19) du nombre de décès observé (et ajusté pour tenir compte des délais de déclaration) pour la période visée. La méthode comprend les étapes suivantes :
- Application des modèles quasi-Poisson au nombre de décès hebdomadaire à l'échelle provinciale et territoriale du 1er janvier 2016 au 1er janvier 2020 pour obtenir une mesure de référence de la mortalité attendue.
- Projection des comptes de décès attendus en 2020 jusqu'à la semaine se terminant le 4 juillet.
- Ajustement du nombre de décès hebdomadaires survenus entre le 29 décembre 2019 et le 22 mars 2020 selon la répartition des délais de déclaration estimés à partir des enregistrements de décès reçus avant le 22 mars 2020, selon le modèle Poisson.
- Ajustement du nombre de décès hebdomadaires survenus entre le 22 mars et le 4 juillet 2020 selon la répartition des délais de déclaration estimés à partir des enregistrements de décès reçus entre le 22 mars et le 7 août, selon le modèle Poisson.
- Ajustement supplémentaire au nombre hebdomadaire de décès ajustés pour la période allant du 22 mars au 4 juillet. Ce facteur de correction est le rapport du nombre de décès ajusté pour la semaine se terminant le 21 mars estimés à partir des enregistrements de décès reçus avant le 22 mars et le nombre non ajusté de décès pour cette même semaine.
- La surmortalité est définie comme la mortalité observée ajustée moins la mortalité attendue pour la période d'intérêt.
Des intervalles de prédiction de 95% ont été calculés pour les estimations de la surmortalité en combinant les variances des deux modèles. Pour ce faire, une distribution empirique de l'excédent de décès est calculée en combinant aléatoirement 10,000 estimations (répliques) de chaque modèle, selon la méthode dite de 'bootstrap'. Les bornes de l'intervalle de confiance représentent alors des quantiles de cette distribution empirique. La méthode assume l'indépendance entre les deux processus que sont la mortalité hebdomadaire et l'enregistrement des décès, mais ne pose aucune hypothèse quant à la distribution statistique des valeurs de surmortalité.
Validation
Le calcul de la surmortalité exige d'estimer deux processus hautement incertains : combien de décès devraient se produire au cours d'une semaine donnée, et combien de décès ont eu lieu qui n'ont pas encore été enregistrés au moment de l'estimation. L'utilisation de la modélisation pour estimer la surmortalité vise à améliorer l'estimation, mais aussi, plus important encore, à démontrer l'incertitude de ces processus.
La validation des modèles a tendance à démontrer qu'ils donnent de bons résultats à de nombreux égards. Les nombres attendus reproduisent généralement les variations saisonnières observées au cours d'une année et suivent l'augmentation observée au cours des années précédentes (situation principalement attribuable à la croissance démographique, surtout chez les personnes âgées). Cependant, parce qu'ils ont été saisis sur des périodes de plusieurs semaines, ces variations saisonnières ont tendance à être aplanies dans une certaine mesure. Par exemple, l'application de modèles de série temporelle aux nombres hebdomadaires a tendance à produire des pics plus définis, en particulier au mois de janvier (situation probablement attribuable aux éclosions de grippe). Une autre limite est liée à la manière de calculer les intervalles de prévision. Dans le modèle utilisé pour estimer le nombre de décès attendu, on présume que ce dernier suit une distribution binomiale négative, qui est bien adaptée à la modélisation des données discrètes sur les nombres qui sont susceptibles de présenter une surdispersion. Cependant, les bornes des intervalles de prévision sont définies comme les quantiles de la distribution binomiale négative et ne rendent donc pas compte de la variance attribuable à l'estimation des paramètres. Une meilleure représentation statistique rendrait aussi compte de l'incertitude de l'estimation des paramètres.
Le modèle utilisé pour ajuster le nombre de décès a été mis au point, en grande partie, pour sa capacité de saisir les tendances récentes relativement aux délais de déclaration. Des essais effectués avec différentes périodes temporelles donnent à penser qu'en effet, il y a eu des changements dans le rythme d'enregistrement des décès dans la base de données sur les statistiques provinciales et territoriales de l'état civil, du moins pour certaines provinces. Toutefois, le modèle présume qu'il n'y a aucun changement à l'intérieur de la période de référence visée. Or, cela n'est pas garanti, surtout en période de pandémie. Une autre limite est la longueur de la période de référence, qui est trop courte pour saisir adéquatement les tendances saisonnières possibles. L'application de modèles de série chronologique aux données révèle la présence de certaines tendances saisonnières dans les taux de couverture pour certains délais de déclaration (nombre de jours entre la date du décès et la date de déclaration). On présume que les biais attribuables aux changements dans les tendances de déclaration sont plus importants que ceux attribuables à la saisonnalité. Dans la même veine, les tendances possibles de sous-déclaration liées à certains jours de la semaine, comme le dimanche ou les jours fériés, n'ont pas été prises en compte.
Statistique Canada poursuivra ses travaux de mise au point de la méthodologie afin de mieux renseigner les Canadiens à propos des répercussions de la pandémie de COVID-19.