Foire aux questions — Estimations provisoires et surmortalité au Canada

La Base canadienne de données de l'état civil - Décès (BCDECD) est la source faisant autorité pour les données sur les causes de décès au Canada. Statistique Canada collabore avec ses partenaires aux échelles fédérale, provinciale et territoriale pour offrir aux Canadiens des aperçus des données récentes sur les décès et la mortalité au Canada. Pour répondre aux nouveaux besoins en données avec l'arrivée de la pandémie de COVID-19, Statistique Canada a entrepris de fournir de nouvelles estimations provisoires sur la surmortalité et la mortalité.

Pour en savoir plus sur nos sources de données et nos méthodes et obtenir d'autres renseignements importants, veuillez consulter les réponses à certaines questions fréquentes ci-dessous.

Sources de données

1.1 Comment les statistiques de l'état civil sont-elles recueillies?

Le système national de statistiques de l'état civil du Canada est un système décentralisé et complexe qui repose sur une relation de collaboration entre les bureaux provinciaux et territoriaux de l'état civil et Statistique Canada.

Le registraire de l'état civil de chaque province et territoire enregistre tous les décès qui se produisent dans sa province et transmet l'information à Statistique Canada. Le formulaire d'enregistrement de décès comprend des renseignements personnels, fournis à l'entrepreneur de pompes funèbres par une personne bien informée (plus proche parent), et le certificat médical indiquant la cause du décès, rempli par le médecin qui a constaté le décès ou par un coroner ou un médecin légiste.

Les organismes provinciaux et territoriaux de statistique de l'état civil communiquent l'information qu'ils ont recueillie par le biais de leurs processus d'enregistrement des décès à Statistique Canada, qui compile les renseignements dans la Base canadienne de données de l'état civil - Décès (BCDECD).

Une entente entre le gouvernement du Canada et les gouvernements provinciaux et territoriaux régit le fonctionnement du système canadien de statistiques de l'état civil. Le Conseil de la statistique de l'état civil du Canada est un comité consultatif formé de représentants des bureaux provinciaux et territoriaux de l'état civil et de Statistique Canada qui supervise la politique et les questions opérationnelles liées à la collecte des renseignements statistiques de l'état civil.

Vous trouverez plus d'information sur les sources de données utilisées pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

1.2 Qu'entend-on par le fait que les données de la Base canadienne de données de l'état civil - Décès (BCDECD) sont « provisoires »?

La capacité de Statistique Canada à fournir des renseignements actuels dépend des renseignements qu'il reçoit des provinces et des territoires.

Le bureau provincial ou territorial de l'état civil présente les données à Statistique Canada en deux étapes : le fait du décès et les images du certificat de décès, qui sont utilisés pour coder les causes de décès. En général, l'événement du décès (le fait du décès) sera enregistré dans le système en premier. Pour plusieurs secteurs de compétence, ces renseignements sur le décès sont généralement envoyés dans les 30 jours suivant le décès, tandis que pour d'autres, ils sont envoyés de 30 à 60 jours, ou plus, après le décès. Il peut s'écouler plus de temps avant que Statistique Canada reçoive les renseignements sur la cause du décès, particulièrement dans le cas de décès de cause non naturelle qui nécessitent une investigation médicale ou une autopsie.

Les nombres de décès provisoires et les causes de décès ne comprennent pas tous les décès survenus pendant la période de référence en raison des délais de déclaration. Les estimations provisoires des décès sont corrigées pour tenir compte de la nature incomplète des chiffres, lorsque cela est possible. Ces ajustements s'ajoutent aux chiffres pour y intégrer les décès n'ayant pas encore été déclarés à Statistique Canada, selon les schémas de déclaration provinciaux et territoriaux passés et actuels. Les estimations provisoires sont révisées dans les diffusions subséquentes à mesure que plus de renseignements sont déclarés.

Vous trouverez plus d'information sur les sources de données et la méthodologie pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

1.3 Quels renseignements trouve-t-on dans la Base canadienne de données provisoires de l'état civil - Décès diffusée tous les mois?

La base de données provisoires sur les décès comprend les renseignements suivants pour chaque décès survenu au Canada :

  • âge, sexe, état matrimonial, lieu de résidence et lieu de naissance de la personne décédée;
  • date du décès
  • cause initiale du décès codée selon la « Classification statistique internationale des maladies et des problèmes de santé connexes » (CIM);
  • province ou territoire de l'évènement;
  • province ou territoire de résidence de la personne décédée.

Deux outils interactifs et quatre tableaux de données présentent les plus récentes données provisoires diffusées à partir de la Base canadienne de données de l'état civil - Décès.

2. Échéanciers

2.1 À quel moment les données canadiennes de l'état civil sur les décès sont-elles diffusées?

Pour mieux comprendre les répercussions de la pandémie sur les familles et les collectivités canadiennes, Statistique Canada a adopté, et continue d'adopter, de nouvelles façons de répondre au besoin de renseignements plus actuels. Ainsi, la Base canadienne de données provisoires de l'état civil - Décès est diffusée mensuellement pour les provinces et les territoires déclarants.

Veuillez consulter l'horaire du communiqué du Quotidien de Statistique Canada pour obtenir les dates de diffusion prévues.

2.2 Pourquoi n'y a-t-il pas d'estimations pour certaines semaines?

La qualité des chiffres hebdomadaires ajustés dépend en grande partie du niveau d'intégralité des données, ou de la mesure dans laquelle tous les décès ont été déclarés à Statistique Canada. Les estimations manquantes sont plus susceptibles d'être pour les semaines les plus proches de la date de diffusion, car il y a parfois un retard dans les déclarations. À mesure que Statistique Canada reçoit les renseignements, les données deviennent plus complètes pour les diffusions subséquentes.

Seules les estimations pour les semaines dont le niveau d'intégralité atteint 75 % ou plus sont montrées. Ce seuil offre un compromis entre la robustesse et l'actualité des estimations. Le niveau d'intégralité atteint 90 % ou plus pour presque toutes les semaines, à quelques exceptions près. Même s'il est utile de signaler les nouvelles tendances récentes possibles en ce qui a trait à la surmortalité, les estimations qui reposent sur les données hebdomadaires ayant un niveau d'intégralité plus faible devraient être utilisées avec précaution, car elles comportent plus d'incertitude et sont plus sensibles aux hypothèses modèles (comme le choix de la période de référence). Par conséquent, ces estimations peuvent changer de façon marquée dans les diffusions subséquentes alors que le nombre de décès déclarés augmente pour ces semaines.

2.3 Pourquoi les chiffres dans la plus récente diffusion ne correspondent-ils pas aux chiffres des diffusions précédentes?

Statistique Canada reçoit constamment des renseignements des provinces et des territoires. Les données et les estimations provisoires sont mises à jour mensuellement avec l'ajout de nouvelles semaines de données et de révisions à ces semaines pour lesquelles les données ont été diffusées précédemment.

3. Méthodologie

3.1 Pourquoi les chiffres sur les décès sont-ils corrigés?

Pour fournir des renseignements plus à jour sur les décès pendant la pandémie, de récentes améliorations à la méthodologie et à l'actualité des données ont été apportées à notre processus de collecte des données. Ainsi, les chiffres de décès provisoires pour les années de référence 2020 et 2021 ont été corrigés pour tenir compte des délais de déclaration, dans la mesure du possible, qui entraîneraient autrement un sous-dénombrement dans les données. Ces ajustements s'ajoutent aux chiffres pour y intégrer les décès n'ayant pas encore été déclarés à Statistique Canada, selon les schémas de déclaration provinciaux et territoriaux passés.

Pendant la production des statistiques mensuelles sur les décès, les données des mois et des années précédents pourraient être révisées pour refléter toutes les mises à jour et les modifications qui ont été reçues des bureaux de l'état civil des provinces et des territoires.

Les données des années de référence 2017, 2018 et 2019 sont aussi provisoires, car les mises à jour des bureaux de l'état civil sont aussi enregistrées.

Vous trouverez plus d'information sur les sources de données et la méthodologie pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

3.2 Pourquoi n'y a-t-il pas de données pour certains secteurs de compétence?

La capacité de Statistique Canada à fournir des renseignements utiles et actuels dépend de sa capacité à recevoir les renseignements des provinces et des territoires. Pour plusieurs secteurs de compétence, ces renseignements sont généralement envoyés dans les 30 jours suivant le décès, tandis que pour d'autres, ils sont envoyés de 30 à 60 jours ou plus après le décès. C'est pourquoi les données pour certaines provinces et certains territoires pour certaines semaines sont supprimées.

3.3 Pourquoi les chiffres de décès et les estimations provisoires qui sont diffusés par Statistique Canada ne correspondent-ils pas aux chiffres provenant d'autres sources?

Les données qui sont diffusées chaque mois par Statistique Canada reposent sur les données qui sont déclarées par les registraires de l'état civil des provinces et des territoires, qui sont la source officielle des statistiques sur les décès au Canada. Statistique Canada corrige les chiffres pour tenir compte des délais de déclaration. Les renseignements sur la cause du décès qui se trouvent dans la Base canadienne de données de l'état civil - Décès (BCDECD) sont tirés du certificat médical de la cause du décès, qui est rempli par les professionnels de la santé, les coroners ou les médecins légistes.

Les données produites par d'autres sources peuvent être recueillies aux fins de surveillance auprès d'autres organismes, comme les autorités sanitaires provinciales et territoriales ou les organes de presse. Ces données peuvent être fondées seulement sur des cas confirmés du virus causant la COVID-19, ce qui signifie qu'elles n'incluent pas toujours les cas où une personne est décédée de la COVID-19 avant d'avoir été testée. De plus, les chiffres de la surveillance peuvent être fondés sur la date à laquelle le décès a été déclaré plutôt que sur la date à laquelle le décès est survenu. Enfin, ces chiffres peuvent utiliser des définitions de cause du décès qui sont différentes de celles qui sont appliquées par les bureaux et les registraires de l'état civil qui utilisent les lignes directrices de Classification internationale des maladies.

De janvier à août 2020, les décomptes officiels de décès attribuables à la COVID-19 partout au Canada dépassaient d'environ 5 % les chiffres de surveillance pour la même période.

3.4 Pourquoi certaines causes de décès provisoires sont-elles indiquées comme inconnues?

Les périodes de référence plus récentes comportent un plus grand nombre de causes de décès qui sont inconnues ou en attente d'une investigation. Certains décès, comme les suicides possibles ou les décès accidentels, nécessitent de longues investigations. Ce que cela signifie, c'est que Statistique Canada n'a pas encore reçu l'information finale sur la cause des décès des bureaux provinciaux et territoriaux de la statistique de l'état civil en raison des investigations médicales toujours en cours sur la cause du décès des personnes décédées.

Lorsque le nombre d'inconnus est élevé dans ces données, les données provisoires sur les causes de décès ne doivent pas être utilisées pour déclarer les principales causes de décès jusqu'à ce que les données soient plus complètes.

3.5 Pourquoi certains chiffres dans les données provisoires sont-ils arrondis alors que d'autres ne le sont pas?

En fonction des analyses menées, l'information sur la cause du décès pourrait comporter de petits chiffres, qui obligent à protéger la confidentialité par le biais d'un processus d'arrondissement standard pour la variable de la cause du décès. Seuls les chiffres sur la cause du décès sont arrondis et cet arrondissement est fait au 5 le plus proche. Cela signifie que tous les renseignements sur les causes de décès sont présentés en unités de 5 ou 10 (p. ex., 0, 5, 10, 15, etc.).

En raison de la nature provisoire des données, de la fréquence des mises à jour des données par les provinces et les territoires ainsi que de la pratique d'arrondissement de la cause de décès, on peut observer une plus grande variabilité à travers la variable de la cause de décès – comparativement au reste des variables de la base de données – entre les diffusions mensuelles.

4. Analyse

4.1 Qu'est-ce que la surmortalité et pourquoi la mesurons-nous?

Les effets de la COVID-19 se font toujours sentir sur les collectivités et les familles au Canada et dans le monde. Au-delà des décès attribuables à la maladie elle-même, la pandémie pourrait aussi avoir des répercussions indirectes qui font augmenter ou diminuer le nombre de décès en raison de différents facteurs, dont le report de procédures médicales ou l'augmentation de la consommation d'alcool ou de drogues.

Pour comprendre les répercussions directes et indirectes de la pandémie, il est important de mesurer la surmortalité,

qui se produit lorsque le nombre de décès au cours d'une période est supérieur à ce qui serait attendu pour cette période. Il convient cependant de noter que, même sans la pandémie, le nombre de décès déclarés pour une semaine donnée varie d'une année à l'autre. Par conséquent, le nombre de décès auquel on peut s'attendre devrait se situer dans une certaine fourchette. On trouve des signes de surmortalité lorsque le nombre de décès hebdomadaire est constamment plus élevé que le nombre attendu, mais surtout lorsqu'il dépasse la fourchette du nombre de décès attendus pendant plusieurs semaines consécutives.

Pour mesurer la surmortalité, il est également nécessaire d'avoir recours à un moyen de déterminer le nombre de décès auquel on pourrait s'attendre s'il n'y avait pas de pandémie. Il existe un certain nombre de façons d'estimer le nombre de décès attendus, notamment en les comparant aux décomptes annuels précédents ou en utilisant des moyennes historiques, par exemple au cours des quatre années précédentes. Dans le contexte du Canada, qui compte une population vieillissante et croissante, le nombre de décès s'accroît graduellement depuis un certain nombre d'années, et un nombre plus élevé de décès était attendu en 2020 (ou 2021), avec ou sans COVID-19. Pour ces raisons, afin d'estimer les décès attendus, Statistique Canada utilise une approche fondée sur un modèle statistique pour projeter les tendances récentes en matière de mortalité. Cette approche a également été adoptée par d'autres pays.

De plus amples renseignements sur l'estimation de la surmortalité pendant la pandémie de COVID-19 au Canada peuvent être obtenus dans l'article La surmortalité au Canada pendant la pandémie de la COVID-19.

5. Autres renseignements sur la mortalité

5.1 Où les Canadiens peuvent-ils trouver de plus amples renseignements sur les statistiques sur la mortalité au Canada pour 2020?

La Base de données ouvertes sur les installations récréatives et sportives

Numéro de catalogue : 21260002
Numéro d'exemplaire : 2021001

La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) est une collection de données ouvertes comprenant le nom, le type et l'emplacement des installations récréatives et sportives à travers le Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert – Canada.

La BDOIRS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les installations récréatives et sportives au Canada. Les sources de données comprennent les gouvernements provinciaux, territoriaux et municipaux.

Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations récréatives et sportives à travers le Canada, en les rendant disponibles en tant que données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOIRS sont des ensembles de données dont les sources incluent les gouvernements provinciaux, territoriaux et municipaux. Ces ensembles de données étaient disponibles soit en vertu de l'un des divers types de licences de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOIRS.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOIRS harmonise le type d'installation en attribuant dix-huit types à chaque installation. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches menées à cette fin.

La BDOIRS utilise les dix-huit types d'installations suivants :

  • sentiers : sentiers urbains et ruraux ou voies pour la marche, la randonnée pédestre ou le vélo.
  • terrains de sport : terrains sur lesquels on peut pratiquer des sports.
  • arénas : installations où des activités sportives et/ou récréatives ont lieu.
  • parcs sportifs : aires de loisirs axées sur l’activité sportive.
  • plages : plages au bord de l'eau.
  • casinos : casinos ou installations de jeux de hasard.
  • centres communautaires : centres communautaires et installations de loisirs.
  • gymnases : salles de conditionnement physique publiques et privées.
  • marinas : ports de plaisances.
  • parcs : parcs et espaces verts, y compris les parcs municipaux et nationaux.
  • terrains de jeux : espaces de jeux qui sont distincts des parcs en ce sens qu’ils ont été spécifiquement classés comme tels par l’éditeur des données. Ils comprennent souvent de l’équipement de terrain de jeux.
  • piscines : piscines intérieures et extérieures.
  • pistes de course : pistes réservées à la course.
  • patinoires : le plus souvent des patinoires à glace.
  • planchodromes : parcs utilisés pour la planche à roulettes.
  • aires de jeux d'eau : espaces urbains réservés aux jeux d'eau.
  • stades : installations où des activités sportives et/ou récréatives ont lieu.
  • divers : installations qui ne correspondent à aucune des catégories qui précèdent.

La BDOIRS ne prétend pas avoir une couverture exhaustive et peut ne pas contenir toutes les installations dans le champs d’application de la version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations sont également possibles. Bien que toutes les données soient publiées à la même date, les dates à partir desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources a été validé en utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, un géocodage a été effectué pour certaines sources en utilisant les données de l’adresse de la source.

Une déduplication a été effectuée pour supprimer les doublons dans les cas où les sources se chevauchaient.

La version actuelle de la base de données (version 1.0) contient environ 182 000 enregistrements. Les données ont été recueillies à partir des sources entre 2020 et 2021.

Les variables incluses dans la BDOIRS sont les suivantes :

  • Nom de l'installation
  • Type d'installation de source
  • Type d'installation de la BDOIRS
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Genre de la rue
  • Direction de la rue
  • Code postal
  • Ville
  • Province ou territoire
  • Identificateur unique de la province
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Longitude
  • Latitude
  • Index

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOIRS.

Téléchargement de la BDOIRS

Pour faciliter son téléchargement, la BDOIRS est fourni sous forme de fichier CSV compressé.

Visualisant la BDOIRS

Le contenu de la BDOIRS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

Introduction aux techniques cryptographiques : Calcul multiparties sécurisé

Combinaison sécurisée de données provenant de plusieurs sources tout en préservant la confidentialité

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La prédominance croissante de technologies comme le nuage, l'informatique mobile, l'apprentissage automatique et l'Internet des objets crée des possibilités d'innovation et d'échange de renseignements, mais également des défis pour la sécurité et la confidentialité des données. Ces défis ont été amplifiés pendant la pandémie mondiale; le télétravail a accéléré l'adoption des services hybrides et infonuagiques. Cette situation a mis à rude épreuve les capacités de sécurité existantes et a révélé des lacunes dans la sécurité des données (Lowans, 2020). Pendant ce temps, les lois sur la protection des données à l'échelle mondiale ont évolué, et chaque organisation qui traite des données personnelles est exposée à des niveaux de risque en matière de confidentialité et d'inobservation plus élevés que jamais auparavant (Wonham, Fritsch, Xu, de Boer, & Krikken, 2020).

Par conséquent, les techniques de calcul améliorées sur le plan de la confidentialité, qui protègent les données pendant leur utilisationNotes de bas de page1, ont gagné en popularité.

Qu'est-ce que le calcul multiparties sécurisé?

Le calcul multiparties sécurisé est une technique qui permet de combiner des renseignements provenant de différentes zones de confidentialité pour obtenir des renseignements sur les données combinées sans avoir à révéler les données brutes aux parties concernées. Il a évolué d'une curiosité théorique établie par le problème des millionnairesNotes de bas de page2 d'Andrew Yao dans les années 1980 à un outil important pour la création d'applications de préservation de la confidentialité à grande échelleNotes de bas de page3.

Pour illustrer le concept, Bob et Alice veulent savoir s'ils touchent la même paye, mais ne veulent pas poser cette question délicate. Ils achètent quatre boîtes à suggestions verrouillables, chacune portant une étiquette sur laquelle figure un taux horaire : 10 $, 20 $, 30 $ et 40 $. Bob gagne 20 $ l'heure, alors il n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 20 ». Alice gagne 30 $ l'heure, alors elle n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 30 ». Bob et Alice mettent tous les deux un bout de papier indiquant « oui » ou « non » dans chaque boîte sans que l'autre le voie. Par exemple, Alice met un bout de papier indiquant « non » dans les boîtes portant les étiquettes « 10 », « 20 » et « 40 », et un bout de papier indiquant « oui » dans la boîte portant l'étiquette « 30 » parce qu'elle gagne 30 $ l'heure. Bob déverrouille la boîte portant l'étiquette « 20 » et apprend qu'Alice ne gagne pas 20 $ l'heure, mais il ne sait toujours pas si son taux horaire est de 10 $, de 30 $ ou de 40 $. Alice déverrouille la boîte portant l'étiquette « 30 » et apprend que Bob ne gagne pas 30 $ l'heure, mais elle ne sait toujours pas si son taux horaire est de 10 $, de 20 $ ou de 40 $. - C'est ce que l'on appelle un « transfert inconscient ». La capacité d'effectuer des transferts inconscients est la base de l'exécution du calcul multiparties sécuriséNotes de bas de page4.

Le calcul multiparties sécurisé est une méthode d'informatique distribuée et de cryptographieNotes de bas de page5 qui combine la transformation des données (chiffrement) avec un logiciel spécialisé. Il permet à plusieurs parties qui ne se font pas confiance, ou à un tiers commun, de travailler conjointement avec des données qui dépendent de tous leurs intrants privés tout en gardant ces données chiffrées. Les participants ne connaissent que les résultats de la collaboration et non les données précises fournies par les autres. Cela permet une collaboration entre des partenaires de confiance ou même entre des concurrents.

On présume souvent que le calcul multiparties sécurisé exige la participation de plusieurs organisations; toutefois, l'exigence précise concerne plusieurs zones de confidentialité, c'est-à-dire deux domaines ou plus ayant des ensembles de restrictions de confidentialité différents. Plusieurs zones de confidentialité existent entre plusieurs organisations ayant des propriétaires de données indépendants, mais elles peuvent aussi exister au sein d'une seule organisation entre des équipes, des services ou des administrations.

On se fie à ce que les parties respectent le protocole. Si une partie n'est pas digne de confiance, des mesures supplémentaires, qui ne s'inscrivent pas dans la portée du présent document, doivent être prises pour prévenir les tentatives d'atteinte malveillantes ou cachées.

Forces

  • Permet d'atteindre simultanément la confidentialité, l'inconscience et l'authenticité.
    • Élimine le besoin de faire confiance à un courtier de données tiers pour accéder aux données et les traiter.
    • Permet de déduire les données chiffrées : le propriétaire du modèle ne voit jamais les données privées du client et ne peut donc pas les divulguer ou les utiliser de façon malveillante.
  • Élimine les compromis entre la convivialité et la confidentialité des données; autrement dit, étant donné que les données brutes sont chiffrées, il n'est pas nécessaire de masquer ou de supprimer des fonctions pour les échanger et les traiter.
  • Offre de nouvelles possibilités de collaboration entre des entreprises qui n'étaient pas possibles auparavant en raison de la réglementation ou du risque.
  • Niveaux de confidentialité semblables à ceux du chiffrement entièrement homomorphique, mais moins coûteux et complexe sur le plan informatique.

Défis

  • Les techniques de calcul multiparties sécurisé sont extrêmement complexes et nécessitent une cryptographie exhaustive et souvent compliquée. Par conséquent, il est difficile pour les profanes de les comprendre ou de les mettre en œuvre.
  • L'incapacité à voir les données d'entrée peut éveiller des soupçons.
  • Si les fonctions ne sont pas soigneusement conçues et mises à l'essai, la sécurité peut être cassée.
  • Frais généraux importants en ce qui concerne les aspects informatiques en raison de la complexité et de la nature distribuée. Le coût varie grandement en fonction de la collaboration requise (p. ex., nombre de parties, utilisation de différents fournisseurs de services infonuagiques) et du besoin de protection contre les parties malveillantes.
  • Sensible à la latence entre les nœuds (Krikken, 2019)
  • Nécessite une infrastructure supplémentaire, ce qui ajoutera à la planification des projets et au calcul du coût total de possession (Byun, 2019)

Pourquoi est-ce important?

Selon le directeur du renseignement national des États-Unis, la cybersécurité dans les secteurs public et privé des États-Unis est continuellement à risque, et on doit s'attendre à une augmentation des attaques. Les organisations qui possèdent beaucoup de données et d'actifs de propriété intellectuelle sont des cibles de choix. Les attaquants ciblent souvent ces données « joyaux de la couronne »Notes de bas de page6 en raison de leur valeur et de leur potentiel de perturbation (Enveil).

Les organisations sont de plus en plus préoccupées par la sécurité des données dans plusieurs scénarios, notamment :

  • la collecte et la conservation de renseignements personnels de nature délicate;
  • le traitement de renseignements personnels dans des environnements externes, comme le nuage;
  • l'échange de renseignements, comme l'échange et le traitement de données de nature délicate dans des environnements distribués, des soins de santé aux finances (Krikken, 2019)

Le calcul multiparties sécurisé permet de répondre à ces préoccupations et de les atténuer en permettant aux organisations de fournir des renseignements sur les données réparties de façon conforme, sécurisée et confidentielle sans jamais les exposer ou les déplacer.

Cela est important parce que la nature de plus en plus distribuée des données sur les clients signifie que de nombreuses organisations ne génèrent pas par elles-mêmes les niveaux de données nécessaires pour obtenir les renseignements impartiaux requis pour fournir de nouvelles expériences, ouvrir de nouvelles sources de revenus et appliquer de nouveaux modèles opérationnels. Le calcul multiparties sécurisé permet une collaboration sécurisée qui offre des avantages mutuels à toutes les parties, tout en préservant la vie privée et la confidentialité.

Applications concrètes

Bien qu'il soit encore nouveau et qu'il présente des défis, le calcul multiparties sécurisé est sur le point de perturber considérablement le domaine de l'échange de données d'entreprise et d'offrir des solutions efficaces d'échange de données entre des propriétaires de données méfiants. Vous trouverez ci-dessous des déploiements réussis notablesNotes de bas de page7.

  • Vente aux enchères de betteraves sucrières danoises, le premier exemple réussi de déploiement du calcul multiparties sécurisé, en 2008, où la confidentialité des soumissions des agriculteurs pour des contrats a été assurée.
  • Études sur la disparité de salaire entre les hommes et les femmes du Boston Women's Workforce CouncilNotes de bas de page8, qui ont été menées pour la première fois en 2016 et qui visaient à analyser les données sur la paye de plusieurs employeurs pour établir une feuille de route du changement pour la ville et ses employeurs.
  • Étude du gouvernement estonien qui a été menée en 2015 et qui visait à analyser les dossiers fiscaux et scolaires pour déterminer si le fait de travailler à temps partiel pendant les études faisait augmenter le taux d'échecNotes de bas de page9.

Cas d'utilisation

Le calcul multiparties sécurisé est très populaire pour les cas d'utilisation où des organisations doivent échanger des données avec plusieurs parties ou analyser des données provenant de plusieurs parties sans divulguer leurs données ou leur modèle d'analyse aux autres parties.

Cette liste illustre la portée et l'ampleur des applications du calcul multiparties sécurisé.

  • Collaboration avec des parties disparates, par exemple, échange de données sur les citoyens entre des ministères et des institutions financières ou échange de dossiers médicaux électroniques entre des hôpitaux, des pharmacies et des assureurs.
  • Exploration de données réparties : Collecte de données privées à partir de sources de données indépendantes pour apprendre quelque chose qui n'est pas possible à partir d'une source unique, par exemple, trouver des contribuables frauduleux au moyen de données d'entreprise privées ou d'autres données sur les contribuables.
  • Gestion des clés : Protection des clés d'authentification pendant leur utilisation.
  • Infonuagique : Échange de données, analyse des données et apprentissage automatique entre plusieurs fournisseurs de services infonuagiques inconnus.
  • Surveillance de la sécurité de plusieurs réseaux entre des entités pour regrouper des données privées.
  • Filtrage des pourriels dans les courriels chiffrés.
  • Découverte médicale, par exemple, applications de recherche des contacts avec des personnes ayant une maladie ou un virus combinant les données de nombreux hôpitaux pour la recherche en génomique.
  • Évitement de la collision de satellites sans divulguer leur emplacement.

Conclusion

La conscience que les données personnelles peuvent être compromises dans une atteinte à la protection des données ou peuvent être utilisées de façon malveillante par des entreprises dont les intérêts ne cadrent pas avec ceux de leurs utilisateurs augmente. De nouveaux règlements font de la détention de données personnelles un risque de responsabilité pour les entreprises. Le calcul multiparties sécurisé est devenu une technique puissante et polyvalente pour obtenir des renseignements sur l'échange de données sans jamais les exposer directement.

Bien qu'il n'y ait pas de produit ou de technique unique qui puisse satisfaire à toutes les exigences relatives à la sécurité des données, le calcul multiparties sécurisé peut être utilisé comme une défense avec d'autres mesures de protection des données, comme le masquage des données, et d'autres techniques de préservation de la confidentialité, comme la confidentialité différentielle et le chiffrement homomorphique.

Prochaines étapes

Gartner s'attend à ce que le calcul multiparties sécurisé soit transformationnel au cours des cinq à dix prochaines années (Lowans, 2020). Pour être prête, compte tenu de la quantité de données privées qu'elle détient et de la pression exercée pour que ces données soient protégées, une organisation devrait continuer de faire des recherches sur le calcul multiparties sécurisé et d'autres techniques de protection des données et de préservation de la confidentialité.

Sujets connexes : Anonymisation des données, confidentialité différentielle, chiffrement homomorphique, environnements d'exécution fiables/informatique confidentielle, apprentissage fédéré

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Introduction aux techniques cryptographiques — Environnement d'exécution fiable

Protection fondée sur le matériel informatique relativement aux données en cours d'utilisation qui peuvent être appliquées n'importe où

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La popularité croissante des appareils connectés et la prévalence des technologies, comme l'infonuagique, l'informatique mobile et l'Internet des objets (IdO), ont mis à rude épreuve les capacités de sécurité existantes et exposé des « lacunes dans la sécurité des données » (Lowans, 2020). Les organisations qui traitent des renseignements identificatoires personnels (RIP) doivent « atténuer les menaces qui ciblent la confidentialité et l'intégrité de l'application ou des données dans la mémoire système » (Confidential Computing Consortium, 2021).

Par conséquent, Gartner prédit que « d'ici 2025, 50 % des grandes organisations adopteront l'informatique d'amélioration de la confidentialité pour le traitement des données dans des environnements non fiables et des cas d'utilisation de l'analyse multipartite de données »Notes de bas de page1Notes de bas de page2 (Gartner, 2020). Parmi les nombreuses techniques d'informatique d'amélioration de la confidentialité, l'environnement d'exécution de confiance est la seule technique qui s'appuie sur le matériel informatique pour atteindre son objectif d'amélioration de la confidentialité.

Qu'est-ce qu'un environnement d'exécution de confiance?

Un environnement d'exécution de confiance (EEC), également appelé enclave sécurisée, est un environnement construit avec des modules matériels spéciaux qui permet d'avoir une zone sécurisée à l'intérieur de l'appareil. Cet environnement isolé fonctionne en parallèle avec le système d'exploitation (OS). L'information est transmise dans l'EEC et le calcul est effectué à même l'EEC (« monde sécurisé ») et demeurent ainsi protégées du reste du système non fiable (« monde normal »). Ces environnements sécurisés et isolés protègent la confidentialité et l'intégrité du contenu, empêchant ainsiNotes de bas de page3 l'accès non autorisé ou la modification des applications et des données lors de leur utilisation.

Le terme « informatique confidentielle » est souvent utilisé comme synonyme d'EEC; les termes sont liés, mais distincts. Conformément au Confidential Computing Consortium, l'informatique confidentielle estNotes de bas de page4activée par l'EEC. De plus, l'informatique confidentielle fournie par l'EEC fondé sur le matériel informatique est indépendante de l'emplacement topographique (aucune mention de nuage informatique, de l'appareil d'un utilisateur, etc.), des processeurs (un processeur normal ou un processeur séparé) ou des techniques d'isolation (p. ex. si le chiffrement est utilisé).

Pourquoi le matériel informatique est-il nécessaire?

« La sécurité n'est aussi forte que les couches inférieures, car la sécurité de toute couche de la pile informatique pourrait potentiellement être contournée par une atteinte à la sécurité d'une couche sous-jacente » (Confidential Computing Consortium, 2021). En déplaçant la sécurité au plus bas niveau de silicium, cela réduit la possibilité de compromission, car elle minimise les dépendances qui sont plus hautes dans la pile informatique (p. ex. le système d'exploitation, les périphériques et les administrateurs et fournisseurs).

Pourquoi est-ce important?

L'utilisation d'un EEC permet de fournir une immense gamme de fonctionnalités à l'utilisateur, tout en répondant aux exigences en matière de protection des renseignements personnels et de confidentialité, sans exposer les données à des risques lorsqu'elles sont déchiffrées durant le traitement. Cela permet aux utilisateurs de protéger la propriété intellectuelle et de s'assurer que les RIP sont inaccessibles. Cela assure une protection contre les menaces internes, les attaquants qui exécutent du code malveillant ou les fournisseurs de services infonuagiques inconnus. Ainsi, les EEC représentent une couche cruciale dans une approche de sécurité en couches (c'est-à-dire une défense en profondeur) et ils « ont le potentiel de renforcer considérablement la sécurité des systèmes » (Lindell, 2020).

Utilisations

Un EEC « peut être appliqué n'importe où, y compris sur les serveurs infonuagiques publics, les serveurs hébergés sur place, les passerelles, les appareils de l'IdO, les déploiements informatiques de pointeNotes de bas de page5, les appareils d'utilisateurs, etc. » (Confidential Computing Consortium, 2021).

  • Vous trouverez ci-dessous un résumé des cas d'utilisation possibles pour un EEC tiré du document : Confidential Computing: Hardware-Based Trusted Execution for Applications and Data (en anglais seulement). Clés, secrets, informations d'identification, jetons : Ces ressources de grande valeur sont les « clés du royaume ». Dans le passé, le stockage et le traitement de ces ressources nécessitaient un module de sécurité matériel (MSM) sur place, mais dans les EEC, les applications pour gérer ces ressources peuvent fournir une sécurité comparable à celle d'un MSM traditionnel.
  • Informatique multipartite : Les EEC permettent aux organisations, comme celles qui offrent des services financiers ou des soins de santé, de tirer parti des données partagées (p. ex. l'analyse fédérée), sans compromettre les sources de données.
  • Informatique mobile, informatique personnelle et appareils de l'IdO : Les fabricants d'appareils ou les développeurs d'applications comportent des EEC pour assurer que les données personnelles ne sont pas perceptibles durant le partage ou le traitement.
  • Appareils de point de vente / traitement des paiements : Pour protéger les renseignements saisis par l'utilisateur, comme un numéro d'identification personnel, l'information figurant sur le pavé numérique est lisible uniquement par code dans l'EEC fondé sur le matériel informatique de l'appareil, ce qui fait en sorte que l'information ne peut pas être lue ou attaquée par un logiciel malveillant qui peut se trouver dans l'appareil.

Avantages

  • Environnement contrôlé : Étant donné que l'EEC fonctionne au moyen de matériel informatique spécialisé, il est contrôlé et cela empêche l'écoute clandestine pendant que les données chiffrées sont déchiffrées.
  • Confidentialité : Il est possible de chiffrer les RIP dans une base de données; toutefois, pour traiter les données, elles doivent être déchiffrées et à ce moment-là, elles sont vulnérables aux attaquants et aux menaces internes. Si les données ne sont déchiffrées et traitées qu'à l'intérieur de l'EEC, elles sont isolées des utilisateurs non autorisés, protégeant ainsi la confidentialité des données.
  • Vitesse : Étant donné que l'EEC est déjà une enclave sécurisée, le code ou les données peuvent exister sous forme non chiffrée dans l'EEC. Si c'est le cas, « cela permet à l'exécution dans l'EEC d'être beaucoup plus rapide que l'exécution liée à la cryptographie complexe » (Choi et Butler, 2019).
  • Confiance : Étant donné que les données dans l'EEC ne sont pas obscurcies (comme dans certaines autres techniques d'informatique d'amélioration de la confidentialité), cela fournit une certaine satisfaction que le calcul et ses résultats sont corrects, c'est-à-dire qu'il n'y a pas d'erreurs introduites par les techniques d'obscurcissement.
  • Séparation des préoccupations : Étant donné qu'il y a deux environnements distincts, il y a une séparation entre la charge de travail et les données administrées et détenues par le « monde normal » par rapport à la charge de travail et aux données isolées dans le « monde sécurisé ». Cela offre une protection contre les menaces internes et les charges de travail potentiellement corrompues qui sont effectuées sur le même appareil.
  • Déchiffrement : Si les données sont chiffrées dans l'EEC, elles doivent être déchiffrées pour être traitées; cependant, ce déchiffrement a avantage à être effectué dans un espace étroitement contrôlé.

Défis à relever

  • Mise en œuvre : La mise en œuvre est difficile et nécessite des connaissances et une expertise personnalisées, qu'il s'agisse de créer l'ensemble du système d'exploitation sécurisé de toutes pièces, d'utiliser un système d'exploitation de confiance d'un fournisseur commercial, ou de mettre en œuvre des composantes émergentes comme des trousses de développement logiciel, des bibliothèques ou des utilitaires.
  • Absence d'uniformisation : Les EEC n'offrent pas tous les mêmes garanties de sécurité ou les mêmes exigences concernant l'intégration du code existant et du nouveau code.
  • Spécification de conception: C'est la responsabilité du développeur de L'EEC d'assurer une conception d'EEC sécurisée. La simple existence d'un EEC ne suffit pas.
  • Verrouillage : Il existe un potentiel d'immobilisation et de dépendances avec les fournisseurs de matériel informatique, les développeurs d'EEC ou le traitement propriétaire (en raison de l'absence d'uniformisation).
  • Pas invincible : Il est possible qu'il y ait des attaques par canal auxiliaireNotes de bas de page6, des codes d'application vulnérables ou des vulnérabilités en matière de sécurité fondée sur le matériel informatique (p. ex. dans la puce matérielle), ce qui peut entraîner l'effondrement de tout le modèle de sécurité.
  • Rendement et coût : Par rapport à la configuration et au traitement dans un « monde normal », l'utilisation d'un EEC (« monde sécurisé ») a des répercussions négatives sur le rendement et coûtera plus cher.

Qu'est-ce qui est possible maintenant?

Les EEC sont fournis par des solutions numériques comme la solution Intel® Software Guard eXtensions (SGX) ou Arm TrustZone; par l'entremise de trousses de développement logiciel de fournisseurs de matériel informatique; ou au moyen de couches d'abstraction (p. ex. Google Asylo) qui éliminent la nécessité de coder explicitement pour un EEC.

De nombreux fournisseurs de services infonuagiques (p. ex. Alibaba, Microsoft, IBM et Oracle) fournissent désormais des capacités d'EEC comme service spécialisé de bas niveau conforme à leurs offres d'informatique. Cependant, en raison de l'absence d'uniformisation, les particularités proposées par les fournisseurs de services infonuagiques devraient être examinées attentivement pour assurer qu'elles respectent les exigences souhaitées de l'organisation en matière de confidentialité et de sécurité (Fritsch, Bartley et Ni, 2020).

Quelle est la prochaine étape?

Bien que la protection des données de nature délicate présente d'importants défis en matière d'architecture, de gouvernance et de technologie, l'utilisation d'un EEC peut offrir un point de départ pour d'autres moyens afin d'améliorer la sécurité à partir du niveau le plus bas.

Cependant, un EEC n'est pas une solution prête à l'emploi, il s'agit d'un mécanisme qui comprend des difficultés techniques qui « devrait être réservé aux cas d'utilisation les plus à risque » (Lowans, 2020). Néanmoins, « il est certainement plus difficile de voler des secrets depuis l'intérieur [d'un EEC sécurisé que dans le « monde normal » non sécurisé]. Cela complique le travail de l'attaquant, ce qui est toujours une bonne chose » (Lindell, 2020).

Sujets connexes 

Chiffrement homomorphe, Informatique multipartite sécurisée, confidentialité différentielle, anonymisation des données, module de plate-forme de confiance.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Ottawa accueille le Congrès mondial de la statistique en juillet 2023

Par : Bridget Duquette, Statistique Canada

Cet été, le 64e Congrès mondial de la statistique (CMS) (en anglais seulement)  de l’Institut international de statistique (IIS) (en anglais seulement) aura lieu à Ottawa du 16 au 20 juillet, au Centre Shaw. Le CMS proposera une variété de discussions d’experts, de présentations et d’activités sociales, ainsi que des possibilités de réseautage et de recrutement. Il s’agit d’une occasion unique de collaboration et de partage des connaissances entre des scientifiques des données, des statisticiens et des méthodologistes de partout dans le monde.

Organisé tous les deux ans depuis 1887, le CMS réunit des statisticiens, des représentants du milieu universitaire et des chefs d’entreprise, en plus de contribuer à façonner le paysage de la statistique et de la science des données à l’échelle mondiale. Le Canada n’a accueilli ce prestigieux événement qu’une seule fois auparavant, en 1963, aussi à Ottawa.  

La tradition veut que le pays hôte du CMS organise des activités sociales pour les participants. Cette année, on proposera aux invités internationaux une visite de certains lieux situés au cœur du centre-ville d’Ottawa, guidée par Eric Rancourt, statisticien en chef adjoint, et Claude Girard, méthodologiste principal à Statistique Canada.

Il est possible de jeter un coup d’œil au programme du congrès (en anglais seulement) . Celui-ci fournit des renseignements sur les présentations, lesquelles porteront sur un grand éventail de sujets d’intérêt pour les scientifiques des données. Cette année, le conférencier principal sera l’ancien directeur du Census Bureau des États-Unis, l’illustre professeur Robert M. Groves.

Le Centre Shaw d’Ottawa

Photo 1 : Le Centre Shaw d’Ottawa.

Kenza Sallier, méthodologiste principale à Statistique Canada et coauteure du récent article intitulé Tirer le maximum de la synthèse de données grâce au guide d’utilisation des données synthétiques pour les statistiques officielles est heureuse de participer une fois de plus au congrès — et pour la première fois en présentiel.

« J’ai assisté au CMS en 2021, au beau milieu de la pandémie (et de la collecte des données du recensement), confie-t-elle. J’ai eu la chance incroyable de présenter les réalisations de Statistique Canada dans le domaine de la synthèse des données et d’être invitée à participer à une réunion d’experts pour partager mon expérience en tant que jeune femme statisticienne dans le monde de la statistique officielle. Même si l’événement était virtuel, il m’a permis de rencontrer un grand nombre de personnes intéressantes et de tisser des liens avec elles. J’ai hâte de participer au CMS de 2023, qui aura lieu en personne. Je présenterai, aux côtés de mon collègue Craig Hilborn, les travaux que nous avons réalisés ensemble et j’espère recevoir les commentaires de nos pairs. »

Shirin Roshanafshar, chef de l’analyse des textes et de la numérisation à Statistique Canada, participera également au congrès et prendra la parole durant la séance sur les défis liés aux techniques de traitement du langage naturel en matière de statistiques officielles.

Pour tous les participants, qu’ils y assistent pour la première fois ou pour la cinquième, le CMS de 2023 promet d’être une expérience inoubliable. « Le congrès encourage la collaboration, la croissance, la découverte et l’avancement dans le domaine de la science des données, dit Stephen Penneck, président de l’IIS. Je suis ravi que le 64e Congrès mondial de la statistique ait lieu au Canada et il me tarde de constater l’incidence qu’il aura sur l’industrie ».

Restez à l’affût pour un compte-rendu de cet événement mondial et des avancées qui en découleront.

Date de modification :