Foire aux questions — Estimations provisoires et surmortalité au Canada

La Base canadienne de données de l'état civil - Décès (BCDECD) est la source faisant autorité pour les données sur les causes de décès au Canada. Statistique Canada collabore avec ses partenaires aux échelles fédérale, provinciale et territoriale pour offrir aux Canadiens des aperçus des données récentes sur les décès et la mortalité au Canada. Pour répondre aux nouveaux besoins en données avec l'arrivée de la pandémie de COVID-19, Statistique Canada a entrepris de fournir de nouvelles estimations provisoires sur la surmortalité et la mortalité.

Pour en savoir plus sur nos sources de données et nos méthodes et obtenir d'autres renseignements importants, veuillez consulter les réponses à certaines questions fréquentes ci-dessous.

Sources de données

1.1 Comment les statistiques de l'état civil sont-elles recueillies?

Le système national de statistiques de l'état civil du Canada est un système décentralisé et complexe qui repose sur une relation de collaboration entre les bureaux provinciaux et territoriaux de l'état civil et Statistique Canada.

Le registraire de l'état civil de chaque province et territoire enregistre tous les décès qui se produisent dans sa province et transmet l'information à Statistique Canada. Le formulaire d'enregistrement de décès comprend des renseignements personnels, fournis à l'entrepreneur de pompes funèbres par une personne bien informée (plus proche parent), et le certificat médical indiquant la cause du décès, rempli par le médecin qui a constaté le décès ou par un coroner ou un médecin légiste.

Les organismes provinciaux et territoriaux de statistique de l'état civil communiquent l'information qu'ils ont recueillie par le biais de leurs processus d'enregistrement des décès à Statistique Canada, qui compile les renseignements dans la Base canadienne de données de l'état civil - Décès (BCDECD).

Une entente entre le gouvernement du Canada et les gouvernements provinciaux et territoriaux régit le fonctionnement du système canadien de statistiques de l'état civil. Le Conseil de la statistique de l'état civil du Canada est un comité consultatif formé de représentants des bureaux provinciaux et territoriaux de l'état civil et de Statistique Canada qui supervise la politique et les questions opérationnelles liées à la collecte des renseignements statistiques de l'état civil.

Vous trouverez plus d'information sur les sources de données utilisées pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

1.2 Qu'entend-on par le fait que les données de la Base canadienne de données de l'état civil - Décès (BCDECD) sont « provisoires »?

La capacité de Statistique Canada à fournir des renseignements actuels dépend des renseignements qu'il reçoit des provinces et des territoires.

Le bureau provincial ou territorial de l'état civil présente les données à Statistique Canada en deux étapes : le fait du décès et les images du certificat de décès, qui sont utilisés pour coder les causes de décès. En général, l'événement du décès (le fait du décès) sera enregistré dans le système en premier. Pour plusieurs secteurs de compétence, ces renseignements sur le décès sont généralement envoyés dans les 30 jours suivant le décès, tandis que pour d'autres, ils sont envoyés de 30 à 60 jours, ou plus, après le décès. Il peut s'écouler plus de temps avant que Statistique Canada reçoive les renseignements sur la cause du décès, particulièrement dans le cas de décès de cause non naturelle qui nécessitent une investigation médicale ou une autopsie.

Les nombres de décès provisoires et les causes de décès ne comprennent pas tous les décès survenus pendant la période de référence en raison des délais de déclaration. Les estimations provisoires des décès sont corrigées pour tenir compte de la nature incomplète des chiffres, lorsque cela est possible. Ces ajustements s'ajoutent aux chiffres pour y intégrer les décès n'ayant pas encore été déclarés à Statistique Canada, selon les schémas de déclaration provinciaux et territoriaux passés et actuels. Les estimations provisoires sont révisées dans les diffusions subséquentes à mesure que plus de renseignements sont déclarés.

Vous trouverez plus d'information sur les sources de données et la méthodologie pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

1.3 Quels renseignements trouve-t-on dans la Base canadienne de données provisoires de l'état civil - Décès diffusée tous les mois?

La base de données provisoires sur les décès comprend les renseignements suivants pour chaque décès survenu au Canada :

  • âge, sexe, état matrimonial, lieu de résidence et lieu de naissance de la personne décédée;
  • date du décès
  • cause initiale du décès codée selon la « Classification statistique internationale des maladies et des problèmes de santé connexes » (CIM);
  • province ou territoire de l'évènement;
  • province ou territoire de résidence de la personne décédée.

Deux outils interactifs et quatre tableaux de données présentent les plus récentes données provisoires diffusées à partir de la Base canadienne de données de l'état civil - Décès.

2. Échéanciers

2.1 À quel moment les données canadiennes de l'état civil sur les décès sont-elles diffusées?

Pour mieux comprendre les répercussions de la pandémie sur les familles et les collectivités canadiennes, Statistique Canada a adopté, et continue d'adopter, de nouvelles façons de répondre au besoin de renseignements plus actuels. Ainsi, la Base canadienne de données provisoires de l'état civil - Décès est diffusée mensuellement pour les provinces et les territoires déclarants.

Veuillez consulter l'horaire du communiqué du Quotidien de Statistique Canada pour obtenir les dates de diffusion prévues.

2.2 Pourquoi n'y a-t-il pas d'estimations pour certaines semaines?

La qualité des chiffres hebdomadaires ajustés dépend en grande partie du niveau d'intégralité des données, ou de la mesure dans laquelle tous les décès ont été déclarés à Statistique Canada. Les estimations manquantes sont plus susceptibles d'être pour les semaines les plus proches de la date de diffusion, car il y a parfois un retard dans les déclarations. À mesure que Statistique Canada reçoit les renseignements, les données deviennent plus complètes pour les diffusions subséquentes.

Seules les estimations pour les semaines dont le niveau d'intégralité atteint 75 % ou plus sont montrées. Ce seuil offre un compromis entre la robustesse et l'actualité des estimations. Le niveau d'intégralité atteint 90 % ou plus pour presque toutes les semaines, à quelques exceptions près. Même s'il est utile de signaler les nouvelles tendances récentes possibles en ce qui a trait à la surmortalité, les estimations qui reposent sur les données hebdomadaires ayant un niveau d'intégralité plus faible devraient être utilisées avec précaution, car elles comportent plus d'incertitude et sont plus sensibles aux hypothèses modèles (comme le choix de la période de référence). Par conséquent, ces estimations peuvent changer de façon marquée dans les diffusions subséquentes alors que le nombre de décès déclarés augmente pour ces semaines.

2.3 Pourquoi les chiffres dans la plus récente diffusion ne correspondent-ils pas aux chiffres des diffusions précédentes?

Statistique Canada reçoit constamment des renseignements des provinces et des territoires. Les données et les estimations provisoires sont mises à jour mensuellement avec l'ajout de nouvelles semaines de données et de révisions à ces semaines pour lesquelles les données ont été diffusées précédemment.

3. Méthodologie

3.1 Pourquoi les chiffres sur les décès sont-ils corrigés?

Pour fournir des renseignements plus à jour sur les décès pendant la pandémie, de récentes améliorations à la méthodologie et à l'actualité des données ont été apportées à notre processus de collecte des données. Ainsi, les chiffres de décès provisoires pour les années de référence 2020 et 2021 ont été corrigés pour tenir compte des délais de déclaration, dans la mesure du possible, qui entraîneraient autrement un sous-dénombrement dans les données. Ces ajustements s'ajoutent aux chiffres pour y intégrer les décès n'ayant pas encore été déclarés à Statistique Canada, selon les schémas de déclaration provinciaux et territoriaux passés.

Pendant la production des statistiques mensuelles sur les décès, les données des mois et des années précédents pourraient être révisées pour refléter toutes les mises à jour et les modifications qui ont été reçues des bureaux de l'état civil des provinces et des territoires.

Les données des années de référence 2017, 2018 et 2019 sont aussi provisoires, car les mises à jour des bureaux de l'état civil sont aussi enregistrées.

Vous trouverez plus d'information sur les sources de données et la méthodologie pour la Base canadienne de données de l'état civil - Décès sur le site Web de Statistique Canada.

3.2 Pourquoi n'y a-t-il pas de données pour certains secteurs de compétence?

La capacité de Statistique Canada à fournir des renseignements utiles et actuels dépend de sa capacité à recevoir les renseignements des provinces et des territoires. Pour plusieurs secteurs de compétence, ces renseignements sont généralement envoyés dans les 30 jours suivant le décès, tandis que pour d'autres, ils sont envoyés de 30 à 60 jours ou plus après le décès. C'est pourquoi les données pour certaines provinces et certains territoires pour certaines semaines sont supprimées.

3.3 Pourquoi les chiffres de décès et les estimations provisoires qui sont diffusés par Statistique Canada ne correspondent-ils pas aux chiffres provenant d'autres sources?

Les données qui sont diffusées chaque mois par Statistique Canada reposent sur les données qui sont déclarées par les registraires de l'état civil des provinces et des territoires, qui sont la source officielle des statistiques sur les décès au Canada. Statistique Canada corrige les chiffres pour tenir compte des délais de déclaration. Les renseignements sur la cause du décès qui se trouvent dans la Base canadienne de données de l'état civil - Décès (BCDECD) sont tirés du certificat médical de la cause du décès, qui est rempli par les professionnels de la santé, les coroners ou les médecins légistes.

Les données produites par d'autres sources peuvent être recueillies aux fins de surveillance auprès d'autres organismes, comme les autorités sanitaires provinciales et territoriales ou les organes de presse. Ces données peuvent être fondées seulement sur des cas confirmés du virus causant la COVID-19, ce qui signifie qu'elles n'incluent pas toujours les cas où une personne est décédée de la COVID-19 avant d'avoir été testée. De plus, les chiffres de la surveillance peuvent être fondés sur la date à laquelle le décès a été déclaré plutôt que sur la date à laquelle le décès est survenu. Enfin, ces chiffres peuvent utiliser des définitions de cause du décès qui sont différentes de celles qui sont appliquées par les bureaux et les registraires de l'état civil qui utilisent les lignes directrices de Classification internationale des maladies.

De janvier à août 2020, les décomptes officiels de décès attribuables à la COVID-19 partout au Canada dépassaient d'environ 5 % les chiffres de surveillance pour la même période.

3.4 Pourquoi certaines causes de décès provisoires sont-elles indiquées comme inconnues?

Les périodes de référence plus récentes comportent un plus grand nombre de causes de décès qui sont inconnues ou en attente d'une investigation. Certains décès, comme les suicides possibles ou les décès accidentels, nécessitent de longues investigations. Ce que cela signifie, c'est que Statistique Canada n'a pas encore reçu l'information finale sur la cause des décès des bureaux provinciaux et territoriaux de la statistique de l'état civil en raison des investigations médicales toujours en cours sur la cause du décès des personnes décédées.

Lorsque le nombre d'inconnus est élevé dans ces données, les données provisoires sur les causes de décès ne doivent pas être utilisées pour déclarer les principales causes de décès jusqu'à ce que les données soient plus complètes.

3.5 Pourquoi certains chiffres dans les données provisoires sont-ils arrondis alors que d'autres ne le sont pas?

En fonction des analyses menées, l'information sur la cause du décès pourrait comporter de petits chiffres, qui obligent à protéger la confidentialité par le biais d'un processus d'arrondissement standard pour la variable de la cause du décès. Seuls les chiffres sur la cause du décès sont arrondis et cet arrondissement est fait au 5 le plus proche. Cela signifie que tous les renseignements sur les causes de décès sont présentés en unités de 5 ou 10 (p. ex., 0, 5, 10, 15, etc.).

En raison de la nature provisoire des données, de la fréquence des mises à jour des données par les provinces et les territoires ainsi que de la pratique d'arrondissement de la cause de décès, on peut observer une plus grande variabilité à travers la variable de la cause de décès – comparativement au reste des variables de la base de données – entre les diffusions mensuelles.

4. Analyse

4.1 Qu'est-ce que la surmortalité et pourquoi la mesurons-nous?

Les effets de la COVID-19 se font toujours sentir sur les collectivités et les familles au Canada et dans le monde. Au-delà des décès attribuables à la maladie elle-même, la pandémie pourrait aussi avoir des répercussions indirectes qui font augmenter ou diminuer le nombre de décès en raison de différents facteurs, dont le report de procédures médicales ou l'augmentation de la consommation d'alcool ou de drogues.

Pour comprendre les répercussions directes et indirectes de la pandémie, il est important de mesurer la surmortalité,

qui se produit lorsque le nombre de décès au cours d'une période est supérieur à ce qui serait attendu pour cette période. Il convient cependant de noter que, même sans la pandémie, le nombre de décès déclarés pour une semaine donnée varie d'une année à l'autre. Par conséquent, le nombre de décès auquel on peut s'attendre devrait se situer dans une certaine fourchette. On trouve des signes de surmortalité lorsque le nombre de décès hebdomadaire est constamment plus élevé que le nombre attendu, mais surtout lorsqu'il dépasse la fourchette du nombre de décès attendus pendant plusieurs semaines consécutives.

Pour mesurer la surmortalité, il est également nécessaire d'avoir recours à un moyen de déterminer le nombre de décès auquel on pourrait s'attendre s'il n'y avait pas de pandémie. Il existe un certain nombre de façons d'estimer le nombre de décès attendus, notamment en les comparant aux décomptes annuels précédents ou en utilisant des moyennes historiques, par exemple au cours des quatre années précédentes. Dans le contexte du Canada, qui compte une population vieillissante et croissante, le nombre de décès s'accroît graduellement depuis un certain nombre d'années, et un nombre plus élevé de décès était attendu en 2020 (ou 2021), avec ou sans COVID-19. Pour ces raisons, afin d'estimer les décès attendus, Statistique Canada utilise une approche fondée sur un modèle statistique pour projeter les tendances récentes en matière de mortalité. Cette approche a également été adoptée par d'autres pays.

De plus amples renseignements sur l'estimation de la surmortalité pendant la pandémie de COVID-19 au Canada peuvent être obtenus dans l'article La surmortalité au Canada pendant la pandémie de la COVID-19.

5. Autres renseignements sur la mortalité

5.1 Où les Canadiens peuvent-ils trouver de plus amples renseignements sur les statistiques sur la mortalité au Canada pour 2020?

La Base de données ouvertes sur les installations récréatives et sportives

Numéro de catalogue : 21260002
Numéro d'exemplaire : 2021001

La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) est une collection de données ouvertes comprenant le nom, le type et l'emplacement des installations récréatives et sportives à travers le Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert – Canada.

La BDOIRS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les installations récréatives et sportives au Canada. Les sources de données comprennent les gouvernements provinciaux, territoriaux et municipaux.

Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations récréatives et sportives à travers le Canada, en les rendant disponibles en tant que données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOIRS sont des ensembles de données dont les sources incluent les gouvernements provinciaux, territoriaux et municipaux. Ces ensembles de données étaient disponibles soit en vertu de l'un des divers types de licences de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOIRS.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOIRS harmonise le type d'installation en attribuant dix-huit types à chaque installation. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches menées à cette fin.

La BDOIRS utilise les dix-huit types d'installations suivants :

  • sentiers : sentiers urbains et ruraux ou voies pour la marche, la randonnée pédestre ou le vélo.
  • terrains de sport : terrains sur lesquels on peut pratiquer des sports.
  • arénas : installations où des activités sportives et/ou récréatives ont lieu.
  • parcs sportifs : aires de loisirs axées sur l’activité sportive.
  • plages : plages au bord de l'eau.
  • casinos : casinos ou installations de jeux de hasard.
  • centres communautaires : centres communautaires et installations de loisirs.
  • gymnases : salles de conditionnement physique publiques et privées.
  • marinas : ports de plaisances.
  • parcs : parcs et espaces verts, y compris les parcs municipaux et nationaux.
  • terrains de jeux : espaces de jeux qui sont distincts des parcs en ce sens qu’ils ont été spécifiquement classés comme tels par l’éditeur des données. Ils comprennent souvent de l’équipement de terrain de jeux.
  • piscines : piscines intérieures et extérieures.
  • pistes de course : pistes réservées à la course.
  • patinoires : le plus souvent des patinoires à glace.
  • planchodromes : parcs utilisés pour la planche à roulettes.
  • aires de jeux d'eau : espaces urbains réservés aux jeux d'eau.
  • stades : installations où des activités sportives et/ou récréatives ont lieu.
  • divers : installations qui ne correspondent à aucune des catégories qui précèdent.

La BDOIRS ne prétend pas avoir une couverture exhaustive et peut ne pas contenir toutes les installations dans le champs d’application de la version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations sont également possibles. Bien que toutes les données soient publiées à la même date, les dates à partir desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources a été validé en utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, un géocodage a été effectué pour certaines sources en utilisant les données de l’adresse de la source.

Une déduplication a été effectuée pour supprimer les doublons dans les cas où les sources se chevauchaient.

La version actuelle de la base de données (version 1.0) contient environ 182 000 enregistrements. Les données ont été recueillies à partir des sources entre 2020 et 2021.

Les variables incluses dans la BDOIRS sont les suivantes :

  • Nom de l'installation
  • Type d'installation de source
  • Type d'installation de la BDOIRS
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Genre de la rue
  • Direction de la rue
  • Code postal
  • Ville
  • Province ou territoire
  • Identificateur unique de la province
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Longitude
  • Latitude
  • Index

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOIRS.

Téléchargement de la BDOIRS

Pour faciliter son téléchargement, la BDOIRS est fourni sous forme de fichier CSV compressé.

Visualisant la BDOIRS

Le contenu de la BDOIRS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

Introduction aux techniques cryptographiques : Calcul multiparties sécurisé

Combinaison sécurisée de données provenant de plusieurs sources tout en préservant la confidentialité

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La prédominance croissante de technologies comme le nuage, l'informatique mobile, l'apprentissage automatique et l'Internet des objets crée des possibilités d'innovation et d'échange de renseignements, mais également des défis pour la sécurité et la confidentialité des données. Ces défis ont été amplifiés pendant la pandémie mondiale; le télétravail a accéléré l'adoption des services hybrides et infonuagiques. Cette situation a mis à rude épreuve les capacités de sécurité existantes et a révélé des lacunes dans la sécurité des données (Lowans, 2020). Pendant ce temps, les lois sur la protection des données à l'échelle mondiale ont évolué, et chaque organisation qui traite des données personnelles est exposée à des niveaux de risque en matière de confidentialité et d'inobservation plus élevés que jamais auparavant (Wonham, Fritsch, Xu, de Boer, & Krikken, 2020).

Par conséquent, les techniques de calcul améliorées sur le plan de la confidentialité, qui protègent les données pendant leur utilisationNotes de bas de page1, ont gagné en popularité.

Qu'est-ce que le calcul multiparties sécurisé?

Le calcul multiparties sécurisé est une technique qui permet de combiner des renseignements provenant de différentes zones de confidentialité pour obtenir des renseignements sur les données combinées sans avoir à révéler les données brutes aux parties concernées. Il a évolué d'une curiosité théorique établie par le problème des millionnairesNotes de bas de page2 d'Andrew Yao dans les années 1980 à un outil important pour la création d'applications de préservation de la confidentialité à grande échelleNotes de bas de page3.

Pour illustrer le concept, Bob et Alice veulent savoir s'ils touchent la même paye, mais ne veulent pas poser cette question délicate. Ils achètent quatre boîtes à suggestions verrouillables, chacune portant une étiquette sur laquelle figure un taux horaire : 10 $, 20 $, 30 $ et 40 $. Bob gagne 20 $ l'heure, alors il n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 20 ». Alice gagne 30 $ l'heure, alors elle n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 30 ». Bob et Alice mettent tous les deux un bout de papier indiquant « oui » ou « non » dans chaque boîte sans que l'autre le voie. Par exemple, Alice met un bout de papier indiquant « non » dans les boîtes portant les étiquettes « 10 », « 20 » et « 40 », et un bout de papier indiquant « oui » dans la boîte portant l'étiquette « 30 » parce qu'elle gagne 30 $ l'heure. Bob déverrouille la boîte portant l'étiquette « 20 » et apprend qu'Alice ne gagne pas 20 $ l'heure, mais il ne sait toujours pas si son taux horaire est de 10 $, de 30 $ ou de 40 $. Alice déverrouille la boîte portant l'étiquette « 30 » et apprend que Bob ne gagne pas 30 $ l'heure, mais elle ne sait toujours pas si son taux horaire est de 10 $, de 20 $ ou de 40 $. - C'est ce que l'on appelle un « transfert inconscient ». La capacité d'effectuer des transferts inconscients est la base de l'exécution du calcul multiparties sécuriséNotes de bas de page4.

Le calcul multiparties sécurisé est une méthode d'informatique distribuée et de cryptographieNotes de bas de page5 qui combine la transformation des données (chiffrement) avec un logiciel spécialisé. Il permet à plusieurs parties qui ne se font pas confiance, ou à un tiers commun, de travailler conjointement avec des données qui dépendent de tous leurs intrants privés tout en gardant ces données chiffrées. Les participants ne connaissent que les résultats de la collaboration et non les données précises fournies par les autres. Cela permet une collaboration entre des partenaires de confiance ou même entre des concurrents.

On présume souvent que le calcul multiparties sécurisé exige la participation de plusieurs organisations; toutefois, l'exigence précise concerne plusieurs zones de confidentialité, c'est-à-dire deux domaines ou plus ayant des ensembles de restrictions de confidentialité différents. Plusieurs zones de confidentialité existent entre plusieurs organisations ayant des propriétaires de données indépendants, mais elles peuvent aussi exister au sein d'une seule organisation entre des équipes, des services ou des administrations.

On se fie à ce que les parties respectent le protocole. Si une partie n'est pas digne de confiance, des mesures supplémentaires, qui ne s'inscrivent pas dans la portée du présent document, doivent être prises pour prévenir les tentatives d'atteinte malveillantes ou cachées.

Forces

  • Permet d'atteindre simultanément la confidentialité, l'inconscience et l'authenticité.
    • Élimine le besoin de faire confiance à un courtier de données tiers pour accéder aux données et les traiter.
    • Permet de déduire les données chiffrées : le propriétaire du modèle ne voit jamais les données privées du client et ne peut donc pas les divulguer ou les utiliser de façon malveillante.
  • Élimine les compromis entre la convivialité et la confidentialité des données; autrement dit, étant donné que les données brutes sont chiffrées, il n'est pas nécessaire de masquer ou de supprimer des fonctions pour les échanger et les traiter.
  • Offre de nouvelles possibilités de collaboration entre des entreprises qui n'étaient pas possibles auparavant en raison de la réglementation ou du risque.
  • Niveaux de confidentialité semblables à ceux du chiffrement entièrement homomorphique, mais moins coûteux et complexe sur le plan informatique.

Défis

  • Les techniques de calcul multiparties sécurisé sont extrêmement complexes et nécessitent une cryptographie exhaustive et souvent compliquée. Par conséquent, il est difficile pour les profanes de les comprendre ou de les mettre en œuvre.
  • L'incapacité à voir les données d'entrée peut éveiller des soupçons.
  • Si les fonctions ne sont pas soigneusement conçues et mises à l'essai, la sécurité peut être cassée.
  • Frais généraux importants en ce qui concerne les aspects informatiques en raison de la complexité et de la nature distribuée. Le coût varie grandement en fonction de la collaboration requise (p. ex., nombre de parties, utilisation de différents fournisseurs de services infonuagiques) et du besoin de protection contre les parties malveillantes.
  • Sensible à la latence entre les nœuds (Krikken, 2019)
  • Nécessite une infrastructure supplémentaire, ce qui ajoutera à la planification des projets et au calcul du coût total de possession (Byun, 2019)

Pourquoi est-ce important?

Selon le directeur du renseignement national des États-Unis, la cybersécurité dans les secteurs public et privé des États-Unis est continuellement à risque, et on doit s'attendre à une augmentation des attaques. Les organisations qui possèdent beaucoup de données et d'actifs de propriété intellectuelle sont des cibles de choix. Les attaquants ciblent souvent ces données « joyaux de la couronne »Notes de bas de page6 en raison de leur valeur et de leur potentiel de perturbation (Enveil).

Les organisations sont de plus en plus préoccupées par la sécurité des données dans plusieurs scénarios, notamment :

  • la collecte et la conservation de renseignements personnels de nature délicate;
  • le traitement de renseignements personnels dans des environnements externes, comme le nuage;
  • l'échange de renseignements, comme l'échange et le traitement de données de nature délicate dans des environnements distribués, des soins de santé aux finances (Krikken, 2019)

Le calcul multiparties sécurisé permet de répondre à ces préoccupations et de les atténuer en permettant aux organisations de fournir des renseignements sur les données réparties de façon conforme, sécurisée et confidentielle sans jamais les exposer ou les déplacer.

Cela est important parce que la nature de plus en plus distribuée des données sur les clients signifie que de nombreuses organisations ne génèrent pas par elles-mêmes les niveaux de données nécessaires pour obtenir les renseignements impartiaux requis pour fournir de nouvelles expériences, ouvrir de nouvelles sources de revenus et appliquer de nouveaux modèles opérationnels. Le calcul multiparties sécurisé permet une collaboration sécurisée qui offre des avantages mutuels à toutes les parties, tout en préservant la vie privée et la confidentialité.

Applications concrètes

Bien qu'il soit encore nouveau et qu'il présente des défis, le calcul multiparties sécurisé est sur le point de perturber considérablement le domaine de l'échange de données d'entreprise et d'offrir des solutions efficaces d'échange de données entre des propriétaires de données méfiants. Vous trouverez ci-dessous des déploiements réussis notablesNotes de bas de page7.

  • Vente aux enchères de betteraves sucrières danoises, le premier exemple réussi de déploiement du calcul multiparties sécurisé, en 2008, où la confidentialité des soumissions des agriculteurs pour des contrats a été assurée.
  • Études sur la disparité de salaire entre les hommes et les femmes du Boston Women's Workforce CouncilNotes de bas de page8, qui ont été menées pour la première fois en 2016 et qui visaient à analyser les données sur la paye de plusieurs employeurs pour établir une feuille de route du changement pour la ville et ses employeurs.
  • Étude du gouvernement estonien qui a été menée en 2015 et qui visait à analyser les dossiers fiscaux et scolaires pour déterminer si le fait de travailler à temps partiel pendant les études faisait augmenter le taux d'échecNotes de bas de page9.

Cas d'utilisation

Le calcul multiparties sécurisé est très populaire pour les cas d'utilisation où des organisations doivent échanger des données avec plusieurs parties ou analyser des données provenant de plusieurs parties sans divulguer leurs données ou leur modèle d'analyse aux autres parties.

Cette liste illustre la portée et l'ampleur des applications du calcul multiparties sécurisé.

  • Collaboration avec des parties disparates, par exemple, échange de données sur les citoyens entre des ministères et des institutions financières ou échange de dossiers médicaux électroniques entre des hôpitaux, des pharmacies et des assureurs.
  • Exploration de données réparties : Collecte de données privées à partir de sources de données indépendantes pour apprendre quelque chose qui n'est pas possible à partir d'une source unique, par exemple, trouver des contribuables frauduleux au moyen de données d'entreprise privées ou d'autres données sur les contribuables.
  • Gestion des clés : Protection des clés d'authentification pendant leur utilisation.
  • Infonuagique : Échange de données, analyse des données et apprentissage automatique entre plusieurs fournisseurs de services infonuagiques inconnus.
  • Surveillance de la sécurité de plusieurs réseaux entre des entités pour regrouper des données privées.
  • Filtrage des pourriels dans les courriels chiffrés.
  • Découverte médicale, par exemple, applications de recherche des contacts avec des personnes ayant une maladie ou un virus combinant les données de nombreux hôpitaux pour la recherche en génomique.
  • Évitement de la collision de satellites sans divulguer leur emplacement.

Conclusion

La conscience que les données personnelles peuvent être compromises dans une atteinte à la protection des données ou peuvent être utilisées de façon malveillante par des entreprises dont les intérêts ne cadrent pas avec ceux de leurs utilisateurs augmente. De nouveaux règlements font de la détention de données personnelles un risque de responsabilité pour les entreprises. Le calcul multiparties sécurisé est devenu une technique puissante et polyvalente pour obtenir des renseignements sur l'échange de données sans jamais les exposer directement.

Bien qu'il n'y ait pas de produit ou de technique unique qui puisse satisfaire à toutes les exigences relatives à la sécurité des données, le calcul multiparties sécurisé peut être utilisé comme une défense avec d'autres mesures de protection des données, comme le masquage des données, et d'autres techniques de préservation de la confidentialité, comme la confidentialité différentielle et le chiffrement homomorphique.

Prochaines étapes

Gartner s'attend à ce que le calcul multiparties sécurisé soit transformationnel au cours des cinq à dix prochaines années (Lowans, 2020). Pour être prête, compte tenu de la quantité de données privées qu'elle détient et de la pression exercée pour que ces données soient protégées, une organisation devrait continuer de faire des recherches sur le calcul multiparties sécurisé et d'autres techniques de protection des données et de préservation de la confidentialité.

Sujets connexes : Anonymisation des données, confidentialité différentielle, chiffrement homomorphique, environnements d'exécution fiables/informatique confidentielle, apprentissage fédéré

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Introduction aux techniques cryptographiques — Environnement d'exécution fiable

Protection fondée sur le matériel informatique relativement aux données en cours d'utilisation qui peuvent être appliquées n'importe où

par Betty Ann Bryanton, Agence du revenu du Canada

Introduction

La popularité croissante des appareils connectés et la prévalence des technologies, comme l'infonuagique, l'informatique mobile et l'Internet des objets (IdO), ont mis à rude épreuve les capacités de sécurité existantes et exposé des « lacunes dans la sécurité des données » (Lowans, 2020). Les organisations qui traitent des renseignements identificatoires personnels (RIP) doivent « atténuer les menaces qui ciblent la confidentialité et l'intégrité de l'application ou des données dans la mémoire système » (Confidential Computing Consortium, 2021).

Par conséquent, Gartner prédit que « d'ici 2025, 50 % des grandes organisations adopteront l'informatique d'amélioration de la confidentialité pour le traitement des données dans des environnements non fiables et des cas d'utilisation de l'analyse multipartite de données »Notes de bas de page1Notes de bas de page2 (Gartner, 2020). Parmi les nombreuses techniques d'informatique d'amélioration de la confidentialité, l'environnement d'exécution de confiance est la seule technique qui s'appuie sur le matériel informatique pour atteindre son objectif d'amélioration de la confidentialité.

Qu'est-ce qu'un environnement d'exécution de confiance?

Un environnement d'exécution de confiance (EEC), également appelé enclave sécurisée, est un environnement construit avec des modules matériels spéciaux qui permet d'avoir une zone sécurisée à l'intérieur de l'appareil. Cet environnement isolé fonctionne en parallèle avec le système d'exploitation (OS). L'information est transmise dans l'EEC et le calcul est effectué à même l'EEC (« monde sécurisé ») et demeurent ainsi protégées du reste du système non fiable (« monde normal »). Ces environnements sécurisés et isolés protègent la confidentialité et l'intégrité du contenu, empêchant ainsiNotes de bas de page3 l'accès non autorisé ou la modification des applications et des données lors de leur utilisation.

Le terme « informatique confidentielle » est souvent utilisé comme synonyme d'EEC; les termes sont liés, mais distincts. Conformément au Confidential Computing Consortium, l'informatique confidentielle estNotes de bas de page4activée par l'EEC. De plus, l'informatique confidentielle fournie par l'EEC fondé sur le matériel informatique est indépendante de l'emplacement topographique (aucune mention de nuage informatique, de l'appareil d'un utilisateur, etc.), des processeurs (un processeur normal ou un processeur séparé) ou des techniques d'isolation (p. ex. si le chiffrement est utilisé).

Pourquoi le matériel informatique est-il nécessaire?

« La sécurité n'est aussi forte que les couches inférieures, car la sécurité de toute couche de la pile informatique pourrait potentiellement être contournée par une atteinte à la sécurité d'une couche sous-jacente » (Confidential Computing Consortium, 2021). En déplaçant la sécurité au plus bas niveau de silicium, cela réduit la possibilité de compromission, car elle minimise les dépendances qui sont plus hautes dans la pile informatique (p. ex. le système d'exploitation, les périphériques et les administrateurs et fournisseurs).

Pourquoi est-ce important?

L'utilisation d'un EEC permet de fournir une immense gamme de fonctionnalités à l'utilisateur, tout en répondant aux exigences en matière de protection des renseignements personnels et de confidentialité, sans exposer les données à des risques lorsqu'elles sont déchiffrées durant le traitement. Cela permet aux utilisateurs de protéger la propriété intellectuelle et de s'assurer que les RIP sont inaccessibles. Cela assure une protection contre les menaces internes, les attaquants qui exécutent du code malveillant ou les fournisseurs de services infonuagiques inconnus. Ainsi, les EEC représentent une couche cruciale dans une approche de sécurité en couches (c'est-à-dire une défense en profondeur) et ils « ont le potentiel de renforcer considérablement la sécurité des systèmes » (Lindell, 2020).

Utilisations

Un EEC « peut être appliqué n'importe où, y compris sur les serveurs infonuagiques publics, les serveurs hébergés sur place, les passerelles, les appareils de l'IdO, les déploiements informatiques de pointeNotes de bas de page5, les appareils d'utilisateurs, etc. » (Confidential Computing Consortium, 2021).

  • Vous trouverez ci-dessous un résumé des cas d'utilisation possibles pour un EEC tiré du document : Confidential Computing: Hardware-Based Trusted Execution for Applications and Data (en anglais seulement). Clés, secrets, informations d'identification, jetons : Ces ressources de grande valeur sont les « clés du royaume ». Dans le passé, le stockage et le traitement de ces ressources nécessitaient un module de sécurité matériel (MSM) sur place, mais dans les EEC, les applications pour gérer ces ressources peuvent fournir une sécurité comparable à celle d'un MSM traditionnel.
  • Informatique multipartite : Les EEC permettent aux organisations, comme celles qui offrent des services financiers ou des soins de santé, de tirer parti des données partagées (p. ex. l'analyse fédérée), sans compromettre les sources de données.
  • Informatique mobile, informatique personnelle et appareils de l'IdO : Les fabricants d'appareils ou les développeurs d'applications comportent des EEC pour assurer que les données personnelles ne sont pas perceptibles durant le partage ou le traitement.
  • Appareils de point de vente / traitement des paiements : Pour protéger les renseignements saisis par l'utilisateur, comme un numéro d'identification personnel, l'information figurant sur le pavé numérique est lisible uniquement par code dans l'EEC fondé sur le matériel informatique de l'appareil, ce qui fait en sorte que l'information ne peut pas être lue ou attaquée par un logiciel malveillant qui peut se trouver dans l'appareil.

Avantages

  • Environnement contrôlé : Étant donné que l'EEC fonctionne au moyen de matériel informatique spécialisé, il est contrôlé et cela empêche l'écoute clandestine pendant que les données chiffrées sont déchiffrées.
  • Confidentialité : Il est possible de chiffrer les RIP dans une base de données; toutefois, pour traiter les données, elles doivent être déchiffrées et à ce moment-là, elles sont vulnérables aux attaquants et aux menaces internes. Si les données ne sont déchiffrées et traitées qu'à l'intérieur de l'EEC, elles sont isolées des utilisateurs non autorisés, protégeant ainsi la confidentialité des données.
  • Vitesse : Étant donné que l'EEC est déjà une enclave sécurisée, le code ou les données peuvent exister sous forme non chiffrée dans l'EEC. Si c'est le cas, « cela permet à l'exécution dans l'EEC d'être beaucoup plus rapide que l'exécution liée à la cryptographie complexe » (Choi et Butler, 2019).
  • Confiance : Étant donné que les données dans l'EEC ne sont pas obscurcies (comme dans certaines autres techniques d'informatique d'amélioration de la confidentialité), cela fournit une certaine satisfaction que le calcul et ses résultats sont corrects, c'est-à-dire qu'il n'y a pas d'erreurs introduites par les techniques d'obscurcissement.
  • Séparation des préoccupations : Étant donné qu'il y a deux environnements distincts, il y a une séparation entre la charge de travail et les données administrées et détenues par le « monde normal » par rapport à la charge de travail et aux données isolées dans le « monde sécurisé ». Cela offre une protection contre les menaces internes et les charges de travail potentiellement corrompues qui sont effectuées sur le même appareil.
  • Déchiffrement : Si les données sont chiffrées dans l'EEC, elles doivent être déchiffrées pour être traitées; cependant, ce déchiffrement a avantage à être effectué dans un espace étroitement contrôlé.

Défis à relever

  • Mise en œuvre : La mise en œuvre est difficile et nécessite des connaissances et une expertise personnalisées, qu'il s'agisse de créer l'ensemble du système d'exploitation sécurisé de toutes pièces, d'utiliser un système d'exploitation de confiance d'un fournisseur commercial, ou de mettre en œuvre des composantes émergentes comme des trousses de développement logiciel, des bibliothèques ou des utilitaires.
  • Absence d'uniformisation : Les EEC n'offrent pas tous les mêmes garanties de sécurité ou les mêmes exigences concernant l'intégration du code existant et du nouveau code.
  • Spécification de conception: C'est la responsabilité du développeur de L'EEC d'assurer une conception d'EEC sécurisée. La simple existence d'un EEC ne suffit pas.
  • Verrouillage : Il existe un potentiel d'immobilisation et de dépendances avec les fournisseurs de matériel informatique, les développeurs d'EEC ou le traitement propriétaire (en raison de l'absence d'uniformisation).
  • Pas invincible : Il est possible qu'il y ait des attaques par canal auxiliaireNotes de bas de page6, des codes d'application vulnérables ou des vulnérabilités en matière de sécurité fondée sur le matériel informatique (p. ex. dans la puce matérielle), ce qui peut entraîner l'effondrement de tout le modèle de sécurité.
  • Rendement et coût : Par rapport à la configuration et au traitement dans un « monde normal », l'utilisation d'un EEC (« monde sécurisé ») a des répercussions négatives sur le rendement et coûtera plus cher.

Qu'est-ce qui est possible maintenant?

Les EEC sont fournis par des solutions numériques comme la solution Intel® Software Guard eXtensions (SGX) ou Arm TrustZone; par l'entremise de trousses de développement logiciel de fournisseurs de matériel informatique; ou au moyen de couches d'abstraction (p. ex. Google Asylo) qui éliminent la nécessité de coder explicitement pour un EEC.

De nombreux fournisseurs de services infonuagiques (p. ex. Alibaba, Microsoft, IBM et Oracle) fournissent désormais des capacités d'EEC comme service spécialisé de bas niveau conforme à leurs offres d'informatique. Cependant, en raison de l'absence d'uniformisation, les particularités proposées par les fournisseurs de services infonuagiques devraient être examinées attentivement pour assurer qu'elles respectent les exigences souhaitées de l'organisation en matière de confidentialité et de sécurité (Fritsch, Bartley et Ni, 2020).

Quelle est la prochaine étape?

Bien que la protection des données de nature délicate présente d'importants défis en matière d'architecture, de gouvernance et de technologie, l'utilisation d'un EEC peut offrir un point de départ pour d'autres moyens afin d'améliorer la sécurité à partir du niveau le plus bas.

Cependant, un EEC n'est pas une solution prête à l'emploi, il s'agit d'un mécanisme qui comprend des difficultés techniques qui « devrait être réservé aux cas d'utilisation les plus à risque » (Lowans, 2020). Néanmoins, « il est certainement plus difficile de voler des secrets depuis l'intérieur [d'un EEC sécurisé que dans le « monde normal » non sécurisé]. Cela complique le travail de l'attaquant, ce qui est toujours une bonne chose » (Lindell, 2020).

Sujets connexes 

Chiffrement homomorphe, Informatique multipartite sécurisée, confidentialité différentielle, anonymisation des données, module de plate-forme de confiance.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Références

Ottawa accueille le Congrès mondial de la statistique en juillet 2023

Par : Bridget Duquette, Statistique Canada

Cet été, le 64e Congrès mondial de la statistique (CMS) (en anglais seulement)  de l’Institut international de statistique (IIS) (en anglais seulement) aura lieu à Ottawa du 16 au 20 juillet, au Centre Shaw. Le CMS proposera une variété de discussions d’experts, de présentations et d’activités sociales, ainsi que des possibilités de réseautage et de recrutement. Il s’agit d’une occasion unique de collaboration et de partage des connaissances entre des scientifiques des données, des statisticiens et des méthodologistes de partout dans le monde.

Organisé tous les deux ans depuis 1887, le CMS réunit des statisticiens, des représentants du milieu universitaire et des chefs d’entreprise, en plus de contribuer à façonner le paysage de la statistique et de la science des données à l’échelle mondiale. Le Canada n’a accueilli ce prestigieux événement qu’une seule fois auparavant, en 1963, aussi à Ottawa.  

La tradition veut que le pays hôte du CMS organise des activités sociales pour les participants. Cette année, on proposera aux invités internationaux une visite de certains lieux situés au cœur du centre-ville d’Ottawa, guidée par Eric Rancourt, statisticien en chef adjoint, et Claude Girard, méthodologiste principal à Statistique Canada.

Il est possible de jeter un coup d’œil au programme du congrès (en anglais seulement) . Celui-ci fournit des renseignements sur les présentations, lesquelles porteront sur un grand éventail de sujets d’intérêt pour les scientifiques des données. Cette année, le conférencier principal sera l’ancien directeur du Census Bureau des États-Unis, l’illustre professeur Robert M. Groves.

Le Centre Shaw d’Ottawa

Photo 1 : Le Centre Shaw d’Ottawa.

Kenza Sallier, méthodologiste principale à Statistique Canada et coauteure du récent article intitulé Tirer le maximum de la synthèse de données grâce au guide d’utilisation des données synthétiques pour les statistiques officielles est heureuse de participer une fois de plus au congrès — et pour la première fois en présentiel.

« J’ai assisté au CMS en 2021, au beau milieu de la pandémie (et de la collecte des données du recensement), confie-t-elle. J’ai eu la chance incroyable de présenter les réalisations de Statistique Canada dans le domaine de la synthèse des données et d’être invitée à participer à une réunion d’experts pour partager mon expérience en tant que jeune femme statisticienne dans le monde de la statistique officielle. Même si l’événement était virtuel, il m’a permis de rencontrer un grand nombre de personnes intéressantes et de tisser des liens avec elles. J’ai hâte de participer au CMS de 2023, qui aura lieu en personne. Je présenterai, aux côtés de mon collègue Craig Hilborn, les travaux que nous avons réalisés ensemble et j’espère recevoir les commentaires de nos pairs. »

Shirin Roshanafshar, chef de l’analyse des textes et de la numérisation à Statistique Canada, participera également au congrès et prendra la parole durant la séance sur les défis liés aux techniques de traitement du langage naturel en matière de statistiques officielles.

Pour tous les participants, qu’ils y assistent pour la première fois ou pour la cinquième, le CMS de 2023 promet d’être une expérience inoubliable. « Le congrès encourage la collaboration, la croissance, la découverte et l’avancement dans le domaine de la science des données, dit Stephen Penneck, président de l’IIS. Je suis ravi que le 64e Congrès mondial de la statistique ait lieu au Canada et il me tarde de constater l’incidence qu’il aura sur l’industrie ».

Restez à l’affût pour un compte-rendu de cet événement mondial et des avancées qui en découleront.

Date de modification :

Introduction aux techniques cryptographiques d'amélioration de la confidentialité

Preuve à divulgation nulle de connaissance – Prouver quelque chose sans divulguer de renseignements

Par : Betty Ann Bryanton, Agence du revenu du Canada

Introduction

D'énormes quantités de données sont recueillies par les organismes gouvernementaux, les moteurs de recherche, les systèmes de réseautage social, les hôpitaux, les institutions financières et d'autres organisations. Ces données, stockées de façon centralisée, entraînent un risque d'atteinte à la sécurité. De plus, les personnes naviguent sur Internet, acceptent les témoins de connexion et partagent des renseignements identificatoires personnels (RIP) en échange de services, d'avantages, de recommandations, etc. Pour faciliter le commerce électronique et les services d'accès, les personnes doivent s'authentifier, ce qui signifie de fournir des « preuves » pour indiquer qu'elles sont bien la personne qu'elles disent être. Cela peut signifier de fournir un mot de passe, un numéro de permis de conduire, un numéro de passeport ou un autre identificateur personnel. Ces données pourraient être volées, et leur partage pourrait compromettre les RIP connexes, comme l'âge et l'adresse du domicile. Des preuves à divulgation nulle de connaissance peuvent aider dans ces scénarios.

Qu'est-ce que la preuve à divulgation nulle de connaissance?

La preuve à divulgation nulle de connaissance (PDNC) fait partie des différentes techniques cryptographiques d'amélioration de la confidentialité et elle peut être utilisée pour appliquer, à des niveaux détaillés, des contrôles de protection de la vie privée nécessitant un accès minimal et fondés sur des principes de protection de la vie privée dès la conceptionNotes de bas de page1.

Habituellement, une preuve que l'affirmation X est vraie révèle aussi des renseignements sur la raison pour laquelle X est vraie. Les PDNC, cependant, prouvent qu'une déclaration est vraie sans révéler de connaissance supplémentaire. Il est important de noter que les PDNC ne garantissent pas une preuve à 100 %, mais qu'ils offrent un très haut degré de probabilité.

Les PDNC utilisent des algorithmes qui prennent les données en tant qu'entrées et qui renvoient soit « vrai » soit « faux » en tant que sorties. Cela permet à deux parties de vérifier la vérité de l'information sans révéler l'information ou la façon dont la vérité a été déterminée. Par exemple, une personne peut prouver la déclaration « Je suis un adulte âgé d'au moins 21 ans » sans fournir de données aux fins de vérification à un serveur central.

La PDNC a été introduite par des chercheurs du MIT en 1985Notes de bas de page2 et elle est maintenant utilisée pour de nombreuses applications dans le monde réel.

PDNC et autres concepts

La PDNC se distingue des concepts suivants :

De plus, la PDNC ne doit pas être confondue avec la norme de chiffrement avancé, dans le cadre de laquelle les parties partagent un numéro secret. Dans le cas de la PDNC, le démonstrateur montre qu'il possède un numéro secret sans divulguer ce numéro. Dans les deux cas, les parties ont un secret partagé, mais avec la PDNC, l'objectif est de faire des affirmations sans révéler de renseignements superflus.

Comment fonctionne la PDNC?

Pour comprendre le fonctionnement de la PDNC, prenons le scénario d'une démonstratrice (Peggy) et d'un vérificateur (Victor). L'objectif de la PDNC est de prouver une déclaration avec une probabilité très élevée sans révéler de renseignements supplémentaires.

Peggy (la démonstratrice) veut prouver à Victor (le vérificateur, qui est daltonien et ne lui fait pas confiance) que deux balles sont de couleurs différentes (p. ex. une balle verte et une balle rouge). Peggy demande à Victor de révéler une des balles, puis de mettre les deux balles derrière son dos. Puis, Peggy demande à Victor de les échanger ou non, puis de lui en montrer une. Elle répond si c'est la même couleur ou si elle est différente de la précédente. Bien sûr, elle pourrait deviner, mentir, ou être elle-même daltonienne. Ainsi, afin de le convaincre qu'elle dit la vérité, ce processus doit être répété à maintes reprises. En faisant cela, Peggy finira par convaincre Victor qu'elle a la capacité d'identifier correctement les différentes couleurs.

Ce scénario satisfait aux trois critères d'une PDNC :

  1. Validité (la qualité d'être fondé sur une raison valable) : Si Peggy ne disait pas la vérité, ou si elle était daltonienne, elle ne pourrait deviner correctement que 50 % du temps.
  2. Exhaustivité : Après avoir répété ce processus (la « preuve ») à de très nombreuses reprises, la probabilité que Peggy devine correctement serait très faible, convainquant Victor que les balles sont de couleurs différentes.
  3. Connaissance nulle : Victor n'apprend rien de plus; il n'apprend même jamais quelle balle est verte et quelle balle est rouge.

Ce qui est expliqué ci-dessus, c'est la démonstration interactive, qui exige une communication dans les deux sens entre deux parties. Les PDNC d'aujourd'hui utilisent une démonstration non interactive, selon laquelle deux parties ont une clé commune pour transmettre et recevoir de l'information. Par exemple, une clé délivrée par le gouvernement dans le cadre d'un passeport pourrait être utilisée pour démontrer la citoyenneté sans révéler le numéro de passeport ou le nom du citoyen.

Pourquoi est-ce important?

Les PDNC assurent un flux de données sécurisé et invisible, protégeant les renseignements des utilisateurs contre les fuites potentielles et le vol d'identité. Cela améliore le commerce électronique en permettant des transactions plus privées et sécurisées.
L'utilisation de la PDNC aide non seulement à lutter contre les risques liés à la sécurité des données, mais cette technique de vérification minimale viable aide aussi à empêcher la divulgation d'un plus grand nombre de RIP que nécessaire. Cela profite à la fois aux particuliers et aux organisations. Les personnes n'ont pas à partager leurs RIP et les organisations qui sont confrontées à une augmentation des atteintes à la sécurité, et donc à des coûts importants, à une atteinte à la réputation et à une perte de confiance, ne reçoivent pas les RIP qui pourraient être divulgués.
Un autre avantage pour les particuliers et les organisations est une vérification plus efficace, réduisant les processus à goulot d'étranglement qui reposent sur un fardeau de preuve manuel ou inefficace.
Une vérification positive et efficace entre les parties (même les parties non fiables) ouvre de nombreuses pistes de collaboration et de demandes de renseignements.

Applications et cas d'utilisation

Les PDNC peuvent protéger la confidentialité des données dans un ensemble diversifié d'applications et de cas d'utilisation, dont les suivants :

  • Finances : Un demandeur d'hypothèque ou de bail peut prouver que son revenu se situe dans une certaine fourchette sans révéler son salaire. (Selon Dilmegani, 2022, l'institution financière ING utilise déjà cette technologie.)
  • Vote en ligne : La PDNC peut permettre un vote anonyme et vérifiable et contribuer à prévenir la fraude ou la manipulation du vote.
  • Apprentissage automatique : Un propriétaire d'algorithme d'apprentissage automatique peut convaincre les autres des résultats du modèle sans révéler de renseignements sur le modèle.
  • Sécurité de chaînes de blocs : Les transactions peuvent être vérifiées sans partager de renseignements tels que les adresses des portefeuilles et les montants avec des systèmes tiers.
  • Gestion de l'identité et des justificatifs d'identité : La vérification sans identité pourrait s'appliquer à l'authentification, à la messagerie chiffrée de bout en bout, aux signatures numériques ou à toute application nécessitant des mots de passe, des passeports, des certificats de naissance, des permis de conduire ou d'autres formes de vérification de l'identité. Les systèmes de prévention de la fraude pourraient valider les justificatifs d'identité des utilisateurs et les RIP pourraient être anonymisés aux fins de conformité aux règlements ou d'identité décentralisée.
  • Sécurité internationale : Les PDNC permettent de vérifier l'origine d'un élément d'information sans révéler sa source. Cela signifie que les cyberattaques peuvent être attribuées à une entité ou à un pays particulier sans révéler la façon dont les renseignements ont été obtenus. C'est déjà utilisé par le ministère de la Défense des États-Unis (Zero-knowledge proof: how it works and why it's important, n.d.).
  • Désarmement nucléaire : Les pays pourraient échanger en toute sécurité des preuves de désarmement sans exiger l'inspection physique d'installations nucléaires classifiées.
  • Passeports vaccinaux relatifs à la COVID-19 et aux déplacements : Comme c'est actuellement le cas au Danemark, les personnes pourraient prouver leur statut vaccinal sans avoir à fournir leurs RIP (Shilo, 2022).
  • Applications relatives à la vérification ou à la conformité : Tout processus nécessitant une vérification de la conformité pourrait utiliser la PDNC. Cela pourrait comprendre la vérification que les impôts ont été déposés, qu'un avion a été entretenu ou que les données sont conservées par un teneur de registres.
  • Paiements anonymes : Les paiements par carte de crédit pourraient être effectués sans être visibles pour plusieurs parties, comme les fournisseurs de paiements, les banques et les autorités gouvernementales.

Défis

Alors que la PDNC présente de nombreux avantages, elle pose aussi certains défis que doivent prendre en considération les organisations qui souhaitent l'utiliser.

  • Intensité du calcul : Les algorithmes de PDNC sont intenses sur le plan du calcul. Dans le cas des PDNC interactives, de nombreuses interactions entre le vérificateur et le démonstrateur sont requises, et dans le cas des PDNC non interactives, des capacités de calcul importantes sont requises. Cela rend les PDNC inadaptées aux appareils lents ou mobiles et peut causer des problèmes d'extensibilité pour les grandes entreprises.
  • Coûts du matériel : Les entités qui veulent utiliser des PDNC doivent tenir compte des coûts du matériel qui peuvent augmenter les coûts pour les utilisateurs finaux.
  • Hypothèses de confiance : Bien que certains paramètres publics des PDNC soient disponibles aux fins de réutilisation et que les participants à la configuration approuvée sont censés être honnêtes, les destinataires doivent compter sur l'honnêteté des développeurs (What are zero-knowledge proofs?, 2023).
  • Menaces de l'informatique quantique : Bien que les algorithmes cryptographiques de PDNC soient actuellement sécurisés, le développement d'ordinateurs quantiques pourrait éventuellement briser le modèle de sécurité.
  • Coûts d'utilisation de la technologie : Les coûts des PDNC peuvent varier en fonction des exigences de configuration, de l'efficacité, des exigences en matière d'interactivité, de la concision de la preuve et des hypothèses de difficulté requises (Big Data UN Global Working Group, 2019).
  • Manque de normes : Malgré les initiatives en cours visant à normaliser les techniques et les constructions nulles de connaissance, il n'y a toujours pas de normes, de systèmes, ni de langages homogènesNotes de bas de page3.
  • Aucune garantie à 100 % : Même si la probabilité de vérification pendant que le démonstrateur ment peut être considérablement faibleNotes de bas de page4, les PDNC ne garantissent pas que la déclaration est valide à 100 %.
  • Compétences : Les développeurs de PDNC doivent avoir une expertise en cryptographie de PDNC et être conscients des subtilités et des différences entre les garanties fournies par les algorithmes de PDNC.

QuelleS sont les prochaines étapes?

Au cours des dernières années, il y a eu une forte pression en faveur de l'adoption de connaissances nulles dans les applications logicielles. Plusieurs organisations ont construit des applications utilisant des capacités nulles de connaissance (NC), et les PDNC sont largement utilisées pour protéger les chaînes de blocs. Par exemple, la ville de Zoug en Suisse a enregistré tous ses numéros d'identification de citoyens sur une chaîne de blocs (Anwar, 2018).

Bien qu'il doive y avoir des améliorations en matière d'éducation, de normalisation et de certifications de confidentialité relatives à la méthode NC pour améliorer la confiance dans les produits et services NC, les PDNC ont un grand potentiel pour économiser les coûts organisationnels relatifs aux atteintes à la sécurité, ainsi que pour préserver la vie privée des utilisateurs et réduire l'utilisation de RIP comme produit à vendre. Les PDNC aident une organisation à passer de la réaction aux atteintes à la sécurité à leur prévention.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Sujets connexes

Authentification, chaîne de blocs, Web 3.0, techniques d'amélioration de la confidentialité : confidentialité différentielle, chiffrement homomorphe, calcul sécurisé multipartite, environnement d'exécution de confiance

Références

Date de modification :

Le raisonnement qui sous-tend les décisions prises par un réseau de neurones profond

Par : Oladayo Ogunnoiki, Statistique Canada

Introduction

En mai 2016, Microsoft a présenté Tay à la twittosphère. Tay était un robot conversationnel expérimental à intelligence artificielle (IA) en matière de « compréhension de la conversation ». Plus on discutait avec Tay, plus son intelligence pouvait augmenter. Cependant, il n'a pas fallu longtemps pour que l'expérience tourne mal. Tay était censé avoir des discussions ludiques avec les gens, mais ce badinage ludique s'est rapidement transformé en commentaire misogyne et raciste.

Certes, le public était resté perplexe devant la tournure qu'avaient prise ces événements. Si ce robot était intrinsèquement grossier, pourquoi les autres modèles d'IA ne perdraient-ils pas aussi le cap? La plupart des utilisateurs de Twitter ont eu l'impression que ce fâcheux événement n'était qu'un soupçon de ce qui allait advenir si notre avenir allait effectivement se trouver empreint d'une profusion de modèles d'IA. Cependant, la plupart des scientifiques des données comprenaient la véritable raison qui avait poussé Tay à faire ce commentaire disgracieux — le robot ne faisait que répéter ce qu'il avait appris des utilisateurs eux-mêmes (Vincent, 2016).

Le monde de l'IA continue de croître de façon exponentielle et, avec des histoires comme celle-ci qui se produisent tout le temps, il est grandement nécessaire d'accroître la confiance du public à l'égard des produits de l'IA. Pour gagner cette confiance, la transparence et la capacité d'expliquer sont de la plus haute importance.

L'une des principales questions que poserait quiconque interagit avec un modèle d'IA comme Tay est : « Pourquoi le modèle a-t-il pris cette décision? » Plusieurs outils ont été conçus pour expliquer le raisonnement qu'adoptent ces modèles et répondre à cette question. Il n'est peut-être pas étonnant que les représentations visuelles soient une façon efficace d'expliquer cela. Dans leur travail, Ramprasaath et coll. (2017) décrivent les exigences d'une bonne représentation visuelle; celle-ci doit être exempte de discrimination classiste et avoir une haute résolution. Ces critères servent de lignes directrices pour déterminer le défi à relever, soit trouver une solution qui fournit une représentation visuelle à haute résolution et permet la discrimination des classes pour les décisions d'un réseau neuronal.

Certaines des techniques qui fournissent des représentations visuelles comprennent la déconvolution, la rétropropagation guidée, la carte d'activation de classe (CAM), la CAM pondérée par gradient (Grad-CAM), la Grad-CAM++, la Hi-Res-CAM, la Score-CAM, l'Ablation-CAM, la X-Grad-CAM, l'Eigen-CAM, le Full-Grad et la factorisation profonde des caractéristiques. Aux fins du présent article, nous allons nous concentrer sur la Grad-CAM.

La Grad-CAM est un outil à source ouverte qui produit des représentations visuelles pour les décisions d'une grande classe de réseaux de neurones convolutifs. Elle fonctionne en mettant en évidence les zones de l'image qui ont la plus grande influence sur la prédiction finale du réseau neuronal profond, ce qui donne un aperçu du processus décisionnel du modèle.

La Grad-CAM est fondée sur la CAM qui utilise l'activation de la carte des caractéristiques par rapport à la classe cible. Elle est propre à certains types de réseaux neuronaux, comme le réseau du Visual Geometry Group et le réseau résiduel (ResNet). Il utilise le gradient de la classe cible par rapport aux cartes des caractéristiques de la couche finale. La Grad-CAM est une méthode générique qui peut être appliquée à différents types de réseaux neuronaux. La combinaison des caractéristiques fait de la Grad-CAM un outil fiable et précis pour comprendre le processus décisionnel des réseaux neuronaux profonds. La Grad-CAM guidée est améliorée en intégrant les gradients du processus de rétropropagation guidée afin de produire une carte thermique plus raffinée. L'une des limites est qu'elle est seulement capable de visualiser les zones de l'image qui sont les plus importantes pour la prédiction finale, par opposition à l'ensemble du processus décisionnel du réseau neuronal profond. Cela signifie qu'elle ne peut fournir une compréhension complète de la façon dont le modèle fait ses prédictions.

Les avantages de la Grad-CAM comprennent les suivants :

  • Il n'y a aucun compromis entre la complexité et la performance du modèle, ce qui permet plus de transparence.
  • Elle s'applique à un large éventail de réseaux de neurones convolutifs (RNC).
  • Elle permet de très bien discriminer les classes.
  • Elle est utile pour diagnostiquer les modes de défaillance en découvrant les biais dans les ensembles de données.
  • Elle aide les utilisateurs non formés à reconnaître un réseau fort ou un réseau faible, même lorsque les prédictions sont identiques.

Méthodologie

La Grad-CAM peut être utilisée dans plusieurs projets de vision par ordinateur comme la classification d'images, la segmentation sémantique, la détection d'objets, le sous-titrage d'images, la réponse aux questions visuelles, etc. Elle peut être appliquée aux RNC et a récemment été rendue disponible sur les architectures de type transformeur.

Voici comment la Grad-CAM fonctionne dans la classification des images, où l'objectif est de faire la distinction entre différentes classes :

Le flux du processus de la carte d’activation de classe pondérée par gradient (Grad-CAM)
Déscription - Figure 1 Le flux du processus de la carte d'activation de classe pondérée par gradient (Grad-CAM)

Une image passe par un RNC et un réseau propre à la tâche pour obtenir un score brut pour la classe de l'image. Ensuite, les gradients sont réglés à zéro pour toutes les classes, à l'exception de la classe désirée, qui est définie à un. Ce signal est ensuite rétropropagé aux cartes des caractéristiques convolutives rectifiées d'intérêt, qui sont combinées pour calculer une carte thermique bleue qui représente l'endroit où le modèle doit regarder pour décider de la classe. Enfin, la carte thermique est multipliée point par point par la rétropropagation guidée, ce qui produit des visualisations Grad-CAM guidées qui sont à haute résolution et propres au concept.

Dans le cas d'une tâche de classification d'image, pour obtenir la carte de localisation discriminative de classe Grad-CAM, LGrad-CAMc , pour un modèle sur une classe spécifique, les étapes suivantes sont suivies :

  • Pour une classe spécifique, c, la dérivée partielle du score, yc , de la classe, c, en ce qui concerne les cartes de caractéristiques, Ak , d'une couche convolutive est calculée au moyen de la rétropropagation.
    ycAijk
  • Les gradients qui remontent en raison de la rétropropagation sont regroupés par mise en commun globale de la moyenne. Cela produit un ensemble de scalaires de poids. Voici les poids d'importance des neurones.
    αkc= 1ZijycAijk
  • Les poids scalaires dérivés sont appliqués (combinaison linéaire) à la carte des caractéristiques. Le résultat est transmis par une fonction d'activation de l'unité linéaire rectifiée (ou ReLU pour Rectified Linear Unit).
    LGrad-CAMc=ReLUkαkcAk
  • Le résultat est mis à l'échelle et appliqué à l'image, mettant en évidence les zones sur lesquelles se concentre le réseau neuronal. Comme nous l'avons vu, une fonction d'activation ReLU est appliquée à la combinaison linéaire de cartes, parce qu'elle ne s'intéresse qu'aux pixels ou aux caractéristiques ayant une influence positive sur le score de classe, yc .

Démonstration de la Grad-CAM

Deux chats et deux télécommandes
Déscription - Figure 2 Deux chats et deux télécommandes

Image où figurent deux chats égyptiens allongés sur un canapé rose avec une télécommande à la gauche de chacun.

La figure 2 est une image illustrant deux chats égyptiens et deux télécommandes. L'image a été dérivée de l'ensemble de données d'images de chat de Hugging Face, au moyen de leur bibliothèque Python. L'objectif est de déterminer les éléments de l'image au moyen de différents modèles d'apprentissage profond préentraînés. On utilise une trousse PyTorch appelée PyTorch-GradCAM. La fonction Grad-CAM détermine les aspects de l'image qui activent la carte des caractéristiques de la classe chat égyptien et de la classe télécommande. Après avoir suivi le tutoriel de PyTorch-GradCAM, les résultats de la Grad-CAM sont répliqués pour différents réseaux neuronaux profonds.

Résultats de la Grad-CAM d’une architecture Resnet-50 préentraînée pour classer l’image de la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 3 Résultats de la Grad-CAM d'une architecture Resnet-50 préentraînée pour classer l'image de la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Images de carte thermique générées à partir d'une architecture Resnet-50 au moyen d'une Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les zones qui contribuent le plus à la décision prise par le modèle. Il y a peu de zones intenses pour le chat, tandis que les télécommandes sont presque entièrement captées, mais pas de façon très intense.

La figure 2 est analysée par un réseau neuronal résiduel préentraîné (Resnet-50), conformément au tutoriel de PyTorch-Grad-CAM. La figure 3 est l'image générée au moyen de la Grad-CAM. Pour la classe chat égyptien, les pattes, les rayures et le visage des chats ont activé la carte des caractéristiques. Pour les télécommandes, ce sont les boutons et le profil qui ont activé la carte des caractéristiques. Les principales classes 5k prédites par modèle de réponse logit sont la télécommande, le chat tigré, le chat égyptien, le chat domestique marbré et l'oreiller. Ce modèle semble être plus sûr que l'image contient des télécommandes et des chats. La catégorie Oreiller s'est classée parmi les cinq premières catégories de la liste, bien que le modèle soit moins sûr. Cela pourrait être causé par le fait que le modèle a été formé avec des oreillers à imprimé de chat.

Les résultats de la Grad-CAM provenant d’un transformeur de fenêtre décalé (transformeur SWIN) préentraîné pour classer la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 4 Les résultats de la Grad-CAM provenant d'un transformeur de fenêtre décalé (transformeur SWIN) préentraîné pour classer la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Les images de carte thermique générées à partir d'un transformeur de fenêtre décalé (transformeur SWIN), en utilisant la Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les régions qui contribuent le plus à la décision prise par le modèle. Il y a plus de zones intenses pour les chats, tandis que les télécommandes sont presque entièrement captées avec une forte intensité.

Comme l'architecture Resnet-50, la même image est analysée par un transformeur de fenêtre décalé préentraîné. La figure 4 montre que la fourrure, les rayures, le visage et les pattes des chats sont des zones activées sur la carte des caractéristiques en ce qui concerne la catégorie chat égyptien. Il en va de même pour la carte des caractéristiques en ce qui concerne les télécommandes. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat domestique marbré, le chat tigré, le chat domestique et le chat égyptien. Ce modèle est plus sûr que l'image montre des chats que des télécommandes.

Résultats de l’étude Grad-CAM d’une architecture de transformeur de vision préentraînée dans la classification de l’image à la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.
Déscription - Figure 5 Résultats de l'étude Grad-CAM d'une architecture de transformeur de vision préentraînée dans la classification de l'image à la figure 2. Cette image a été générée en appliquant la Grad-CAM à la figure 2 dans un bloc-notes Jupyter.

Images de la carte thermique générées à partir d'un transformeur de vision, au moyen de la Grad-CAM pour la classe chat égyptien (à gauche) et la classe télécommande (à droite). L'intensité de la couleur rouge montre les zones qui contribuent le plus à la décision du modèle. Les chats sont entièrement captés en haute intensité. Les distances sont aussi captées, mais pas avec une intensité équivalente. De plus, d'autres régions des images sont mises en surbrillance, même si elles ne font partie d'aucune des classes.

Comme nous l'avons vu ci-dessus, plus de zones de la carte des fonctions sont activées, y compris des sections de l'image qui ne comportaient pas de caractéristiques du chat. Il en va de même pour les régions de la carte des caractéristiques par rapport à la classe Télécommande. Les principales classes 5k prédites, par modèle de réponse logit, sont le chat égyptien, le chat tigré, le chat domestique marbré, la télécommande et le lynx.

Les résultats de la Grad-CAM avec les principales classes 5k pour différentes architectures peuvent être utilisés pour favoriser une sélection de l'architecture de transformeur de vision (VIT) pour les tâches liées à l'identification des chats égyptiens et des télécommandes.

Conclusion

Certains des défis dans le domaine de l'IA comprennent l'accroissement de la confiance des gens dans les modèles développés et la compréhension du raisonnement qui sous-tend la prise de décision propre à ces modèles pendant le développement. Les outils de visualisation comme la Grad-CAM fournissent un aperçu de ces justifications et aident à mettre en évidence les différents modes d'échec des modèles d'IA pour des tâches particulières. Ces outils peuvent être utilisés pour repérer les erreurs dans les modèles et améliorer leur performance. En plus de la Grad-CAM, d'autres outils de visualisation ont été développés comme la Score-CAM, qui fonctionne encore mieux dans l'interprétation du processus décisionnel des réseaux neuronaux profonds. Cependant, la Grad-CAM sera préférée à la Score-CAM en raison de sa simplicité et de son agnosticisme aux architectures modèles. L'utilisation d'outils comme la Grad-CAM devrait être favorisée pour la représentation visuelle du raisonnement sous-jacent aux décisions prises par les modèles d'IA.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Bibliographie

  • S. R. Ramprasaath, C. Michael, D. Abhishek, V. Ramakrishna, P. Devi et B. Dhruv, « Grad-CAM: Visual Explanations from Deep Networks through Gradient-based Localization », dans ICCV, IEEE Computer Society, 2017, p. 618-626.
  • Z. Bolei, K. Aditya, L. Agata, O. Aude et T. Antonio, « Learning Deep Features for Discriminative Localization », CoRR, 2015.
  • J. Vincent, « Twitter taught Microsoft's AI chatbot to be racist in less than a day », dans The Verge, 2016.
Date de modification :

Apprentissage auto-supervisé en vision par ordinateur : classification d’images

Par : Johan Fernandes, Statistique Canada

Introduction

La vision par ordinateur comprend des tâches telles que la classification d'images, la détection d'objets et la segmentation d'images Note de bas de page 1. La classification d'images consiste à affecter une image entière à l'une de plusieurs classes finies. Par exemple, si une image contient un « chien » qui occupe 90 % de l'espace, elle est étiquetée comme étant un « chien ». De multiples modèles d'apprentissage profond (AP) utilisant des réseaux de neurones artificiels (RNA) ont été élaborés pour classer les images avec une grande précision. Les modèles de pointe pour cette tâche utilisent des RNA de différentes profondeurs et largeurs.

Ces modèles d'AP sont entraînés sur plusieurs images de différentes classes afin de développer leurs capacités de classification. À l'instar de l'entraînement d'un enfant humain pour faire la distinction entre les images d'une « voiture » et d'un « vélo », ces modèles doivent se voir présenter de multiples images de classes telles que « voiture » et « vélo » pour générer cette connaissance. Cependant, les humains ont l'avantage supplémentaire d'élaborer un contexte en observant leur environnement. Notre esprit peut capter des signaux sensoriels (sonores et visuels) qui nous aident à développer cette connaissance pour tous les types d'objets Note de bas de page 2. Par exemple, lorsque nous observons une voiture sur la route, notre esprit peut générer des connaissances contextuelles sur l'objet (la voiture) grâce à des caractéristiques visuelles telles que l'emplacement, la couleur, la forme, l'éclairage entourant l'objet et l'ombre qu'il crée.

Par ailleurs, un modèle d'AP créé expressément pour la vision par ordinateur doit être formé pour développer ces connaissances qui sont stockées sous la forme de poids et de biais qu'il utilise dans son architecture. Ces poids et ces biais sont mis à jour en fonction de ces connaissances lors de l'apprentissage du modèle. Le processus d'entraînement le plus courant, appelé apprentissage supervisé, consiste à entraîner le modèle avec l'image et l'étiquette correspondante afin d'améliorer sa capacité de classification. Cependant, la génération d'étiquettes pour toutes les images est chronophage et coûteuse, car cela implique que des annotateurs humains génèrent manuellement des étiquettes pour chacune des images. Par contre, l'apprentissage auto-supervisé est un nouveau paradigme d'entraînement qui peut être utilisé pour entraîner des modèles d'AP afin de classer des images sans le goulot d'étranglement d'étiquettes bien définies pour chaque image pendant l'entraînement. Dans le cadre de ces travaux, je décrirai l'état actuel de l'apprentissage auto-supervisé et son incidence sur la classification d'images.

Importance de l'apprentissage auto-supervisé

L'apprentissage auto-supervisé vise à mettre en place un environnement permettant d'entraîner le modèle d'AP à extraire le maximum de caractéristiques ou de signaux de l'image. Des études récentes ont montré que la capacité d'extraction de caractéristiques des modèles d'AP est limitée lorsqu'ils sont entraînés avec des étiquettes, car ils doivent sélectionner des signaux qui les aideront à élaborer un modèle pour associer des images semblables à cette étiquette Note de bas de page 2, Note de bas de page 3. Avec l'apprentissage auto-supervisé, le modèle est entraîné à comprendre les signaux sensoriels (p. ex. la forme et le contour d'objets) des images d'entrée sans qu'on lui montre les étiquettes associées.

En outre, puisque l'apprentissage auto-supervisé ne limite pas le modèle à l'élaboration d'une représentation discrète (étiquette) d'une image, il peut apprendre à extraire des caractéristiques beaucoup plus riches d'une image que son équivalent supervisé. Il dispose d'une plus grande liberté pour améliorer la façon dont il représente une image, car il n'a plus besoin d'être entraîné à associer une étiquette à une image Note de bas de page 3. Au lieu de cela, le modèle peut se concentrer sur l'élaboration d'une représentation des images grâce aux caractéristiques améliorées qu'il extrait et sur l'identification d'un modèle permettant de regrouper les images d'une même classe.

L'apprentissage auto-supervisé utilise davantage de signaux de réaction pour améliorer sa connaissance d'une image que l'apprentissage supervisé Note de bas de page 2. Par conséquent, le terme « auto‑supervisé » est de plus en plus souvent utilisé à la place de « non supervisé », car on peut faire valoir que les modèles d'AP reçoivent des signaux d'entrée provenant des données plutôt que des étiquettes. Cependant, ils bénéficient d'une certaine forme de supervision et ne sont pas complètement laissés à eux-mêmes dans le processus d'entraînement. Dans la section suivante, je décrirai les composantes nécessaires à l'apprentissage auto-supervisé.

Ces signaux sont améliorés par une technique appelée « augmentation des données », dans laquelle l'image est recadrée, certaines sections de l'image sont cachées ou le schéma de couleurs de l'image est modifié. À chaque augmentation, le modèle d'AP reçoit une image différente de la même classe ou catégorie que l'image originale. En exposant le modèle à de telles images augmentées, il peut être entraîné à extraire des caractéristiques riches fondées sur les sections visibles de l'imageNote de bas de page 4. En outre, cette méthode d'entraînement élimine le temps système lié à la génération d'étiquettes pour toutes les images, permettant ainsi d'adapter la classification d'images à des domaines où les étiquettes ne sont pas facilement disponibles.

Composantes des méthodes d'apprentissage auto-supervisé :

Encodeur ou extracteur de caractéristiques :

En tant qu'être humain, lorsque nous regardons une image, nous pouvons automatiquement recenser des caractéristiques telles que le contour et la couleur des objets afin de déterminer le type d'objet dans l'image. Pour qu'une machine puisse effectuer une telle tâche, nous utilisons un modèle d'AP, que nous appelons encodeur ou extracteur de caractéristiques puisqu'il peut automatiquement coder et extraire les caractéristiques d'une image. L'encodeur se compose de couches de RNA ordonnées de façon séquentielle, comme le montre la figure 1.

Figure 1. Composantes d’un encodeur ou extracteur de caractéristiques d’apprentissage profond

Figure 1: Composantes d’un encodeur ou extracteur de caractéristiques d’apprentissage profond

L’image décrit la structure d’un encodeur ou d’un extracteur de caractéristiques ainsi qu’un exemple de l’entrée qu’il reçoit et de la sortie qu’il fournit. L’entrée dans l’encodeur est une image qui, dans ce cas, montre un chien et la sortie est un vecteur qui peut représenter cette image dans un espace dimensionnel supérieur. L’encodeur est constitué de plusieurs couches neuronales à couche unique qui sont empilées l’une sur l’autre ou à côté l’une de l’autre, comme le montre cette image. Chaque couche se compose de plusieurs neurones convolutifs. Ces couches choisiront des caractéristiques essentielles qui aideront l’encodeur à représenter l’image comme un vecteur qui constitue la sortie finale de l’encodeur. Le vecteur qu’il produit à la fin aura n dimensions, et chaque dimension sera réservée à une caractéristique. Ce vecteur peut être projeté dans un espace n-dimensionel et peut être utilisé pour regrouper des vecteurs de la même classe comme un chien ou un chat.

Une image contient plusieurs caractéristiques. La tâche de l'encodeur consiste à extraire uniquement les caractéristiques essentielles, à faire abstraction du bruit et à convertir ces caractéristiques en une représentation vectorielle. Cette représentation codée de l'image peut être projetée dans un espace n-dimensionnel ou latent, selon la taille du vecteur. Par conséquent, pour chaque image, l'encodeur génère un vecteur représentant l'image dans cet espace latent. Le principe sous-jacent est de s'assurer que les vecteurs d'images de la même classe peuvent être regroupés dans cet espace latent. Par conséquent, les vecteurs de « chats » seront regroupés, tandis que les vecteurs de « chiens » formeront un groupe distinct, les deux groupes de vecteurs étant clairement séparés l'un de l'autre.

Les encodeurs sont entraînés pour améliorer leur représentation d'images afin de pouvoir coder des caractéristiques plus riches des images dans des vecteurs qui aideront à distinguer ces vecteurs dans l'espace latent. Les vecteurs générés par les encodeurs peuvent être utilisés pour traiter de multiples tâches de vision par ordinateur, telles que la classification d'images et la détection d'objets. Les couches de RNA dans l'encodeur sont traditionnellement des couches d'un réseau neuronal convolutif (RNC), comme le montre la figure 1. Toutefois, les derniers modèles d'AP utilisent des couches de réseau attentionnel dans leur architecture. Ces encodeurs sont appelés transformateurs, et des travaux récents ont commencé à les utiliser pour traiter la classification d'images en raison de leur incidence dans le domaine du traitement du langage naturel. Les vecteurs peuvent être transmis à des modèles de classification, qui peuvent être une série de couches de RNA ou des modèles basés sur le regroupement, tels que le classificateur k plus proches voisins (KPPV). La littérature actuelle sur l'apprentissage auto-supervisé utilise les classificateurs KPPV pour regrouper les images, car ils ne requièrent que le nombre de groupes comme argument et n'ont pas besoin d'étiquettes.

Augmentation des données :

Les étiquettes d'images ne sont pas fournies aux encodeurs entraînés de manière auto-supervisée. Par conséquent, la capacité de représentation des encodeurs doit être améliorée uniquement à partir des images qu'ils reçoivent. En tant qu'être humain, nous pouvons regarder des objets sous différents angles et perspectives afin d'en comprendre la forme et le contour. De même, les images augmentées aident les encodeurs en offrant des perspectives différentes des images d'apprentissage originales. Ces perspectives d'image peuvent être développées en appliquant à l'image des stratégies telles que le redimensionnement, le rognage et le décalage de couleurs, comme le montre la figure 2. Les images augmentées améliorent la capacité de l'encodeur à extraire des caractéristiques riches d'une image en apprenant à partir d'une section ou d'une parcelle de l'image et en appliquant ces connaissances pour prédire d'autres sections de l'image Note de bas de page 4.

Figure 2. Stratégies d’augmentation pouvant être utilisées pour entraîner des encodeurs dans un format auto-supervisé. Ces stratégies d’augmentation sont appliquées de manière aléatoire à l’image lors de l’entraînement des encodeurs.

Figure 2 : Stratégies d’augmentation pouvant être utilisées pour entraîner des encodeurs dans un format auto-supervisé. Ces stratégies d’augmentation sont appliquées de manière aléatoire à l’image lors de l’entraînement des encodeurs.

L’image comporte quatre façons de représenter une image pour l’entraînement de type apprentissage auto supervisé. Une image d’un chien corgi est utilisée comme échantillon dans ce cas. La première façon est l’image originale en elle-même sans filtres supplémentaires sur l’image. La deuxième façon est de retourner l’image horizontalement. Ainsi, l’image du chien corgi qui regardait à l’origine vers sa gauche regarde maintenant vers sa droite. La troisième façon est de redimensionner l’image et de recadrer une section de l’image qui comporte l’objet d’intérêt. Dans ce cas, le chien corgi est au centre de l’image, donc une version recadrée de la tête du chien et d’une partie de son corps est utilisée comme image augmentée. La dernière façon est de changer l’échelle de couleur de l’image, soit l’augmentation par décalage de couleur. La couleur du chien qui était de couleur dorée dans l’image d’origine prendra une couleur bleue dans le cadre de cette stratégie d’augmentation.

Architecture de réseau siamois :

De nombreuses méthodes d'apprentissage auto-supervisé utilisent l'architecture de réseau siamois pour entraîner les encodeurs. Comme le montre la figure 3, un réseau siamois est constitué de deux encodeurs qui peuvent partager la même architecture (p. ex. ResNet-50 pour les deux encodeurs) Note de bas de page 3. Les deux encodeurs reçoivent des lots d'images pendant l'entraînement (lots d'entraînement). Les deux encodeurs recevront une image de chaque lot, mais avec des stratégies d'augmentation différentes appliquées aux images qu'ils reçoivent. Comme le montre la figure 3, nous considérons les deux encodeurs E1 et E2. Dans ce réseau, l'image (x) est augmentée par deux stratégies différentes pour générer x1 et x2, qui sont respectivement transmises à E1 et E2. Chaque encodeur fournit alors une représentation vectorielle de l'image, qui peut être utilisée pour mesurer la similarité et calculer la perte.

Pendant la phase d'apprentissage, les poids entre les deux encodeurs sont mis à jour à l'aide d'un processus appelé distillation des connaissances. Il s'agit d'un format d'entraînement étudiant-enseignant. L'encodeur étudiant est entraîné en ligne et subit une propagation vers l'avant et vers l'arrière, tandis que les poids de l'encodeur enseignant sont mis à jour à intervalles réguliers à l'aide de poids stables de l'étudiant avec des techniques telles que la moyenne mobile exponentielle Note de bas de page 3.

Figure 3. Un réseau siamois composé de deux encodeurs entraînés en parallèle pour générer des représentations d’images, garantissant que les représentations d’images de la même classe sont semblables les unes aux autres.

Figure 3. Un réseau siamois composé de deux encodeurs entraînés en parallèle pour générer des représentations d’images, garantissant que les représentations d’images de la même classe sont semblables les unes aux autres.

L’image décrit la configuration d’un réseau siamois, une technique populaire pour l’entraînement des encodeurs auto-supervisés. Le réseau siamois est composé de deux encodeurs qui auront la même architecture de réseau neuronal. Les deux encodeurs sont entraînés en parallèle. L’image montre qu’une image d’un chien corgi est envoyée aux deux encodeurs. Un encodeur se comporte comme un élève qui s’appelle E1 tandis que l’autre encodeur se comporte comme un enseignant qui s’appelle E2. E1 reçoit l’image d’un chien corgi augmentée par recadrage et retournement horizontal. E2 reçoit une image du même chien corgi que E1 augmentée par recadrage et décalage de couleurs. L’image montre également que les deux encodeurs partagent leurs connaissances au moyen de poids à intervalles réguliers pendant la phase d’entraînement. Les deux encodeurs fournissent des représentations vectorielles comme sortie finale. Une cote de similitude est calculée pour mesurer si le E1 a pu apprendre au moyen des poids stables du E2 et améliorer ses connaissances de représentation.

Méthodes d'apprentissage auto-supervisé contrasté et non contrasté :

Toutes les méthodes d'apprentissage auto-supervisé disponibles utilisent ces composantes, avec quelques modifications supplémentaires pour améliorer leur performance respective. Ces méthodes d'apprentissage peuvent être regroupées en deux catégories :

Figure 4. Paire positive et négative de morceaux d’image.

Figure 4. Paire positive et négative de morceaux d’image.

L’image montre comment on peut créer des paires positives et négatives d’images. L’image est divisée en deux parties. Dans la première partie, il y a deux images différentes de chiens corgi. L’augmentation par recadrage est utilisée pour extraire les sections importantes comme le visage et le corps des chiens et pour créer deux nouvelles images. Les nouvelles images augmentées par recadrage des deux images de chiens corgi peuvent maintenant être considérées comme une paire positive comme le montre l’image. Dans la deuxième partie de cette image, un exemple d’une paire négative d’images est montré. Contrairement à la première partie, il y a une image originale d’un chien corgi et une autre d’un chat. Une fois que l’augmentation par recadrage est effectuée sur ces images, nous voyons deux nouvelles images des originaux. L’un a le visage du chat tandis que l’autre a le visage du chien corgi. Ces nouvelles images seront considérées comme une paire négative d’images.

Méthodes d'apprentissage contrasté

Ces méthodes nécessitent des paires positives et négatives de chaque image pour entraîner et améliorer la capacité de représentation des encodeurs. Elles utilisent la perte contrastive pour entraîner les encodeurs dans un réseau siamois avec distillation des connaissances. Comme le montre la figure 4, une paire positive est une image augmentée ou un morceau de la même classe que l'image originale. Une paire négative serait une image ou un morceau d'une autre image appartenant à une classe différente. La fonction sous-jacente de toutes les méthodes d'apprentissage contrasté est d'aider les encodeurs à générer des vecteurs de sorte que les vecteurs des paires positives soient plus proches les uns des autres et que ceux des paires négatives soient plus éloignés les uns des autres dans l'espace latent.

De nombreuses méthodes populaires, telles que SimCLR Note de bas de page 4 et MoCo Note de bas de page 5, sont fondées sur ce principe et fonctionnent efficacement sur de grands ensembles de données d'objets naturels comme ImageNet. Des paires d'images positives et négatives sont fournies dans chaque lot d'entraînement afin d'éviter que les encodeurs ne s'effondrent dans un état où ils produisent des vecteurs que d'une seule classe. Cependant, pour entraîner les encodeurs avec des paires d'images négatives, ces méthodes reposent sur des lots de grande taille (jusqu'à 4 096 images dans un lot d'entraînement). En outre, de nombreux ensembles de données, contrairement à ImageNet, ne comportent pas de multiples images par classe, ce qui rend la génération de paires négatives dans chaque lot difficile, voire impossible. Par conséquent, la recherche récente s'oriente vers des méthodes d'apprentissage non contrasté.

Méthodes d'apprentissage non contrasté

Des méthodes telles que DINO Note de bas de page 3, BYOL Note de bas de page 6 et BarlowTwins Note de bas de page 7 entraînent les encodeurs dans un format auto-supervisé sans qu'il soit nécessaire de distinguer les images en paires positives et négatives dans leurs lots d'entraînement. Les méthodes telles que DINO continuent d'utiliser le réseau siamois dans un format étudiant-enseignant et s'appuient sur une forte augmentation des données. Cependant, elles améliorent les méthodes d'apprentissage contrasté en y apportant quelques améliorations :

  • Les morceaux d'images fournissent une vue locale de l'image à l'étudiant et une vue globale de l'image à l'encodeur enseignant Note de bas de page 3.
  • Une couche de prédiction est ajoutée à l'encodeur étudiant pour générer une sortie fondée sur la probabilité Note de bas de page 3. Cette couche est utilisée uniquement pendant l'entraînement.
  • Au lieu de calculer la perte de contraste entre les paires d'images, la sortie des encodeurs est utilisée pour calculer un type de classification de perte, tel que l'entropie croisée ou la perte L2, pour déterminer si les vecteurs de sortie des encodeurs étudiants et enseignants sont semblables ou non Note de bas de page 3, Note de bas de page 6, Note de bas de page 7, Note de bas de page 8.
  • Recours à la méthode de moyenne mobile exponentielle ou à toute autre méthode de moyenne mobile pour mettre à jour les poids du réseau enseignant à partir des poids en ligne du réseau étudiant, tout en évitant la rétropropagation sur le réseau enseignant Note de bas de page 3, Note de bas de page 6, Note de bas de page 7, Note de bas de page 8.

Contrairement aux méthodes d'apprentissage contrasté, ces méthodes ne nécessitent pas de lots de grande taille pour l'entraînement et n'ont pas besoin de temps système supplémentaire pour garantir la présence de paires négatives dans chaque lot d'entraînement. En outre, les modèles d'apprentissage profond (AP) tels que le transformeur de vision, qui ont la capacité d'apprendre à partir de la vue locale d'une image et de prédire d'autres vues locales semblables tout en tenant compte de la vue globale, ont remplacé les encodeurs de RNC classiques. Ces modèles ont permis d'améliorer les méthodes d'apprentissage non contrasté pour dépasser les précisions de classification d'images des techniques d'apprentissage supervisé.

Conclusion

L'apprentissage auto-supervisé est un processus d'entraînement qui peut aider les modèles d'AP à s'entraîner plus efficacement que les méthodes populaires d'apprentissage supervisé sans le recours à des étiquettes. Cette efficacité est évidente dans la précision supérieure que les modèles d'AP ont atteinte sur des ensembles de données populaires tels que ImageNet lorsqu'ils sont entraînés dans une configuration auto-supervisée comparativement à une configuration supervisée. En outre, l'apprentissage auto-supervisé élimine la nécessité d'étiqueter les images avant l'entraînement, ce qui constitue un avantage supplémentaire. L'avenir est prometteur pour les solutions qui adoptent ce type d'apprentissage pour les tâches de classification d'images, car un nombre croissant de recherches sont menées sur ses applications dans des domaines qui n'impliquent pas d'objets naturels, tels que les images médicales et documentaires.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Date de modification :

S’attaquer à la surcharge de renseignements : l’application d’intelligence artificielle « Document Cracker » d’Affaires mondiales Canada rationalise les efforts de réponse aux crises

Par : l’équipe de science des données d’Affaires mondiales Canada

Introduction

Lorsqu’une crise mondiale survient, les représentants du gouvernement sont souvent confrontés au défi de passer au crible un déluge de nouveaux renseignements pour trouver ceux qui sont importants et qui les aideront à gérer efficacement la réponse du Canada. Par exemple, à la suite de l’invasion de l’Ukraine par la Russie en février 2022, une proportion importante des missions diplomatiques du Canada ont commencé à rédiger des rapports de situation sur les développements locaux liés au conflit. Compte tenu du nombre élevé de ces rapports de situation, ainsi que des comptes rendus de réunions, des déclarations tirées de réunions internationales et des rapports des médias d’information, il est rapidement devenu impossible pour les décideurs individuels de lire manuellement tous les renseignements pertinents mis à leur disposition.

Pour relever ce défi, l’équipe de science des données d’AMC a mis au point un outil de recherche et d’analyse de documents appelé Document Cracker (ci-après « DocCracker ») qui aide les représentants à trouver rapidement les renseignements dont ils ont besoin. À la base, DocCracker offre deux fonctions essentielles : 1) la possibilité d’effectuer des recherches dans un grand nombre de documents à l’aide d’une plateforme d’indexation sophistiquée; 2) la possibilité de surveiller automatiquement les nouveaux documents pour y trouver des sujets particuliers, des tendances émergentes et des mentions de personnes, de lieux ou d’organisations clés. Dans le contexte de l’invasion russe, ces fonctions de l’application visent à permettre aux représentants du Canada de relever rapidement les questions urgentes, d’adopter une position privilégiée par rapport à celles-ci et de suivre l’évolution des positions des autres pays. Grâce à de tels renseignements, l’application peut jouer un rôle clé en aidant les responsables à concevoir et à mesurer les répercussions actuelles de la réponse du Canada à la crise.

Veuillez prendre note que même si DocCracker a été mis au point expressément en réponse aux événements en Ukraine, l’application a également été conçue comme application multilocataire qui peut fournir des interfaces de recherche et de suivi distinctes pour de nombreuses questions mondiales en même temps. Par exemple, l’agrandissement de l’application est en cours pour soutenir l’analyse des événements géopolitiques au Moyen-Orient.

Aperçu de l’application

Du point de vue de l’utilisateur, l’interface de DocCracker comprend une page de destination qui comporte une barre de recherche et une variété de fiches de contenu qui suivent les mises à jour récentes concernant des régions géographiques et des personnes d’intérêt précises. L’utilisateur peut se concentrer sur ces mises à jour récentes ou effectuer une recherche, qui renvoie une liste de documents classés. La sélection d’un document permet d’accéder à la transcription sous-jacente, ainsi qu’à l’ensemble des liens vers des documents connexes. Les utilisateurs peuvent également accéder aux métadonnées associées à chaque document, qui comprennent des listes de sujets, d’organisations, de personnes, de lieux et de phrases clés extraites automatiquement. En tout temps, une bannière située en haut de la page de l’application permet aux utilisateurs d’accéder à une série de tableaux de bord qui mettent en évidence les tendances globales et propres à la mission concernant une liste prédéfinie de 10 sujets importants (p. ex. la sécurité alimentaire, les crimes de guerre et la crise de l’énergie).

Pour permettre ces expériences utilisateur, DocCracker met en œuvre un pipeline logiciel qui : a) charge les nouveaux documents disponibles à partir d’un éventail de sources de données internes et externes; b) « déchiffre » ces documents en appliquant une variété d’outils de traitement du langage naturel pour extraire des données structurées; c) utilise ces données structurées pour créer un index de recherche qui prend en charge les requêtes et la création de tableaux de bord. La figure 1 ci-dessous donne un aperçu visuel du pipeline.

Figure 1 : Pipeline de traitement de DocCracker

Figure 1 : Pipeline de traitement de DocCracker

Pendant la phase de « chargement » du pipeline, les sources de données internes et externes sont intégrées et prétraitées pour extraire des métadonnées de base, telles que le type de rapport, la date du rapport, l’emplacement de la source, le titre et l’URL du site Web. Pendant la phase de « déchiffrage » du pipeline, les documents téléchargés sont soumis à une série d’outils de traitement du langage naturel afin de fournir des étiquettes thématiques, de déterminer les entités nommées, d’extraire des résumés et de traduire en anglais tout texte qui n’est pas en anglais. Pendant la phase d’« indexation » définitive du pipeline, les documents déchiffrés sont utilisés pour créer un index de recherche qui prend en charge les requêtes documentaires souples et la création de tableaux de bord qui fournissent des instantanés agrégés des caractéristiques des documents utilisés pour alimenter cet index de recherche.

Détails de la mise en œuvre

DocCracker est hébergé en tant qu’application Web dans l’environnement infonuagique de Microsoft Azure et il s’appuie sur les services Azure pour prendre en charge chaque étape du traitement.

Ingestion des données

Au cours de la phase de « chargement », les documents sont rassemblés dans un conteneur de stockage Azure, soit par des extractions automatiques effectuées à partir de sources externes (p. ex. le fil de nouvelles Factiva, les bases de données non protégées d’AMC), soit au moyen de téléchargements manuels. Ensuite, une série de scripts Python est exécutée pour éliminer les documents en double ou erronés et procéder à un nettoyage préliminaire du texte et à l’extraction de métadonnées. Étant donné que les documents englobent une variété de formats de fichiers (.pdf, .txt, .msg, .docx, etc.), différentes méthodes de nettoyage et d’extraction sont appliquées à différents types de documents. Dans tous les cas, cependant, la bibliothèque d’expressions normales de Python est utilisée pour éliminer le texte non pertinent (p. ex. les signatures de courriel, les listes de copies conformes invisibles) et extraire les métadonnées pertinentes (p. ex. le titre ou l’objet des courriels, la date de soumission).

Les expressions normales fournissent une syntaxe puissante permettant de préciser des ensembles de chaînes à rechercher dans un corps de texte. Officiellement, une expression normale donnée définit un ensemble de chaînes de caractères qui peuvent toutes être reconnues par un automate d’états finis qui subit des transitions d’état à la réception de chaque caractère de l’étendue du texte d’entrée; si ces transitions d’état font en sorte que l’automate saisisse un état d’« acceptation », alors l’étendue de l’entrée devient un membre de l’ensemble des chaînes de caractères recherchées. Lorsqu’elles sont détectées, ces chaînes peuvent être soit supprimées (pour nettoyer les données), soit extraites (pour recueillir des métadonnées). Presque tous les langages de programmation prennent en charge les expressions normales, et elles constituent souvent un outil de premier recours dans les projets de nettoyage et d’ingénierie des données.

Traitement du langage naturel

Une fois les documents prétraités, ils sont divisés en portions de texte d’un maximum de 5 120 caractères afin de satisfaire aux exigences de longueur d’entrée de nombreux services de traitement du langage naturel d’Azure. Chaque portion de texte est traitée pour supprimer l’information non linguistique, comme les URL, les espaces blancs vides et les puces. Les portions sont ensuite transférées dans un nouveau conteneur de stockage pour subir un traitement supplémentaire à l’aide d’une variété de modèles d’apprentissage automatique.

Pour relever les mentions de personnes, d’organisations et de lieux, chaque portion de texte est traitée à l’aide d’un service Azure qui effectue la reconnaissance d’entités nommées. Ce service permet de mettre en correspondance des portions de texte avec un ensemble prédéfini de types d’entités. Ensuite, des services semblables sont utilisés pour extraire des phrases clés et quelques phrases de résumé de chaque document, tout en effectuant des traductions en ligne des textes qui ne sont pas en anglais. Enfin, un service d’analyse de sentiments est utilisé pour fournir des évaluations des sentiments portant sur des organisations précises, qui seront affichées sur la page de destination de l’application. Les résultats de chaque service Azure sont enregistrés dans une base de données SQL sous forme d’attributs de métadonnées associés aux documents sous-jacents qui ont été traités.

Pour améliorer ces résultats obtenus avec Azure, l’équipe de science des données d’AMC a également mis au point un modèle d’étiquetage thématique personnalisé qui relève la présence de l’un des 10 sujets d’intérêt précis dans chaque portion de texte. Ce modèle s’appuie sur une technique appelée « BERT » (Bidirectional Encoder Representations from Transformers, ou représentations de l’encodeur bidirectionnel à partir de transformeurs en français) pour analyser des portions de texte et déterminer quels sujets prédéfinis sont présents dans le texte. Le modèle fournit une liste des sujets trouvés, qui peut aller de 0 à 10 étiquettes thématiques.

Comme le montre la figure 2 ci-dessous, le modèle a été élaboré de manière itérative au moyen de volumes croissants de données d’entraînement étiquetées. Lors du troisième cycle d’entraînement du modèle, des résultats de classification très précis ont été obtenus pour 8 des 10 sujets, tandis que des résultats moyennement précis ont été obtenus pour 2 des 10 sujets. La vérification du modèle a été effectuée en utilisant 30 % des échantillons de données étiquetées, tandis que l’entraînement du modèle a été réalisé en utilisant les 70 % d’échantillons restants. Au total, environ 2 000 échantillons étiquetés ont été utilisés pour élaborer le modèle.

Bien qu’il s’agisse d’une petite quantité de données par rapport aux approches habituelles de développement de systèmes d’apprentissage automatique supervisé, l’un des principaux avantages de l’utilisation d’une architecture BERT est que le modèle est d’abord préentraîné au moyen d’une grande quantité de textes non étiquetés avant d’être ajusté avec précision pour effectuer une tâche d’intérêt. Lors du préentraînement, le modèle apprend simplement à prédire les mots manquants qui ont été supprimés de manière aléatoire dans un corpus textuel. En accomplissant cette tâche, le modèle crée des représentations internes très précises des propriétés statistiques du langage humain. Ces représentations peuvent ensuite être réutilisées efficacement au cours de la phase d’ajustement pour apprendre des décisions de classification efficaces à partir d’un petit nombre d’exemples étiquetés.

Figure 2 : Résultats de l’entraînement du modèle d’IA DocCracker

Figure 2 : Résultats de l’entraînement du modèle d’IA DocCracker

Les résultats de l’évaluation sont présentés après trois cycles d’entraînement pour un modèle de détermination de sujets personnalisé qui effectue une classification à étiquettes multiples pour relever jusqu’à 10 sujets prédéfinis dans une portion de texte d’entrée. Grâce aux augmentations progressives de la quantité de données d’entraînement, le modèle de réseau neuronal basé sur un transformateur obtient des résultats très précis pour presque tous les sujets. 

Enfin, les résultats du modèle thématique sont enregistrés dans la base de données SQL en tant qu’attributs de métadonnées supplémentaires pour chaque document sous-jacent. Cette base de données contient maintenant tous les documents qui ont été intégrés, ainsi qu’une riche collection de métadonnées obtenues à l’aide des techniques de traitement du langage naturel décrites précédemment. Grâce à cette combinaison de documents et de métadonnées, il est possible de créer un index de recherche qui permet aux utilisateurs d’effectuer des recherches souples dans les documents et de créer des visualisations de tableau de bord informatives.

Indexation

Dans sa forme la plus simple, un index de recherche est une collection d’un ou de plusieurs tableaux qui fournissent des liens entre les termes de recherche et les ensembles de documents qui correspondent à ces termes. Lorsqu’un utilisateur effectue une requête de recherche, celle-ci est décomposée en un ensemble de termes qui sont utilisés pour rechercher des documents dans l’index. Un algorithme de classement est ensuite utilisé pour hiérarchiser les documents qui correspondent à chaque terme de manière à obtenir une liste ordonnée des documents les plus pertinents par rapport à la requête de recherche.

Dans DocCracker, le service de recherche cognitive d’Azure est utilisé pour créer automatiquement un index à partir de la base de données SQL produite au cours des étapes précédentes du pipeline de traitement. Une fois cet index créé, il est facile de créer une page de destination qui permet aux utilisateurs d’entrer des requêtes de recherche et d’obtenir des documents pertinents. Les métadonnées utilisées pour créer l’index peuvent aussi être exportées vers des fichiers CSV afin de créer des tableaux de bord permettant de suivre une série de mesures variant dans le temps de l’évolution de la situation en Ukraine. Par exemple, en sélectionnant les champs de métadonnées pour les étiquettes des sujets et les dates, il est possible d’afficher la fréquence à laquelle différents sujets ont été mentionnés au fil du temps. De même, en sélectionnant des entités nommées, il est possible de visualiser les personnes ou les organisations qui ont été mentionnées le plus souvent au cours d’une période donnée. On peut aussi facilement faire le suivi du volume de rapports émanant des différentes missions à l’aide d’une méthode de sélection semblable.

Dans l’ensemble, l’index de recherche fournit une représentation structurée des nombreux rapports de situation, rapports et articles de presse non structurés qui ont été intégrés dans DocCracker. En ayant cette représentation structurée en main, il devient possible de mettre en place des capacités de recherche et de suivi qui facilitent l’important travail d’analyse effectué par les représentants d’AMC chargés de gérer la réponse du Canada à l’invasion russe.

Prochaines étapes

Compte tenu de la rapidité toujours croissante avec laquelle les crises internationales sont rapportées, il est essentiel de mettre au point des outils comme DocCracker qui aident les analystes à tirer des renseignements de grands volumes de données textuelles. Pour parfaire la version actuelle de cet outil, l’équipe de science des données d’AMC travaille simultanément sur plusieurs améliorations. Tout d’abord, l’allocation de Dirichlet latente est évaluée pour déterminer automatiquement les nouveaux sujets à mesure qu’ils sont abordés dans les documents entrants, ce qui permet d’informer les analystes sur les nouvelles questions qui pourraient nécessiter leur attention. Ensuite, des modèles de transformateurs génératifs préentraînés sont utilisés pour résumer automatiquement de multiples documents, ce qui aide ainsi les analystes à produire plus rapidement des notes d’information pour les décideurs supérieurs. Enfin, des modèles de détection des positions sont en cours d’élaboration afin de déterminer automatiquement les positions adoptées par les différents pays sur des questions diplomatiques précises (p. ex. la question de la fourniture de systèmes d’armes avancés à l’Ukraine). En ayant de tels modèles en main, les analystes devraient être en mesure de suivre la manière dont les pays adaptent leurs positions sur une question donnée en réponse à la fois aux incitations diplomatiques et à l’évolution des conditions géopolitiques.

Dans l’ensemble, à mesure que des outils comme DocCracker sont plus largement utilisés, nous nous attendons à voir émerger une série de nouvelles applications axées sur la technologie sous-jacente. Pour discuter de ces applications ou pour en savoir plus sur les efforts continus de l’équipe de science des données d’AMC dans ce domaine, veuillez envoyer un courriel à l’adresse suivante : datascience.sciencedesdonnees@international.gc.ca.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Jeudi, le 15 juin
De 13 00 h à 16 00 h, HE
MS Teams – le lien sera fourni aux participants par courriel

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Date de modification :