Apprentissage automatique explicable, théorie des jeux et valeurs de Shapley : un examen technique

Par : Soufiane Fadel, Statistique Canada

Les modèles d'apprentissage automatique sont souvent considérés comme une boîte noire opaque. Ils regroupent des caractéristiques à utiliser comme données d'entrée et génèrent des prédictions. Après la phase d'entraînement, quelques questions courantes se posent. Comment les différentes caractéristiques influent-elles sur les résultats de la prédiction? Quelles sont les variables les plus importantes qui influent sur les résultats de la prédiction? Dois-je croire les conclusions, bien que les indicateurs de rendement du modèle semblent être excellents? Par conséquent, l'explicabilité du modèle s'avère importante dans l'apprentissage automatique. Les renseignements obtenus à partir de ces méthodes d'intelligibilité sont utiles pour effectuer le débogage, guider l'ingénierie des caractéristiques, orienter les futures collectes des données, éclairer la prise de décision humaine et instaurer la confiance.

Pour être plus précis, distinguons deux idées essentielles dans l'apprentissage automatique : l'intelligibilité et l'explicabilité. L'intelligibilité désigne le degré avec lequel un modèle d'apprentissage automatique peut lier avec précision une cause (données d'entrée) à un résultat (données de sortie). L'explicabilité fait référence au degré avec lequel le fonctionnement interne d'une machine ou d'un système d'apprentissage profond peut être articulé avec des mots humains. En d'autres termes, c'est la capacité d'expliquer ce qui se passe.

Dans le présent article, nous nous penchons également sur les valeurs de Shapley, qui constituent l'une des méthodes d'explicabilité des modèles les plus utilisées. Nous donnons un aperçu technique des détails sous-jacents à l'analyse de la valeur de Shapley et décrivons les bases du calcul des valeurs de Shapley en formalisant mathématiquement le concept et en donnant également un exemple pour illustrer l'analyse de la valeur de Shapley dans un problème d'apprentissage automatique.

Quelles sont les valeurs explications additives de Shapley (SHAP)?

Si vous recherchez l'expression anglaise « SHAP analysis » (analyse SHAP), vous découvrirez qu'elle provient d'un article de 2017 de Lundberg et Lee, intitulé « A Unified Approach to Interpreting Model Predictions » (le contenu de cette page est en anglais), qui introduit l'idée de « Shapley Additive exPlanations » (explications additives de Shapley, également appelée SHAP). SHAP permet de fournir une explication pour la prédiction d'un modèle d'apprentissage automatique en calculant la contribution de chaque caractéristique à la prédiction. L'explication technique du concept de SHAP repose sur le calcul des valeurs Shapley à partir de la théorie des jeux de coalition. Les valeurs de Shapley ont été nommées en l'honneur de Lloyd Shapley, qui a introduit le concept en 1951 et a ensuite remporté le Prix de la Banque de Suède en sciences économiques en mémoire d'Alfred Nobel en 2012. Concrètement, les valeurs de Shapley s'apparentent à une méthode permettant de montrer l'impact relatif de chaque caractéristique (ou variable) que nous mesurons sur les données de sortie finales du modèle d'apprentissage automatique en comparant l'effet relatif des données d'entrée à la moyenne.

Théorie des jeux et théorie des jeux coopératifs

Tout d'abord, expliquons la théorie des jeux afin de comprendre comment elle est utilisée pour analyser les modèles d'apprentissage automatique. La théorie des jeux constitue un cadre théorique pour les interactions sociales avec des acteurs en concurrence. C'est l'étude de la prise de décision optimale par des agents indépendants et concurrents dans un contexte stratégique. Un « jeu » s'entend d'un scénario comportant de nombreux décideurs, chacun d'entre eux cherchant à maximiser ses résultats. Le choix optimal sera influencé par les décisions des autres. Le jeu détermine les identités, les préférences et les tactiques possibles des participants, ainsi que la manière dont ces stratégies influent sur le résultat. Dans le même contexte, la théorie des jeux coopératifs (une branche de la théorie des jeux) postule que les coalitions de joueurs constituent les principales unités de prise de décision et peuvent contraindre à une conduite coopérative. Par conséquent, au sein des jeux coopératifs, la compétition s'opère davantage entre une coalition de joueurs qu'entre des joueurs individuels. L'objectif vise à mettre au point une « formule » pour mesurer la contribution au jeu de chaque joueur, cette formule est la valeur de Shapley.

Valeurs de Shapley : intuition

Le scénario s'entend comme suit : une coalition de joueurs collabore afin d'obtenir un bénéfice total particulier grâce à leur collaboration. Étant donné que certains joueurs peuvent contribuer davantage à la coalition que d'autres et que divers joueurs peuvent présenter divers degrés d'influence ou d'efficacité, quelle devrait être la répartition finale des bénéfices entre les joueurs dans un jeu donné? En d'autres termes, nous voulons connaître l'importance de la collaboration de chaque participant et le type de gain qu'il peut escompter en conséquence. Une solution potentielle à ce problème est fournie par les valeurs du coefficient de Shapley. Ainsi, dans le contexte de l'apprentissage automatique, les valeurs des caractéristiques d'une instance de données servent de membres de la coalition. Les valeurs de Shapley nous indiquent alors comment répartir le « gain » entre les caractéristiques de manière équitable, ce qui constitue la prédiction. Un joueur peut être une valeur de caractéristique unique, comme dans les données tabulaires. Un joueur peut également être défini comme un ensemble de valeurs des caractéristiques.

Valeurs de Shapley : formalisme

Il est important de comprendre la base mathématique et les propriétés qui soutiennent le cadre de la valeur de Shapley. Ce point est abordé plus en détail dans cette section.

Formule de la valeur de Shapley

La valeur de Shapley est définie comme la contribution marginale de la valeur de la variable à la prédiction parmi toutes les « coalitions » concevables ou sous-ensembles de caractéristiques. En d'autres termes, il s'agit d'une approche visant à redistribuer les bénéfices globaux entre les joueurs, étant donné qu'ils coopèrent tous. Le montant que chaque « joueur » (ou caractéristique) obtient après une partie est défini comme suit :

ϕix=SF{i} |S|!|F|-|S|-1!|F|!fS{i}xS{i}-fSxS

Où :

  • x : données d'entrée observées
  • ϕi(x) : valeur de Shapley pour la caractéristique i des données d'entrée x pour le jeu/modèle f.
  • F : ensemble de toutes les caractéristiques
  • fS : modèle formé sur le sous-ensemble de caractéristiques S.
  • fSi  : modèle formé sur le sous-ensemble de caractéristiques S et {i}.
  • xS : données d'entrée restreintes de x étant donné le sous-ensemble de caractéristiques S.
  • xSi: données d’entrée restreintes de x étant donné le sous-ensemble de caractéristiques S et {i}.

Cela pourrait être reformulé et exprimé comme suit :

ϕix=1|F|SF{i}Moyenne |F|-1|S|-1poids combinatoiresfS{i}xS{i}-fSxScontribution marginale

Le concept des valeurs de Shapley peut être divisé en trois composantes : contribution marginale, pondération combinatoire et moyenne. Il est préférable de lire de droite à gauche tout en développant son intuition.

  • La contribution marginale s'entend de la mesure dans laquelle le modèle change lorsqu'une nouvelle caractéristique i est ajoutée. Étant donné un ensemble de caractéristiques S, nous désignons fs comme le modèle formé avec les caractéristiques S présentes. fS{i} est le modèle formé avec une caractéristique supplémentaire i. Lorsque ces deux modèles présentent des prédictions différentes, la quantité entre crochets indique exactement de combien ils diffèrent l'un de l'autre.
  • La pondération combinatoire s'entend de la pondération à donner à chacun des différents sous-ensembles de caractéristiques de taille |S| (en excluant la caractéristique i).
  • Enfin, la moyenne déterminera la moyenne de toutes les contributions marginales de toutes les tailles de sous-ensembles imaginables allant de 0 à |F|-1 . Nous devons omettre la seule caractéristique pour laquelle nous souhaitons évaluer l'importance.

Propriétés théoriques

Les valeurs de Shapley présentent un certain nombre de caractéristiques souhaitables; de telles valeurs satisfont aux quatre propriétés suivantes : efficacité, symétrie, joueur nul et linéarité. Ces aspects peuvent être considérés comme une définition d'une pondération équitable lorsqu'ils sont pris ensemble.

Les quatre propriétés des valeurs de Shapley
  Définition Formalisme mathématique
Efficacité La somme des valeurs de Shapley de toutes les caractéristiques est égale à la valeur de la prédiction formée avec toutes les caractéristiques, de sorte que la prédiction totale est répartie entre les caractéristiques. iFϕix=fFx
Symétrie Les contributions de deux valeurs des caractéristiques devraient être les mêmes si elles contribuent de manière égale à toutes les coalitions possibles. [SF\{i,j}:fS{i}(xS{i})=fS{j}(xS{j})]ϕi(x)=ϕj(x)
Joueur nul  Une caractéristique qui ne modifie pas la valeur prédite, quelle que soit la coalition de valeurs des caractéristiques à laquelle elle est ajoutée, doit avoir une valeur de Shapley de 0. SF:[fS{i}(xS{i})=fS(xS)ϕi(x)=0]
Linéarité Si deux modèles décrits par les fonctions de prédiction f et g sont combinés, la prédiction distribuée devrait correspondre aux contributions dérivées de f et aux contributions dérivées de g. ϕif+gx=ϕifx+ϕigx
aRϕia.fx=a.ϕifx

Considérez le scénario suivant : vous avez entraîné un modèle de forêt aléatoire, ce qui implique que la prédiction est basée sur une moyenne de plusieurs arbres de décision différents. Vous pouvez calculer la valeur de Shapley pour chaque arbre indépendamment, en faire la moyenne, et utiliser la valeur de Shapley résultante pour calculer la valeur de la caractéristique dans une forêt aléatoire. Cela est garanti par la propriété de linéarité.

Exemple d'application d'apprentissage automatique : intelligibilité

Les qualités théoriques des valeurs de Shapley sont toutes intéressantes et souhaitables, mais en pratique, il se peut que nous ne soyons pas en mesure de déterminer la valeur de Shapley précise en raison de contraintes pratiques. L'obtention de la formulation précise de la valeur de Shapley nécessite un temps de traitement important. Lorsqu'il s'agit de situations réelles, la réponse approximative est souvent la plus pratique, car il existe 2|F| coalitions potentielles des valeurs des caractéristiques. Le calcul de la valeur exacte de Shapley est trop coûteux d'un point de vue informatique. Heureusement, nous pouvons appliquer certaines approches d'approximation; la qualité de ces techniques influe sur la robustesse des caractéristiques théoriques. Plusieurs tests en recherche ont été menés (en anglais seulement) pour démontrer que les résultats de l'approximation SHAP sont plus cohérents par rapport aux valeurs produites par d'autres algorithmes couramment utilisés.

La figure suivante fournit un exemple de la façon d'examiner les contributions des caractéristiques pour étudier les prédictions d'un modèle « Xgboost » qui estime le prix de vente des maisons à l'aide de 237 variables explicatives, décrivant presque tous les aspects des maisons résidentielles à Ames, dans l'lowa. L'ensemble des données liées à cette analyse est accessible au public sur Kaggle - House Prices - Advanced Regression Techniques (le contenu de cette page est en anglais).

Figure 1

Figure 1 - exemple de la façon d’examiner les contributions des caractéristiques pour étudier les prédictions d’un modèle « Xgboost » qui estime le prix de vente des maisons
Description - Figure 1

Un graphique en cascade montrant l'évolution prévue de la valeur d'une maison en fonction de caractéristiques telles que la taille de la surface habitable, la taille du garage, la superficie en pieds carrés, la salle de bain, etc. La sortie du modèle pour cette prédiction varie en fonction de chaque caractéristique pour obtenir une valeur prédite complète de la maison. L'axe y contient la liste des caractéristiques et leur valeur associée. L'axe x représente la valeur attendue de la sortie du modèle, E[f(X) = 182711.595. Les caractéristiques, et leur valeur, sont listées avec leur contribution positive ou négative comme suit :
7 565 = Total des pieds carrés de la superficie du sous-sol +18693.31
7 = Qualité Générale des matériaux et de la finition +13485.23
650 = Pieds carrés du garage +10668.53
7050 = Taille du terrain en pieds carrés -7660.98
3 = Qualité des matériaux extérieurs +6583.78
1057 = Total des pièces au-dessus du niveau du sol -6415.29
9 = Âge de la construction +6133.73
3 = Qualité de la garage +5648.2
1 = Salles de bain au-dessus du niveau du sol +5301.53
228 autres caractéristiques +7397.47

En bas du graphique est indiquée la valeur prévue des données de sortie du modèle (182 000 $). Chaque ligne au-dessus montre comment la contribution positive (en rouge) ou négative (en bleu) de chaque caractéristique fait évoluer la valeur en la faisant passer des données de sortie prévues du modèle aux données de sortie du modèle pour cette prédiction (242 000 $). Les informations en gris devant les noms des caractéristiques indiquent la valeur de chaque caractéristique pour cet échantillon. À partir de ce graphique, nous pouvons conclure que 228 caractéristiques ajoutent un total de 7 397,47 $ à la valeur prédite, et que chacune des variables énumérées ci-dessus a un impact supérieur à 5 000 $. Le prix prévu de cette maison particulière grimpe à plus de 18 000 $ avec une surface habitable au sol de 7 500 pieds carrés. Le prix est réduit de 7 660,98 $ en raison de la taille du terrain de 7 050 pieds carrés.

Conclusion

Comme nous l'avons vu, les valeurs de Shapley comportent des propriétés théoriques mathématiquement satisfaisantes en tant que solution aux problèmes de la théorie des jeux. Le cadre fournit des explications contrastives, ce qui signifie qu'au lieu de comparer une prédiction à la prédiction moyenne de l'ensemble des données, il est possible de la comparer à un sous-ensemble ou même à un seul point des données. Il explique qu'une prédiction est un jeu joué par les valeurs des caractéristiques.

En outre, cette méthodologie constitue l'une des rares méthodes explicatives fondées sur une théorie solide, puisque les axiomes mathématiques (efficacité, symétrie, joueur nul, linéarité) fournissent une base raisonnable pour l'explication.

Enfin, il convient de préciser que cette stratégie figure parmi les nombreuses solutions possibles. Cependant, la valeur de Shapley est souvent préférable, car elle est basée sur une théorie solide, répartit équitablement les effets et fournit une explication complète.

Références

Bosa, K. (2021). Utilisation responsable de l'apprentissage automatique à Statistique Canada.

Cock, D. D. (2011). Ames, Iowa: Alternative aux données sur le logement à Boston.  Journal of Statistics Education.

Molnar, C. (2021). Apprentissage automatique interprétable : Un guide pour rendre les modèles de la boîte noire explicables.

Scott Lundberg, S.-I. L. (2017). Une approche unifiée de l'interprétation des prédictions des modèles.

Yadvinder Bhuller, H. C., & O'Rourke, K. (n.d.). De l'exploration à l'élaboration de modèles d'apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité.

Tous les projets d'apprentissage automatique à Statistique Canada sont conçus dans le contexte du Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable de l'organisme, qui vise à proposer des orientations et des conseils pratiques sur la façon responsable d'élaborer ces processus automatisés.

Date de modification :

Communauté de pratique (CdP) de l'apprentissage automatique appliqué à l'analyse de texte: Bilan de l'année 2021

La Communauté de pratique (CdP) de l'apprentissage automatique appliqué à l'analyse de textes est un groupe interministériel d'employés du gouvernement du Canada qui font part et discutent de solutions d'apprentissage automatique (AA) de haute qualité concernant les données textuelles. Le groupe a été créé en 2018 sous la forme d'un petit groupe de spécialistes de la science des données de Statistique Canada et s'est rapidement élargi pour devenir une CdP interministérielle composée de représentants de plus de 15 ministères et organismes fédéraux qui se réunissent virtuellement tous les mois.

La CdP a pour principal objectif d'accroître la capacité de l'AA dans de multiples disciplines au sein de la fonction publique. Aucune expérience préalable de l'AA n'est requise pour participer à ces réunions. Les personnes de toutes les disciplines et de tous les ministères et organismes sont invitées à participer aux réunions et à prendre part aux discussions.

La CdP atteint son objectif en:

  • Collaborant par le biais de discussions sur divers aspects de l'analyse de textes
  • Partageant des présentations et d'autres documents concernant l'analyse de textes
  • Fournissant des mises à jour sur les questions et les problèmes rencontrés lors de l'application de l'apprentissage automatique sur des données textuelles (utilisation de Gitlab, de certains packages, etc.)
  • Établissant des pratiques exemplaires fondées sur diverses expertises au sein du gouvernement.

Au cours de l'année 2021, la CdP a organisé 13 présentations de différents ministères et organismes. Chaque présentation permettait d'illustrer une solution concrète d'AA appliquée aux données textuelles ou un exemple de cas qui nécessitait le développement d'une application d'AA au texte.

Présentations de 2021

Vous trouverez ci-dessous une description de chacune des présentations qui ont eu lieu l'année dernière. Si vous souhaitez accéder aux présentations ou obtenir plus de renseignements à leur sujet, veuillez communiquer avec la CdP de l'apprentissage automatique appliqué à l'analyse de textes : statcan.appliedmltextcop-cdpaaappliquetexte.statcan@statcan.gc.ca.

Classification des commentaires sur le Recensement de 2021 à Statistique Canada

Dans le but d'améliorer l'analyse des commentaires sur le Recensement de la population de 2021, la division de la science des données de Statistique Canada a travaillé en collaboration avec le Secrétariat des domaines spécialisés du recensement pour créer une preuve de concept sur l'utilisation des techniques d'apprentissage automatique pour classer rapidement et en toute objectivité les commentaires formulés dans le cadre du recensement. En plus de classer les commentaires par domaine spécialisé, le modèle visait aussi à classer les commentaires sur des problèmes techniques et des préoccupations en matière de protection de la vie privée.

Tirer profit des données pour solidifier son savoir d'affaires: Utiliser la rétroaction des clients pour nourrir l'innovation et la prise de décision à Immigration, Réfugiés et Citoyenneté Canada (IRCC)

Depuis 2014, IRCC récolte de la rétroaction sur ses services de la part de sa clientèle. La Direction générale de l'expérience client a prévu de lancer un projet d'apprentissage automatique pour analyser les commentaires de manière plus approfondie. Cette analyse plus poussée de ces données lui permettrait d'avoir une meilleure compréhension des attentes et opinions de cette dernière et d'aligner ses projets d'innovation et son processus de prise de décision. Le présentateur a discuté avec les membres de la CdP des approches de projet appropriées pour démontrer la valeur ajoutée des projets d'apprentissage automatisé à la haute gestion.

Analyse des données pour les services d'assurance et de consultation à l'Agence du revenu du Canada (ARC)

La section de l'analyse des données au sein de la Direction générale de la vérification, de l'évaluation et des risques de l'ARC a créé un musée des données en 2016. Le musée des données a permis :

  1. la fourniture d'analyses de données descriptives et diagnostiques pour de multiples activités d'assurance et de consultation,
  2. l'utilisation de l'apprentissage automatique pour une meilleure reconnaissance des patrons, une meilleure classification et une meilleure détection des valeurs aberrantes, et
  3. l'élaboration de procédures opérationnelles standardisées pour la confidentialité et la protection des données.

La section de l'analyse des données a constaté de visu que les méthodes et techniques de traitement du langage naturel (TLN) sont sous-utilisées dans le secteur de l'audit interne, et a saisi l'occasion d'appliquer le TLN à diverses étapes du processus d'audit interne. Par exemple, le TLN a aidé les équipes d'audit interne à :

  1. analyser de grands volumes de données textuelles non structurées, telles que des notes d'entrevue, des rapports de 400 pages de l'Office Gouvernemental des Comptes, et des pages Web lors de la génération automatique de résumés de risques à partir de l'environnement socio-économique,
  2. visualiser l'interconnectivité des risques,
  3. mesurer le ton des rapports en utilisant l'analyse des sentiments, et
  4. exploiter un moteur de recherche de questions et réponses en langage naturel.

Ingénierie des données avec R, R Markdown, Shiny et les algorithmes

Cette présentation a présenté les défis et les solutions liés à l'ingénierie des données, et le domaine qui traite de l'automatisation et de la transformation des données. Le présentateur a discuté de la taxonomie des tâches d'ingénierie des données et des outils pour y répondre. Il a décrit les efforts pour créer la trousse des outils d'ingénierie des données et la Communauté de pratique. Des applications Shiny pour la fusion/déduplication de données floues et l'analyse TLN de la base de données ouvertes du Canada des demandes d'accès à l'information complétées ont été présentées.

La Modélisation thématique dynamique à Statistique Canada

Cette présentation a fourni un aperçu technique de la méthodologie sous-jacente à la modélisation thématique, expliquant la base de l'allocation de Dirichlet latente et introduisant une dimension temporelle dans l'analyse de modélisation thématique. Cela a été fait dans le contexte de la détection d'événements à l'aide des données de la Base canadienne de données des coroners et des médecins légistes (BCDCML).

Analyse des événements à l'aide des structures du centre de situation à Transports Canada

La Direction des préparatifs d'urgence envoi des notifications sur les événements (incidents, accidents, etc.) qui touchent l'infrastructure de transport du Canada (maritime, aérien et de surface), 24 heures sur 24 et 7 jours sur 7, aux abonnés par courriel. L'équipe du présentateur a conçu ces notifications bilingues pour produire des ensembles de données analytiques afin d'extraire des renseignements, de permettre l'analyse de texte et de détecter des modèles pour des événements similaires.

L'analyse des médias sociaux en temps réel à Transports Canada

Cette application Web de validation de concept a exploité les données des médias sociaux en temps réel et a fourni des informations géospatiales et des analyses de texte à l'aide du traitement du langage naturel. L'objectif de l'application était d'aider les analystes à déterminer dans quelle mesure des événements reliés à la sûreté et à la sécurité pouvaient être extraits des médias sociaux. En outre, un composant attribuant des scores aux sentiments a été ajouté pour permettre une analyse des sentiments basée sur des sujets ou des organisations clés. Bien qu'elle n'ait jamais été mise en œuvre, la preuve de concept a permis une analyse rapide des problèmes émergents pour une sous-population d'utilisateurs de médias sociaux, y compris des particuliers, des fournisseurs d'informations et la police nationale.

L'apprentissage automatique quantique appliqué à la classification de texte par Statistique Canada, l'Institut quantique de l'Université de Sherbrooke et la Banque du Canada

Les technologies découlant de l'informatique quantique ont le potentiel de révolutionner plusieurs domaines de l'apprentissage automatique, incluant la classification de texte. Durant cet exposé, les présentateurs ont exploré trois approches distinctes d'apprentissage automatique quantique à l'époque des ordinateurs quantiques d'échelle intermédiaire bruitées, dans le but de présenter ces méthodes aux chercheurs et aux scientifiques de données existants dans le domaine.

De la guérison du cancer à la saisie des gazouillis : Le TLN appliqué pour les sciences de la santé à l'Agence de la santé publique du Canada (ASPC)

Le présentateur a partagé son bref voyage à travers l'application pratique du TLN aux problèmes de la recherche en sciences de la santé. Il s'agit notamment de l'utilisation du TLN basé sur des règles pour extraire les interactions médicament-maladie des résumés de recherche médicale, jusqu'à l'utilisation de l'apprentissage automatique visant les gazouillis sur la vaccination afin de prédire les épidémies. Les leçons apprises et les erreurs qui ont été faites ont été discutées.

Vers l'automatisation des examens systématiques sur la vaccination à ASPC

L'ASPC (avec Xtract AI, Vancouver, BC) envisage l'automatisation de différentes étapes de synthèse des données visant à accroître les gains d'efficacité. Le présentateur a partagé le résumé d'une version préliminaire d'un nouveau système d'apprentissage automatique fondé sur des avancements récents quant au TLN, comme BioBERT, où d'autres optimisations seront réalisées par l'entremise d'une nouvelle base de données de documents portant sur la vaccination. Le modèle de TLN optimisé obtenu et qui est au cœur de ce système a pu déceler et extraire les champs relatifs aux principes de la Population, l'Intervention, les Comparateurs, les Résultats (PICR) des publications sur la vaccination avec une exactitude moyenne s'élevant à 88% dans cinq classes de texte.

Création de Tableaux de Bord de Visualisation de Données à l'aide de Cadres Python de source ouverte à Statistique Canada

django Dash

La construction de tableaux de bord s'est avérée utile dans le domaine de la science des données. Avec les progrès actuels dans ce domaine, on assiste à l'émergence d'outils de source libre puissants, hautement personnalisables et gratuits. Le présentateur a parlé de certains des meilleurs outils python adaptés à la construction de tableaux de bord, a montré des exemples de travaux pertinents réalisés par la Division de la sciences des données et a présenté un bref aperçu de la façon de s’initier à deux outils des plus populaires, Dash et Django.

Automatisation de l'extraction d'informations à partir d'états financiers dans le système SEDAR à l'aide de techniques basées sur la disposition spatiale à Statistique Canada

SLICEmyPDF

Le format PDF (Portable Document Format) est le plus couramment utilisé par les entreprises à des fins d'information financière. L'absence de moyens efficaces pour extraire les données de ces fichiers PDF hautement non structurés d'une manière tenant compte de la mise en page représente un défi majeur pour les analystes financiers pour analyser et traiter efficacement les informations en temps opportun. «Spatial Layout based Information and Content Extraction» (SLICE) - un algorithme de vision par ordinateur unique utilise simultanément des informations textuelles, visuelles et de mise en page pour segmenter plusieurs points de données en une structure tabulaire. Cette solution proposée, réduit considérablement les heures de travaux manuelles consacrées à l'identification et à la capture des informations requises en automatisant le processus d'extraction des variables financières pour près de 70 000 PDF par an en temps quasi réel. Il comprend également le développement d'un système de gestion des métadonnées robuste qui indexe près de 150 variables pour chaque document financier ainsi qu'une application web qui permet aux utilisateurs d'interagir avec les données extraites. Consultez le récent article du Réseau de la science des données sur Intelligence documentaire : l'art de l'extraction d'information à partir des PDF.

Assistant d'affaires, agent conversationnel d'Innovation, Sciences et Développement économique Canada (ISDE)

L'assistant d'affaires d'Innovation, sciences et développement économique Canada
Description - L'assistant d'affaires d'ISDE

L'assistant d'affaires d'Innovation, sciences et développement économique Canada. Le texte dans l'image : Bonjour ! Je suis l'assistant d'affaires, votre nouveau robot conversationnel d'Innovation, sciences et développement économique Canada (ISDE). Je suis programmé pour répondre à vos questions sur la propriété intellectuelle et d'autres services offerts par ISDE. Comment puis-je vous aider ?

ISDE a commencé à mettre en œuvre la technologie de l'assistant virtuel en 2019 avec un produit appelé agent Conversationnel. L'assistant virtuel est un canal de communication que les Canadiens peuvent actuellement exploiter lorsqu'ils atterrissent sur les pages web et l'application mobile de l'ISDE. L'Office de la propriété intellectuelle du Canada (OPIC), Corporations Canada (CC) et le Secteur des Communications Stratégiques et du Marketing (SCSM) et l'appli Entreprises Canada utilisent un agent conversationnel sur le web et sur les plate-formes mobiles pour aider à réduire les appels vers les centres d'appels et offrir un service amélioré lorsqu'ils fournissent des informations aux Canadiens qui visitent leurs sites web ou leurs applications. L'agent actuel est construit sur une architecture Microsoft tirant parti de Microsoft Azure et de l'IA de compréhension du langage de Microsoft, LUIS. Une présentation similaire a été faite lors de l'atelier sur les agents conversationnels organisé par le Réseau de la science des données. Les présentateurs y expliquaient le contexte et l'objet de leur technologie d'assistant virtuel. Voir Conversation sur les agents conversationnels – Compte rendu de l'atelier sur les agents conversationnels.

Conclusion

Tout au long de l'année 2021, des personnes de différents ministères et organismes du gouvernement du Canada ont présenté diverses applications de techniques d'apprentissage automatique (AA) aux données textuelles. Nous avons couvert différentes étapes du pipeline des données, allant du prétraitement à la visualisation. Nos membres tirent profit de chacune des expériences et des leçons apprises par les autres et peuvent ensuite créer plus efficacement des produits d'AA.

En 2022, la Communauté de pratique (CdP) continuera d'être un centre qui permet aux fonctionnaires de faire connaître leur passion pour l'application des techniques d'AA dans le but de répondre à des problèmes opérationnels concrets. La CdP est menée par Statistique Canada et bénéficie de la participation active de tous les ministères de la fonction publique fédérale. Nous encourageons les présentations de tous les ministères et nous espérons continuer à couvrir le nombre croissant d'applications du TLN dans les ministères.

Pour obtenir plus de renseignements sur la CdP ou pour en devenir membre, veuillez communiquer avec la Communauté de pratique de l'apprentissage automatique appliqué à l'analyse de textes : statcan.appliedmltextcop-cdpaaappliquetexte.statcan@statcan.gc.ca. Les employés du gouvernement du Canada peuvent également faire partie de notre groupe GCExchange sur la Communauté de pratique (CdP) sur l'apprentissage automatique appliqué : Analyse de texte.

Date de modification :

Conversation sur les agents conversationnels – Compte rendu de l'atelier sur les agents conversationnels

Par Claudia Mokbel et Kathleen Carson, Statistique Canada

Le Réseau de la science des données (RSD) a été créé il y a plus d'un an dans le but d'instaurer un espace dynamique de collaboration pour les spécialistes de la science des données et les passionnés du domaine. Pour reprendre le pédagogue Steven Anderson : « Seuls, nous sommes intelligents. Ensemble, nous sommes géniaux. » Cet énoncé décrit parfaitement le principe sur lequel repose le RSD, car cela témoigne de la nécessité de collaborer au sein de la communauté de la science des données afin de repousser constamment les limites.

C'est dans cette optique que le RSD a organisé l'atelier sur les agents conversationnels et a invité les participants à discuter de tous les aspects liés à la mise en œuvre d'agents conversationnels, y compris des participants qui songeaient à se doter d'un tel agent, mais qui ne savaient pas trop par où commencer. L'atelier a entre autres servi à exposer les différentes étapes du processus de mise en œuvre des agents conversationnels et a permis aux participants d'établir des contacts en prévision du moment où ils seront prêts à amorcer le processus de mise en œuvre d'agents conversationnels.

« La science des données est en quelque sorte un sport d'équipe, et je me plais à penser que le Réseau de la science des données constitue le stade où les gens peuvent mettre en commun l'expérience acquise dans le cadre de l'élaboration d'outils opérationnels qui permettent de résoudre des problèmes organisationnels concrets », a mentionné Eric Rancourt, directeur général de la Direction des méthodes statistiques modernes et de la science des données à Statistique Canada. « À titre de chef de file de confiance en matière de science des données, Statistique Canada est fier d'animer de tels événements afin qu'il soit possible de mettre à profit les connaissances collectives portant sur les initiatives nouvelles et novatrices en matière de science des données. »

« C'est l'un des principaux objectifs du Réseau de la science des données : créer un espace dynamique qui nous permet d'établir des liens et de collaborer avec des pairs », ajoute Sevgui Erman, directrice de la Division de la science des données à Statistique Canada. « De cette manière, nous pouvons apprendre et acquérir ensemble des connaissances et des compétences qui aident notre communauté à s'épanouir. L'atelier sur les agents conversationnels a constitué un excellent outil pour continuer de progresser en vue de l'atteinte de cet objectif. »

Au cas où vous l'auriez manqué…

L'atelier sur les agents conversationnels, qui s'est tenu le 6 décembre 2021, a porté notamment sur différents projets axés sur des avancées technologiques en matière d'intelligence artificielle (IA) pour aider les utilisateurs à interagir avec des services ou des applications Web. En tout, 255 personnes ont participé à l'événement, dont des représentants du secteur privé, du secteur public et du milieu universitaire; il y avait même des participants qui venaient d'Europe.

L'atelier a débuté par un mot de bienvenue de Sevgui Erman et d'Eric Rancourt. Le maître de cérémonie était Jeremy Solomon, chef du Réseau et de la stratégie de la science des données à Statistique Canada, qui est également responsable du bulletin mensuel du Réseau de la science des données Méli-mélo de la science des données.

Vous trouverez les présentations sur les agents conversationnels faites par les six ministères et organismes fédéraux participants, dans les deux langues officielles, en visitant la page des présentations de l'atelier les agents conversationnels de GCWiki.

Dans la première présentation, John Nephin, de Services partagés Canada (SPC), propose une démonstration des services d'agent conversationnel Azure de son organisme et de l'architecture sous-jacente. Également, il décrit le cadre et les services entourant la logique des agents numériques, l'expérience utilisateur, l'aspect de la cognition, l'ingestion de données, et plus encore.

La deuxième présentation a été faite par Charith Gunasekara, ingénieur agréé travaillant au ministère de la Défense nationale. Cette présentation était axée sur la création, à partir de technologies de sources ouvertes, d'un agent conversationnel apte à répondre aux questions.

Mary Griffin et Fraydon Karimi d'Innovation, Sciences et Développement économique Canada ont présenté l'assise technologique de l'assistant virtuel de leur ministère. Ils ont exposé le contexte et l'objectif entourant la mise en œuvre de leur agent conversationnel et ont donné un aperçu de l'architecture sur laquelle il repose.

Après une courte pause, la quatrième présentation, faite par Alexandre Istrate, de la Division de la science des données à Statistique Canada, a porté sur les progrès réalisés par sa division en vue d'élaborer une solution robuste d'agent conversationnel à temps pour l'essai comportemental du recensement prévu en 2024, ce qui aidera aussi Statistique Canada à se préparer pour le Recensement de 2026.

Alexei Lapouchnian, gestionnaire de l'Accélérateur numérique de Ressources naturelles Canada, a traité de l'incorporation des systèmes d'IA aux concepts organisationnels axés sur les assistants intelligents. Ce projet était fondé sur les résultats de recherches menées à l'Université de Toronto en partenariat avec une grande entreprise technologique. Le but du projet consistait à découvrir comment intégrer l'IA aux processus opérationnels (PO) d'entreprise et à augmenter le nombre de décisions prises dans le cadre de ces PO assistés par l'IA. La présentation décrit les problèmes actuels liés à l'adoption de l'IA dans les entreprises et propose des solutions envisageables.

Gias Uddin, du Bureau du surintendant des institutions financières, a fait la dernière présentation. Celle-ci portait sur la conception de trousses d'outils de traitement du langage naturel au sein de l'industrie et dans le domaine de la recherche, incluant les leçons apprises et les messages à retenir.

Prochaines étapes

Le RSD a pris de l'expansion au cours de la dernière année; il constitue désormais un carrefour central où convergent les praticiens de la science des données, les gestionnaires et toutes les personnes qui ont un intérêt pour le domaine, qu'ils viennent du secteur privé, du secteur public, du milieu universitaire ou d'ailleurs. Le plan est de continuer à bâtir le Réseau en fonction des besoins de ses membres. Consultez l'article Le bulletin d'information du Réseau de la science des données a un an pour en savoir plus.

Considérant les bons commentaires reçus au sujet de l'atelier sur les agents conversationnels, le RSD a déjà entamé des travaux pour organiser d'autres événements du même genre. L'équipe se consacre actuellement à la mise sur pied d'un atelier sur les carrefours de données, qui devrait avoir lieu au début de mars. Si vous souhaitez faire une présentation dans le cadre de cet atelier, communiquez avec nous : statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.

À titre de chef de file de confiance en matière de science des données, Statistique Canada continuera d'appuyer l'essor d'un robuste écosystème de la science des données grâce à des événements et à des ateliers ayant pour but d'établir des liens avec d'autres praticiens et gestionnaires de la science des données. Le RSD vous tiendra au courant des initiatives de collaboration, des projets et des ateliers futurs.

Date de modification :

Intelligence documentaire : l'art de l'extraction d'information à partir des PDF

Auteur : Anurag Bejju, Statistique Canada

Les documents PDF (Portable Document Format) sont l'un des formats de fichier les plus populaires et les plus utilisés. Tandis que le monde évolue rapidement vers une économie numérique, les PDF sont devenus une solution écologique au papier, permettant aux créateurs de diffuser, d'imprimer et de visualiser facilement un fichier dans sa mise en page prévue sur de multiples plateformes. Ils contiennent une foule de renseignements importants pour les organisations, les entreprises et les institutions, dans un format qui reflète le papier qu'ils ont remplacé.

Bien que les PDF constituent un moyen fiable de formater et de stocker des données, il n'est pas toujours facile d'en extraire les données. Statistique Canada a tiré parti de la puissance des technologies d'intelligence artificielle responsables et de l'application de solutions de science des données pour rechercher et élaborer des solutions permettant d'extraire de précieux renseignements de sources non structurées comme les PDF et les images numérisées. L'application de ces solutions permet de réduire les coûts et garantit que les renseignements sont fournis aux Canadiens de manière plus opportune, plus précise et plus sécurisée. En obtenant, puis en extrayant des données à partir de documents PDF, nous pouvons concevoir des moyens de générer des statistiques significatives de haute qualité en temps opportun. Cela permet de gagner un temps considérable dans la saisie des données et permet aux chercheurs de consacrer leur temps à des analyses plus importantes.

Qu'est-ce que l'intelligence documentaire?

Travailler avec des documents non structurés est complexe et peut entraîner un gaspillage de ressources précieuses. De nombreux services financiers, organismes gouvernementaux et autres grandes entreprises travaillent avec des documents imprimés et électroniques qui doivent être transformés et stockés dans un format de données consultable et interrogeable (p. ex. JSON ou CSV). Le processus d'extraction et de transformation des données à partir des PDF est souvent effectué manuellement et peut demander beaucoup de ressources, car les membres doivent copier des parties de renseignements pertinents et les formater dans une structure tabulaire. Ce processus peut être lourd, entraîner des erreurs et provoquer des retards. Même avec de multiples ressources pour la récupération des données, il faut parfois des jours ou des semaines pour obtenir des renseignements concrets.

En réponse à ces défis, les entreprises technologiques créent des outils d'automatisation qui permettent de saisir, d'extraire et de traiter les données à partir de divers formats de documents. Les technologies d'intelligence artificielle, telles que le traitement automatique du langage naturel, la vision par ordinateur, l'apprentissage profond et l'apprentissage automatique, créent des solutions en libre accès qui transforment les renseignements non structurés et semi-structurés en données exploitables. Ces technologies d'intelligence documentaire sont appelées traitement intelligent des documents.

Quels sont les avantages du traitement intelligent des documents?

Le traitement intelligent des documents présente six avantages essentiels :

  1. Temps : Il faut moins de temps pour traiter et créer des sources de données structurées.
  2. Argent : Il permet de réaliser des économies en réduisant le travail d'extraction manuelle.
  3. Efficacité : Il supprime les tâches répétitives en milieu de travail et accroît la productivité.
  4. Fiabilité : Il augmente la précision des renseignements extraits et réduit les erreurs humaines.
  5. Évolutivité : Il offre la possibilité de faire évoluer un grand volume de documents à un coût relativement faible.
  6. Polyvalence : Il traite les documents structurés, semi-structurés et non structurés dans la plupart des formats.

Types de documents PDF

Les trois types de documents PDF les plus courants sont les suivants :

  1. PDF structurés : La mise en page et la structure sous-jacentes de ces documents restent fixes dans l'ensemble des données. En créant des segments, puis en leur apposant des étiquettes appropriées, on construit des pipelines d'automatisation pour extraire et structurer les valeurs dans un format tabulaire. Ces modèles peuvent être reproduits pour des formulaires présentant des dispositions similaires.
  2. PDF textuels non structurés : Si vous pouvez cliquer et glisser pour sélectionner du texte dans une visionneuse PDF, votre document PDF est un document textuel. Extraire du texte libre de ces documents peut être assez simple, mais le faire en tenant compte de la mise en page ou du contexte peut être extrêmement difficile. La base de données Système électronique de données, d'analyse et de recherche (SEDAR) utilisée par Statistique Canada (qui sera expliquée plus en détail plus bas dans l'article) contient des millions de PDF textuels non structurés qui nécessitent des techniques avancées de traitement intelligent des documents afin de créer des ensembles de données structurés.
  3. PDF non structurés numérisés : Les documents PDF numérisés contiennent des renseignements de formes et de tailles multiples. Des étapes supplémentaires permettent de localiser les composants du texte et d'effectuer une reconnaissance optique des caractères pour extraire le texte. Une fois que le PDF est converti en texte et que l'emplacement du texte est spécifié, vous pouvez déployer des méthodes semblables à celles utilisées pour les PDF textuels pour extraire des renseignements. Les dernières recherches dans ce domaine seront abordées dans les prochains articles de cette série.

Bibliothèques de source libre disponibles pour l'extraction de PDF

Progiciel 1 : PyPDF2

PyPDF2 (le contenu de cette page est en anglais) est une boîte à outils PDF entièrement en langage Python provenant du projet PyPDF. Elle peut extraire des données de fichiers PDF ou manipuler des fichiers PDF existants pour produire un nouveau fichier. Cela permet au développeur de recueillir, diviser, transformer et fusionner des PDF ainsi que d'extraire les métadonnées associées au PDF. Comme le montre l'image, la précision de l'extraction du texte est inférieure à celle des autres logiciels, et vous ne pouvez pas extraire d'images, de cadres de délimitation, de graphiques ou d'autres supports de ces documents. Il s'agit d'un bon outil si le seul objectif est d'extraire du texte libre indépendamment de sa mise en page.

Extrait de code


import PyPDF2

with open(pdf_path, "rb") as f:
    reader = PyPDF2.PdfFileReader(f)
    page = reader.getPage(1)
    output = page.extractText()
	

Exemple de PDF

Progiciel 1 : PyPDF2 - Exemple de PDF

Sorties

Progiciel 1 : PyPDF2 - Sorties
Description - PyPDF2 Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et d'une colonne de notes à droite. La boîte de sortie affichant l'extraction du texte a le bon texte, mais elle est indépendante de la mise en page originale ou des détails délimitant les sous-titres et le texte normal.

Progiciel 2 : PyMuPDF

PyMuPDF (le contenu de cette page est en anglais) est une liaison Python pour MuPDF, soit une visionneuse, un moteur de rendu et une boîte à outils légers pour les documents PDF, les fichiers XPS et les livres numériques, qui est développée et mise à jour par Artifex Software inc. Il permet au développeur d'obtenir des fonctionnalités beaucoup plus avancées basées sur la mise en page, avec une capacité de rendu et une vitesse de traitement élevée. Les programmeurs ont accès à de nombreuses fonctions importantes de MuPDF à partir d'un environnement Python. Comme PDFMiner (décrit sous Progiciel 3), ce progiciel ne fournit que des renseignements sur la mise en page, et le développeur doit construire des processus pour les structurer et les formater.

Extrait de code


import fitz
import pandas as pd

doc = fitz.open(good_pdf_path)
page = doc[4]
_, _, p_width, p_height = page.MediaBox
text = page.getText("blocks")
output = pd.DataFrame(text, columns=["block_xMin", "block_yMin", "block_xMax", "block_yMax", "block_text", "block_id", "page" ])

Exemple de PDF

Progiciel 2 : PyMuPDF - Exemple de PDF

Sorties

Progiciel 2 : PyMuPDF - Sorties
Description - PyMuPDF Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et d'une colonne de date à droite. La boîte de sortie montrant l'extraction des données a la bonne mise en page, mais le texte est constitué de formules prêtes à être formatées par l'utilisateur.

Progiciel 3 : PDFMiner

Le progiciel PDFMiner (le contenu de cette page est en anglais) vous permet d'analyser tous les objets d'un document PDF en objets Python et d'analyser, de regrouper et d'extraire du texte ou des images de manière lisible par un humain. Il prend également en charge des langues comme le chinois, le japonais et le coréen ainsi que l'écriture verticale. Comme le montre l'image, vous pouvez obtenir des renseignements tels que le cadre de délimitation exact de chaque élément de texte sous forme de chaîne, ainsi que d'autres renseignements sur la mise en page (polices, etc.). Bien que ce progiciel puisse être excellent pour localiser des éléments dans le document, le développeur doit construire des processus pour le structurer et le formater.

Extrait de code


from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure
import pandas as pd
output = []
def parse_layout(layout):
    """Function to recursively parse the layout tree."""

    for lt_obj in layout:

        if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
            output.append([lt_obj.__class__.__name__, lt_obj.bbox, lt_obj.get_text()])
        elif isinstance(lt_obj, LTFigure):
            parse_layout(lt_obj)  # Recursive

with open(pdf_path, "rb") as f:
    parser = PDFParser(f)
    doc = PDFDocument(parser)
    page = list(PDFPage.create_pages(doc))[1]  # Page Number
    rsrcmgr = PDFResourceManager()
    device = PDFPageAggregator(rsrcmgr, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    interpreter.process_page(page)
    layout = device.get_result()
    _, _, width, height = page.mediabox
    parse_layout(layout)

output = pd.DataFrame(output, columns=["bbox_type", "coords", "token"])
output[["word_xMin", "word_yMin", "word_xMax", "word_yMax"]] =  output["coords"].to_list()

Exemple de PDF

Progiciel 3 : PDFMiner - Exemple de PDF

Sorties

Progiciel 3 : PDFMiner - Sorties
Description - PDFMiner Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a un texte et une mise en page similaires, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne, ainsi que la police et d'autres renseignements de mise en page. L'utilisateur doit tout de même créer des processus déterminant la structure pour remplir le tableau.

Progiciel 4 : Tabula-py

Tabula-py (le contenu de cette page est en anglais) est une simple enveloppe Python de tabula-java, qui peut lire un tableau à partir de PDF et le convertir en format DataFrame de pandas. Il vous permet également de le convertir en fichier CSV, TSV et JSON et d'utiliser des fonctionnalités avancées comme la grille, qui fonctionne bien pour les lignes séparant les cellules du tableau. Il peut être difficile d'extraire et de détecter correctement le contenu des tableaux pour les PDF plus complexes.

Extrait de code


import tabula
import pandas as pd

output = tabula.read_pdf(pdf_path, lattice=False, pages=4)[0]

Exemple de PDF

Progiciel 4 : Tabula-py - Exemple de PDF

Sorties

Progiciel 4 : Tabula-py - Sorties
Description - Tabula-py Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a une mise en page similaire, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne, ainsi que la police et d'autres renseignements de mise en page.

Progiciel 5 : Camelot

Tout comme Tabula-py, Camelot (le contenu de cette page est en anglais) est également une bibliothèque Python qui peut vous aider à extraire les tableaux des documents PDF. Il s'agit du progiciel le plus efficace et le plus avancé, qui vous permet de contrôler le processus d'extraction des tableaux. Il fournit également des mesures de précision et d'espacement des blancs pour le contrôle de la qualité, ainsi que des méthodes de segmentation des pages pour améliorer l'extraction.

Extrait de code


import camelot
tables = camelot.read_pdf(good_pdf_path)
output = tables[0].df

Exemple de PDF

Progiciel 5 : Camelot - Exemple de PDF

Sorties

Progiciel 5 : Camelot - Sorties
Description - Camelot Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a une mise en page similaire du texte, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne.

Utilisation du traitement intelligent des documents dans le projet SEDAR

Statistique Canada a acquis l'ensemble de données historiques du système de classement SEDAR. Les spécialistes des données disposent ainsi d'une source de données de rechange qui leur permet d'obtenir des renseignements précieux et de fournir des renseignements en temps opportun. SEDAR est un système utilisé par les sociétés canadiennes cotées en bourse pour déposer des documents relatifs aux valeurs mobilières (tels que des états financiers, des rapports annuels et des notices annuelles) auprès de diverses commissions canadiennes des valeurs mobilières. Les employés de Statistique Canada utilisent la base de données SEDAR pour la recherche, la confrontation des données, la validation, le processus de mise à jour de la base de sondage, et plus encore. Toutefois, l'extraction de données à partir des documents relatifs aux titres publics se fait manuellement et prend beaucoup de temps.

Pour gagner en efficacité, l'équipe des sciences des données a mis au point un pipeline d'intelligence documentaire basé sur l'intelligence artificielle qui détermine et extrait correctement les variables financières clés des bons tableaux d'un document PDF. Cela a permis de transformer une grande quantité de documents publics non structurés provenant de SEDAR en ensembles de données structurées. Cette transformation permet l'automatisation et l'extraction de renseignements économiques relatifs aux entreprises canadiennes.

La première partie du processus d'automatisation consiste à déterminer les pages requises dans le document PDF, ce qui est fait à l'aide d'une méthodologie élaborée à Statistique Canada. Une sous-section du document comprenant une forte densité de tableaux est d'abord établie. Cette sous-section de pages est ensuite traitée afin d'extraire les caractéristiques principales, qui sont utilisées par un modèle de classification par apprentissage automatique formé pour déterminer les bonnes pages. La deuxième partie du processus d'automatisation porte sur l'extraction des tableaux. Les pages déterminées à la première étape servent d'entrée pour un algorithme d'extraction de tableaux élaboré à l'interne appelé algorithme Spatial Layout based Information and Content Extraction (SLICE)(le contenu de cette page est en anglais), qui extrait tous les renseignements dans un tableau en format numérique. Les données sont présentées dans une application Web interactive et peuvent être téléchargées en format CSV.

Ce processus robuste automatise le processus d'extraction des variables financières pour un maximum de 70 000 PDF par an en quasi temps réel. Cela permet de réduire considérablement le nombre d'heures passées à déceler et à saisir manuellement les renseignements requis et de réduire la redondance des données.

Souhaitez-vous en savoir plus sur l'intelligence documentaire?

Les outils à code source ouvert fonctionnent pour les processus simples d'extraction de PDF, mais ne sont pas adaptés aux sources complexes, non structurées et variables de documents PDF. Dans les prochains articles, nous aborderons les dernières recherches en matière d'apprentissage automatique et d'intelligence artificielle dans le domaine de l'intelligence documentaire. Nous parlerons encore également de SLICE, le nouvel algorithme de vision par ordinateur conçu et développé par Statistique Canada que nous avons mentionné auparavant. Cet algorithme a la capacité d'utiliser simultanément des renseignements textuels, visuels et de mise en page pour segmenter plusieurs points de données dans une structure tabulaire. Cette solution modulaire fonctionne avec des tableaux non structurés et effectue l'extraction de variables financières à partir d'une variété de documents PDF.

Date de modification :

Créer des visualisations de données convaincantes

Par : Alden Chen, Statistique Canada

Introduction

La visualisation des données est un élément clé de nombreux projets de science des données. Pour certains intervenants, notamment les spécialistes du domaine et les cadres qui ne sont pas nécessairement des experts techniques, il s'agit de la principale voie par laquelle ils voient, comprennent et interagissent avec les projets de données. Par conséquent, il est important que les visualisations communiquent des renseignements aussi clairement que possible. Trop souvent, les visualisations sont entravées par certains défauts courants qui les rendent difficiles à interpréter ou, pire encore, sont trompeuses. Cet article passe en revue trois pièges courants de la visualisation que les communicateurs de données et les consommateurs de données devraient comprendre, ainsi que quelques suggestions pratiques pour les contourner.

Distorsion et perception

La qualité la plus importante d'une visualisation efficace est qu'elle représente fidèlement les données sous-jacentes. Il y a distorsion lorsque les données présentées ne peuvent être perçues avec précision. Le degré de distorsion de la visualisation est directement lié à la facilité de perception de l'information présentée. Lors de la conception de visualisations, il est important de se souvenir que des encodages visuels différents sont perçus différemment, ce qui peut mener à des résultats déformés et mal interprétés.

En 1957, le psychologue Stanley Smith Stevens, dans son ouvrage intitulé On the psychophysical law (le contenu de cette page est en anglais) a démontré l'existence d'une relation empirique, généralement non linéaire, entre l'ampleur physique et l'ampleur perçue d'un certain stimulus. Il a dégagé une relation de la formule ψ(I)=kIa, où I représente l'intensité physique du stimulus et ψ(I) représente la sensation perçue (Stevens, 1957). La variable la plus importante ici est a, l'exposant qui relie la perception du stimulus à la magnitude physique réelle du stimulus (k est une constante de proportionnalité pour adapter les unités). Notre perception varie en fonction de la manière dont les données sont encodées. Lors de l'expérience d'un codage avec a inférieur à un, l'ampleur du stimulus a tendance à être sous-estimée. Lors de l'expérience d'un codage avec a supérieur à un, l'ampleur du stimulus a tendance à être surestimée.

Figure 1 : La loi de puissance de Stevens

Figure 1 : La loi de puissance de Stevens
Description - Figure 1

Un graphique illustrant la loi de puissance de Stevens (1957). Le graphique montre comment six codages différents sont perçus avec l'intensité physique sur l'axe du x et la sensation perçue sur l'axe du y. Les formes variées des courbes illustrent la façon dont les différents codages sont perçus. La longueur est l'encodage le plus précis et est tracée le long de la ligne à 45 degrés. Les courbes représentant l'activité électrique et la saturation des couleurs, des codages qui tendent à exagérer les effets dans les données, se situent principalement au-dessus de la ligne de 45 degrés. Les trois autres codages indiqués – zone, profondeur et luminosité – ont tendance à sous-estimer l'effet réel et ils sont affichés sous la ligne de 45 degrés.

Aujourd'hui, cette relation connue sous le nom de la loi de puissance de Stevens est l'un des résultats les plus connus de la psychophysique et il est important de la comprendre pour la visualisation des données. La figure 1 illustre certains des encodages visuels testés par Stevens, ainsi que l'activité électrique à titre de référence. Certains codages, comme la saturation des couleurs, mènent à une surestimation de l'effet, tandis que d'autres codages, comme la zone, mènent à une sous-estimation de l'effet réel. Lorsque l'on utilise ces codages pour représenter des données, l'incapacité à percevoir les véritables données ou effets mènent à une distorsion. Il faut noter que si la capacité à percevoir la plupart des codages est non linéaire, la capacité à percevoir la longueur est linéaire.

Prenons l'exemple suivant, qui code les mêmes données en utilisant la zone et la longueur. Il est beaucoup plus difficile de discerner à quel point 96 est supérieur à 32 en regardant les cercles de la figure 2 qu'en regardant le diagramme à barres de la figure 3. De plus, il est presque indiscernable que l'aire du cercle 100 est plus grande que l'aire du cercle 96, alors qu'il est clair que 100 est plus grand que 96 quand on regarde la longueur des barres. La différence entre 100 et 96 est déformée lors de l'encodage de l'information en utilisant la zone.

Figure 2 : Graphique à cercles

Figure 2 : Graphique à cercles
Description - Figure 2

Un exemple d'un graphique montrant trois cercles. Un petit cercle avec le chiffre 32, un cercle plus grand avec le chiffre 96 et un cercle légèrement plus grand avec le chiffre 100.

Figure 3 : Graphique à barres

Figure 3 : Graphique à barres
Description - Figure 3

Un exemple d'un graphique montrant trois barres qui diminuent en longueur : 100, 96, et 32.

Les deux graphiques codent les mêmes données. Le premier graphique utilise la surface de chaque cercle pour coder les données, tandis que le second graphique utilise la longueur de chaque barre. Deux des cercles ont une surface presque indiscernable, alors qu'il est clair que les deux barres correspondantes sont de longueur différente.

Les visualisations de données utilisent souvent des encodages qui déforment les données, comme les cartes thermiques (saturation des couleurs, a = 1.7) et les diagrammes circulaires (surface, a = 0.7). Il est important de reconnaître les distorsions et d'examiner les chiffres réels qui sous-tendent la visualisation avant de porter des jugements hâtifs. Lorsque vous réalisez des visualisations et choisissez des encodages visuels, il est utile de comprendre la théorie de la perception visuelle. Ce sont souvent les visuels les plus simples qui sont les plus efficaces. Prenons le classement des encodages visuels du tableau 1 comme point de départ (Mackinlay, 1986). Mackinlay a formulé des recommandations sur l'encodage des différents types de données : données quantitatives, ordinales et nominales. L'efficacité des codages dépend du type de données. Par exemple, la couleur n'est pas un codage efficace pour les données quantitatives; en revanche, elle est très efficace pour les données nominales. Il est bon de coder les renseignements les plus importants en utilisant le codage le plus efficace et le moins déformé.

Tableau 1 : Le classement d'encodages visuels de Mackinlay pour différents types de données, classés du plus efficace au moins efficace.

Tableau 1 : Le classement d'encodages visuels de Mackinlay pour différents types de données, classés du plus efficace au moins efficace.
Données quantitatives Données ordinales Données nominales
Position Position Position
Longueur Densité Nuance des couleurs
Angle Saturation des couleurs Texture
Pente Nuance des couleurs Connexion
Zone Texture Contour
Volume Connexion Densité
Densité Contour Saturation des couleurs
Saturation des couleurs Longueur Forme
Nuance des couleurs Angle Longueur
Texture Pente Angle
Connexion Zone Pente
Contour Volume Zone
Forme Forme Volume

Occlusion et surreprésentation

L'occlusion dans la visualisation des données se produit lorsque deux points de données se chevauchent, partiellement ou entièrement. Par exemple, deux points peuvent être directement superposés, ce qui ne permet pas au lecteur de savoir qu'il y a en fait plusieurs points de données. Par conséquent, il devient difficile de voir toute l'étendue des données présentées, et l'effet des points occultés ne peut être vu.

La surreprésentation, c'est-à-dire l'affichage de trop de données, est une cause fréquente d'occlusion. Cela peut se produire dans le but d'afficher le plus de données possible afin de donner au public une image entière. Prenons les figures 4 à 7, qui illustrent l'occlusion causée par la surreprésentation et présentent quelques solutions potentielles. Chacun de ces graphiques affiche le même ensemble de 10 000 points. Dans la figure 4, la répartition des points ne peut pas vraiment être vue à cause de l'occlusion. Il y a tellement de points qui se chevauchent que tout ce que l'on peut voir est une grande masse de points couvrant presque tout le quadrant inférieur gauche du graphique. Les graphiques suivants montrent quelques options possibles pour aider à réduire l'occlusion.

Les points de la figure 5 sont légèrement plus petits et plus transparents. En modifiant la transparence (souvent représentée par α) le public peut mieux voir la répartition et les points occultés, bien que de nombreux points soient encore occultés près de l'origine.

Dans la figure 6, aucun point n'est représenté. Il y a plutôt un tracé de contours montrant la distribution des points, où les points sont fortement concentrés autour d'une petite région près de l'origine. Souvent, lorsqu'on traite de grands ensembles de données, tels que ceux générés par les simulations, les points spécifiques ne sont pas particulièrement intéressants; c'est plutôt le modèle général qui est important, et qui est saisi clairement par le tracé de contours.

Figure 4 : Nuage de points 1

Figure 4 : Nuage de points 1
Description - Figure 4

Un exemple d'un nuage de 10 000 points avec une grande masse de points dans le quadrant inférieur gauche du graphique. De nombreux points se chevauchent, ce qui rend difficile la visualisation de la distribution.

Figure 5 : Nuage de points 2

Figure 5 : Nuage de points 2
Description - Figure 5

Un exemple d'un nuage de 10 000 points avec des points plus petits et plus transparents pour réduire l'occlusion. Il y a toujours une masse de points dans le quadrant inférieur gauche, mais il est plus évident que les points sont plus concentrés autour de l'origine.

Figure 6 : Tracé de contours

Figure 6 : Tracé de contours
Description - Figure 6

Un exemple d'un tracé de contours montrant que de nombreux points de données sont concentrés près de l'origine, dans le quadrant inférieur gauche.

Figure 7 : Histogramme en 3D

Figure 7 : Histogramme en 3D
Description - Figure 7

Un exemple d'un histogramme en 3D du même ensemble de points. Les barres plus hautes près de l'origine montrent la distribution un peu plus clairement; cependant, les barres plus hautes occultent les barres plus courtes.

La figure 7 montre un histogramme tridimensionnel. Les créateurs de visualisations qui souhaitent afficher un grand nombre de données peuvent être tentés d'ajouter un axe supplémentaire à une visualisation 3D, mais les graphiques en 3D rendent rarement la visualisation plus claire, car ils provoquent eux-mêmes une occlusion. Dans la figure 7, la nature tridimensionnelle du tracé signifie que les barres les plus hautes occultent les barres les plus courtes et que les barres à l'avant occultent les barres à l'arrière. Ainsi, si l'utilisation de la 3D peut réduire la surreprésentation, elle ne résout pas le problème de l'occlusion, et le public ne peut toujours pas voir l'ensemble des données. Les graphiques en 3D donnent presque toujours lieu à des occlusions, et la gestion des occlusions dans la visualisation 3D est un domaine de recherche assez actif en infographie. (Voir Trapp et coll., 2019; Wang et coll., 2019.)

En résumé, s'il est généralement judicieux de montrer aux lecteurs les données réelles, la représentation graphique excessive est contre-productive. L'occlusion causée par la surreprésentation peut parfois cacher la tendance principale des données. L'adaptation de certains éléments visuels, tels que la taille et la transparence des points, peut aider, mais il est également important de se demander si le tracé de tous les points de données individuels est nécessaire pour l'analyse présentée.

Redondance et encombrement

Pour mieux délimiter les différences dans les données, vous pouvez choisir de coder certaines valeurs de manière redondante en utilisant plusieurs caractéristiques; cette pratique est appelée codage redondant. Par exemple, vous pouvez choisir de distinguer deux classes en utilisant à la fois la couleur et la forme, par exemple des triangles orange et des carrés bleus, dans un nuage de points. Les codages redondants sont largement utilisés et sont censés améliorer la clarté des visualisations. En fait, plusieurs logiciels utilisent des encodages redondants par défaut pour certains visuels; le soutien empirique de cette pratique est cependant mitigé (Nothelfer et coll., 2017; Chun, 2017).

Il est important de se souvenir que les codages redondants ont un défaut, c'est-à-dire qu'ils sont encombrants et ne sont pas toujours utiles. Prenons les figures 8 et 9. La figure 8 présente un diagramme à barres avec la même information (32, 96, 100) codée de quatre manières différentes. Les termes le long de l'axe du x (faible, moyen, élevé) codent déjà les données, bien que de manière grossière. Il y a ensuite la longueur des barres elles-mêmes, qui sont également accompagnées de chiffres indiquant explicitement la valeur. Enfin, il existe une échelle de couleurs discrète où la couleur des barres représente également la valeur. Il existe quatre indices visuels distincts qui codent tous la même information. Ce graphique à barres représente un environnement sans pollution visuelle; c'est un graphique simple avec seulement trois barres. Dans les environnements à faible niveau de distraction visuelle, la redondance se résume généralement à un encombrement. Comparons la figure 9, qui est sans codage de couleurs. On pourrait dire que la visualisation est rendue plus efficace par la suppression d'un codage inutile qui aurait pu distraire les lecteurs des données réelles.

Figure 8

Figure 8
Description - Figure 8

Un exemple d'un graphique en barres avec une échelle de couleurs discrète. Trois barres sous lesquelles nous voyons « faible, moyen, élevé ». La hauteur des barres représente les données, les barres sont quantifiées par la valeur des données, et les barres sont colorées selon la valeur en utilisant une échelle de couleurs discrète.

Figure 9

Figure 9
Description - Figure 9

Un exemple d'un graphique montrant les trois mêmes barres que la figure 8, mais sans le codage de couleurs et les mentions « faible, moyen, élevé ».

Comparons maintenant les figures 8 et 9 avec des environnements plus distrayants, comme le montrent les figures 10 à 12, qui présentent des données avec trois catégories qui ne sont pas clairement séparées. Dans des cas comme celui-ci, il existe des preuves empiriques que les encodages redondants aident à mieux segmenter les données, c'est-à-dire à distinguer les classes (Nothelfer et coll., 2017). Dans la figure 10, la catégorie est codée uniquement par la forme, dans la figure 11, la catégorie est codée uniquement par la couleur et dans la figure 12, la catégorie est codée de manière redondante en utilisant à la fois la forme et la couleur. Si l'on prend en considération uniquement la forme (figure 10), il est plus difficile de segmenter les catégories. Dans les figures 11 et 12, il est plus facile de dire qu'une catégorie a une variance plus faible que les autres catégories, qu'elle est étroitement groupée près de l'origine, et que la troisième catégorie est plus étalée. Dans un affichage distrayant comme celui-ci, le fait d'utiliser la redondance plutôt que l'encombrement, comme dans l'exemple précédent, peut en fait aider à réduire les distractions pour mieux délimiter les catégories. Cependant, les différentes catégories sont déjà assez clairement segmentées par la couleur. Cela tient probablement au fait que la couleur est un encodage plus efficace que la forme pour distinguer les groupes. L'encodage redondant peut ne pas apporter grand-chose dans ce cas, ce qui en fait un choix plus esthétique.

Figure 10

Figure 10
Description - Figure 10

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé par la forme uniquement (cercle, triangle, carré).

Figure 11

Figure 11
Description - Figure 11

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé par la couleur uniquement (vert, orange, bleu).

Figure 12

Figure 12
Description - Figure 12

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé de manière redondante par la couleur et la forme (cercle vert, triangle orange, carré bleu).

Il est important de tenir compte de la différence entre redondance et encombrement lors de la conception de visualisations. Dans le cas de visuels simples, il est peu probable que des codages redondants rendent le visuel plus clair, ils ne font que l'encombrer. Dans un affichage plus distrayant, certaines preuves empiriques laissent entendre que des encodages redondants peuvent aider; cependant, le choix d'un seul encodage très efficace peut également donner de bons résultats. La redondance dans un affichage distrayant ne fait probablement pas de mal et devient davantage un choix de style.

Conclusion

De bons visuels sont essentiels pour raconter l'histoire des données aussi efficacement que possible, et une visualisation efficace peut rendre les données plus faciles à comprendre pour un public plus large. Pour qu'une visualisation soit efficace, elle doit représenter fidèlement les données sous-jacentes. La visualisation des données pose fréquemment certains problèmes qui peuvent mener à des erreurs d'interprétation. Une certaine compréhension de la théorie de la perception visuelle peut aider les scientifiques des données à mieux concevoir et interpréter les visualisations de données afin de réduire la distorsion. L'affichage d'un trop grand nombre de données peut également être trompeur, car il peut entraîner une occlusion. Il faut envisager des modifications simples, comme la taille et la transparence, pour aider à réduire l'occlusion et se demander si le tracé de toutes les données est nécessaire aux fins de la visualisation. Enfin, il faut choisir la netteté plutôt que la redondance lorsque c'est possible. Les codages redondants n'apportent souvent pas beaucoup de valeur ajoutée et l'encombrement qu'ils créent peut nuire à l'histoire.

References

Chun, R. (2017). Redundant Encoding in Data Visualizations: Assessing Perceptual Accuracy and Speed. Visual Communication Quarterly (le contenu de cette page est en anglais), 24(3), 135-148.

Mackinlay, J. (1986). Automating the design of graphical presentation of relational information. ACM Transactionson Graphics (le contenu de cette page est en anglais), 5(2), 110-141.

Nothelfer, C., Gleicher, M.,& Franconeri, S. (2017). Redundant encoding strengthens segmentation and grouping in visual displays of data (le contenu de cette page est en anglais). Journal of Experimental Psychology: Human Perception and Performance, 43(9), 1667–1676.

Stevens, S. S. (1957). On the psychophysical law (le contenu de cette page est en anglais). Psychological Review, 64(3), 153–181.

Trapp, M., Dumke,F., & Döllner, J. (2019). Occlusion Management Techniques for the Visualization of Transportation Networks in Virtual 3D City Models (le contenu de cette page est en anglais). Proceedings of the 12th International Symposium on Visual Information Communication and Interaction

Wang, L., Zhao, H., Wang, Z., Wu, J.,Li, B., He, Z., & Popescu, V. (2019). Occlusion Management in VR: A Comparative Study (le contenu de cette page est en anglais). 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), 708-706.

Date de modification :

Mise en œuvre des pratiques MLOps avec Azure

Par : Jules Kuehn, Services partagés Canada

Les pratiques MLOps sont une variante des pratiques DevOps qui répondent à des préoccupations relatives à l'apprentissage automatique (AA). Tout comme le processus DevOps, le processus MLOps permet l'intégration et le déploiement continus (IC/DC) (le contenu de cette page est en anglais) de modèles d'apprentissage automatique (AA), mais automatise en outre le réentraînement sur de nouvelles données et effectue le suivi des résultats des différentes sessions d'entraînement (ou expériences).

Un problème courant avec les modèles d'AA est la baisse du rendement au fil du temps. C'est ce que l'on appelle une « dérive » (consultez le guide ultime du réentraînement de modèle (le contenu de cette page est en anglais) pour obtenir de plus amples renseignements sur la dérive). Imaginez un modèle d'AA prédisant si une maison à Ottawa se vendra au-dessus du prix demandé, selon les renseignements sur la maison et le prix d'inscription. Lorsque le modèle a été déployé il y a cinq ans, il a été en mesure de fournir cette prédiction avec 95 % d'exactitude. Toutefois, si le modèle n'était pas réentraîné avec des données mises à jour, ses prédictions ne refléteraient pas le marché du logement actuel d'Ottawa et seraient donc moins exactes. Pour résoudre ce problème, un système MLOps peut automatiquement réentraîner et redéployer des modèles, afin d'intégrer des données plus récentes et suivre le rendement du modèle au fil du temps.

L'équipe de la Science des données et de l'Intelligence artificielle de Services partagés Canada (SPC) a élaboré plusieurs modèles d'AA comme solutions de validation de principe aux problèmes opérationnels de SPC. Le point de départ du parcours du processus MLOps a été la collaboration de l'équipe avec Microsoft afin de développer une solution MLOps fonctionnelle entièrement au sein de l'écosystème Azure.

Le système MLOps comprend plusieurs composantes, comme le contrôle des sources, le suivi des expériences, les registres de modèles, les pipelines IC/DC, les API Azure ML, Docker et Kubernetes. L'utilisation de ce système permet à l'équipe de continuellement livrer des API REST pour les modèles d'AA les plus performants et de les mettre à disposition dans le nouveau magasin des API du gouvernement du Canada.

Élaboration d'un modèle

Pour accélérer la mise en œuvre, l'équipe a utilisé les fonctions SaaS (logiciel en tant que service) d'Azure pour exécuter la majorité des tâches. Cela comprenait le chargement des données avec Azure Data Factory, le développement de modèle dans les carnets Azure Databricks, le suivi expérimental et le déploiement de modèle avec Azure ML, ainsi que le contrôle des sources et l'IC/DC avec Azure DevOps.

Suivi des expériences et des modèles

Les carnets Databricks journalisent les mesures des sessions et enregistrent les modèles dans un espace de travail Azure ML à la fin d'une session entraînement (consultez les pages Journaliser et afficher les métriques et les fichiers journaux et Classe de modèle pour de plus amples détails). Cela est utile lorsque les sessions sont lancées manuellement pendant l'élaboration du modèle et lorsqu'elles sont exécutées comme une tâche au sein de pipelines IC/DC. Au cours de l'élaboration d'un modèle, il est possible de suivre les améliorations apportées aux mesures, comme l'exactitude, tout en ajustant les hyperparamètres. Dans le cas d'une session en tant que tâche de pipeline, il est alors possible de surveiller les changements apportés aux mesures lorsque de nouvelles données sont utilisées dans le cadre d'un réentraînement.

Contrôle des sources et intégration continue

Le répertoire de contrôle des sources pour ce modèle est composé de trois dossiers :

  1. Carnets : le code des carnets Databricks
  2. Pipelines : deux pipelines pour entraîner et déployer les modèles
  3. API : le code servant à envelopper le modèle entraîné dans une API REST.
Figure 1 – Structure générale du répertoire de contrôle des sources

Figure 1 – Structure générale du répertoire de contrôle des sources

Description - Figure 1

Arborescence du dépôt DevOps avec 3 dossiers de haut niveau. Le premier dossier est le Carnet de notes, qui est connecté via Databricks Git Sync à model_train.py. Le deuxième dossier est Pipelines, qui contient deux sous-dossiers, chacun contenant Pipeline YAML et des scripts Python. Ces sous-dossiers sont nommés "ci / train" et "deploy". Le troisième dossier de premier niveau est "API", qui contient score.py et un sous-dossier tests, qui contient des scripts PyTest.

Pipeline de demandes d'extraction de carnets

Même si la programmation littéraire à l'aide de carnets (p. ex. Jupyter) est une pratique courante en science des données, les environnements de carnets infonuagiques ne s'intègrent pas toujours efficacement au contrôle des sources. Le travail de plusieurs membres de l'équipe sur un projet peut entraîner une désorganisation des carnets. L'équipe a élaboré un déroulement des opérations qui intègre des pratiques exemplaires de gestion du contrôle des sources, comme les branches par fonctionnalité et les essais d'intégration dans des demandes d'extraction.

Figure 2 – Carnets de science des données

Figure 2 – Carnets de science des données

Description - Figure 2

Bureau désordonné recouvert de documents éparpillés sur sa surface, au sol et dans la corbeille à proximité. Les documents sont intitulés "Carnets de science des données".

Dans Databricks, tous les carnets se trouvant dans un dossier principal à emplacement fixe sont synchronisés pour suivre la branche principale dans un répertoire Git Azure DevOps. Avant de modifier le code de modèle, un membre de l'équipe crée une copie de ce dossier dans Databricks et une nouvelle branche correspondante dans DevOps, puis configure la synchronisation Git entre eux. Lorsque les modifications sont satisfaisantes, le membre de l'équipe consigne les carnets dans Databricks, puis crée une demande d'extraction dans DevOps.

Toute demande d'extraction comprenant des changements au code du carnet déclenche un pipeline d'intégration continue garantissant que les modifications aux carnets ne seront pas annulées. Cela commence par la copie des carnets de la branche par fonctionnalité dans un dossier d'essai d'intégration à emplacement fixe référencé par une tâche Databricks; cette tâche étant ensuite déclenchée par le pipeline au moyen de l'API Databricks.

Pour accélérer l'exécution de cet essai, un paramètre est transféré au carnet pour indiquer qu'il s'agit d'un essai et non d'une tâche d'entraînement complète. Le modèle est entraîné sur un échantillon de 5 % pour une époque, et le modèle résultant n'est pas enregistré.

Figure 3 – IC et pipelines d'entraînement avec Databricks

Figure 3 – IC et pipelines d'entraînement avec Databricks

Description - Figure 3

Diagramme des pipelines de IC et pipelines d'entraînement. Étape 1 : Copie de la source du carnet vers Databricks. Étape 2 : Début de l'entraînement du modèle dans Databricks.  Étape 3 : Attente de la « réussite » de Databricks.

Le pipeline continue de sonder Databricks jusqu'à ce que le travail soit terminé. Si l'exécution du carnet est réussie, la fusion vers la branche principale peut se poursuivre.

Déploiement de modèle

Puisque l'équipe de SPC prévoit livrer la plupart de ses modèles dans le magasin des API du gouvernement du Canada, elle souhaite passer des carnets aux applications API REST le plus rapidement et le plus efficacement possible.

Conteneurisation du modèle

Pour des applications simples, l'API d'Azure ML peut déployer un modèle enregistré en tant qu'application conteneurisée en utilisant quelques lignes de code à la fin d'un carnet. Toutefois, cette option ne répond pas à plusieurs exigences opérationnelles telles que l'échelonnage. Plus important encore, elle n'offre pas beaucoup de souplesse pour les intrants et les extrants des modèles avant et après le processus. Nous utilisons plutôt la fonction Model.package() à partir de la trousse de développement logiciel à partir de la trousse de développement logiciel (SDK) d'Azure ML pour créer une image Docker. L'image est ensuite déployée dans un espace Kubernetes antérieurement configuré, et le point de terminaison est enregistré dans le magasin des API du gouvernement du Canada.

Par défaut, la fonction extrait la dernière version enregistrée du modèle, mais peut également utiliser les journaux d'expériences afin de sélectionner dynamiquement un modèle en fonction de n'importe quelle mesure enregistrée dans le carnet (p. ex. pour minimiser les pertes).

Pipeline de déploiement

Figure 4 – Pipeline de déploiement

Figure 4 – Pipeline de déploiement

Description - Figure 4

Diagramme du pipeline de déploiement avec 3 étapes principales : Essai, Création et Déploiement. L'étape Essai exécute les tests de l'API PyTest et local_deploy_test.py, ce qui implique que Docker récupère un modèle dans le registre Azure ML. L'étape Création exécute build_push_image.py, qui implique également que Docker récupère un modèle dans le registre Azure ML, mais pousse également le conteneur Docker vers le registre Azure Container. L'étape Déploiement exécute l'application en ligne de commande kubectl, qui se connecte à Azure Kubernetes et récupère le conteneur dans Azure Container Registry.

Comme son nom l'indique, Azure DevOps ne se limite pas au contrôle des sources, mais peut également définir des pipelines permettant d'automatiser les tâches d'intégration et de développement continus. Les pipelines sont définis par les fichiers YAML et ont recours à des scripts Bash et Python.

Contrairement au pipeline de demande d'extraction de carnet, le pipeline de déploiement est déclenché par tout engagement envers la branche principale. Il comprend trois étapes :

  • Mise à l'essai du code : À l'aide de PyTest, effectuer l'essai unitaire de l'API à l'aide d'intrants corrects et incorrects. À titre d'essai d'intégration, déployer avec Model.deploy() le service Web localement sur la machine virtuelle du bassin d'agents et exécuter des essais semblables, mais dans un contexte HTTP.
  • Construction et enregistrement du conteneur Docker : Avec Model.package(), créer une image Docker en entrant un code API personnalisé. Enregistrer le conteneur dans un registre de conteneurs Azure.
  • Déploiement vers Kubernetes : Avec kubectl apply, se connecter au service Azure Kubernetes, se connecter au service Azure Kubernetes configuré précédemment. Transférer un fichier manifeste pointant vers la nouvelle image dans le registre des conteneurs.

Ce processus conserve les mêmes points de terminaison d'API au moyen de redéploiements et ne perturbe pas la livraison de l'application par l'entremise du magasin des API du gouvernement du Canada.

Pipeline de réentraînement de modèle

Le pipeline de réentraînement de modèle est semblable à celui de demande d'extraction, mais exécute une tâche Databricks différente qui pointe vers le carnet de la branche principale. Le carnet journalise les mesures de session et enregistre le nouveau modèle dans Azure ML, puis déclenche le pipeline de déploiement.

L'entraînement du modèle peut nécessiter beaucoup de ressources. L'exécution du carnet en tant que tâche Databricks offre la possibilité de sélectionner un espace de calcul de haute performance (y compris les processeurs graphiques (GPU)). Les espaces sont automatiquement désassociés à la fin de la session d'entraînement.

Plutôt que d'être déclenchées par un événement particulier, les sessions du pipeline peuvent également être planifiées (consultez la page relative à la configuration de calendriers de pipelines pour obtenir de plus amples détails). Bon nombre des modèles reposent sur les données du dépôt de données d'entreprise de SPC, de sorte que l'équipe peut planifier le pipeline de réentraînement de modèle pour suivre le cycle de mise à jour du dépôt. Le modèle déployé peut ainsi toujours reposer sur les données les plus récentes.

Conclusion

Pour fournir un déroulement des opérations reproductible pour le déploiement de modèles d'AA dans le magasin des API du gouvernement du Canada, SPC a intégré plusieurs offres de SaaS Azure afin de créer une solution MLOps fonctionnelle.

  • Azure DevOps : Répertoire de code source; pipelines d'IC/DC et de réentraînement;
  • Azure Databricks : Développement de modèles d'AA dans des carnets; synchronisé avec le répertoire Git DevOps;
  • Azure ML : Expériences de suivi et d'enregistrement de modèles; création d'images Docker;
  • Service Azure Kubernetes : Service pour conteneur; vers lequel pointe le magasin des API du gouvernement du Canada.

Enfin, il convient de souligner que cette approche ne constitue qu'une des nombreuses solutions possibles. Les API Azure ML sur lesquelles la trousse de développement logiciel est basée sont en cours de développement actif et font l'objet de changements fréquents. L'équipe continue d'explorer des options en source ouverte et autohébergées. Le parcours de MLOps est loin d'être terminé, mais il est déjà bien engagé!

Si vous avez des questions au sujet de cette mise en œuvre ou si vous souhaitez simplement discuter de l'apprentissage automatique, veuillez envoyer un courriel à l'équipe de la Science des données et de l'Intelligence artificielle de SPC : ssc.dsai-sdia.spc@canada.ca.

Date de modification :

Technologies liées à la protection de la vie privée partie deux : introduction au chiffrement homomorphe

par Zachary Zanussi, Statistique Canada

Avez-vous déjà souhaité qu'il soit possible d'accéder à des données pour effectuer une analyse tout en préservant leur confidentialité? Le chiffrement homomorphe est une technique émergente de protection de la vie privée présentant d'éventuelles applications qui permettent un plus grand accès, tout en maintenant les données chiffrées et sécurisées.

Le premier article de la série, Une brève enquête sur les technologies liées à la protection de la vie privée, a présenté les technologies liées à la protection de la vie privée (TPVP) et la façon dont elles peuvent permettre une analyse tout en protégeant la confidentialité des données. Le présent article élabore sur le sujet en examinant plus en détail l'une de ces techniques, le chiffrement homomorphique, notamment pour discuter de quoi il s'agit, son fonctionnement et ce qu'il peut faire pour vous.

Le présent article commence par un aperçu du chiffrement homomorphe et de certains cas d'utilisation courants. Il fournit une évaluation équilibrée des avantages et des inconvénients du chiffrement homomorphe. Il couvre ensuite certains détails plus techniques pour vous préparer à explorer ces techniques vous-mêmes. À l'issue de cet article, nous espérons que vous souhaiterez poursuivre cet apprentissage en choisissant une bibliothèque de chiffrements homomorphes et en créant vos propres circuits chiffrés.

Des groupes internationaux envisagent actuellement la normalisation du chiffrement homomorphe. Le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe en pratique, ni toute technique cryptographique, avant sa normalisation par des experts. Même si le chiffrement homomorphe n'est pas encore prêt à être utilisé sur des données de nature délicate, c'est le moment idéal pour explorer ses fonctionnalités ainsi que d'éventuels cas d'utilisation. Un article ultérieur portera sur les activités de normalisation relatives au chiffrement homomorphe, notamment les délais et les procédés attendus.

Qu'est-ce que le chiffrement homomorphe?

Un procédé traditionnel de chiffrement associe du texte en clair lisible par une personne à des cryptogrammes masqués, afin de protéger les données de regards indiscrets. Une fois masqués, ces cryptogrammes sont inaltérables; la modification même d'un seul bit de texte chiffré peut créer un message en texte en clair méconnaissable après déchiffrage. Cela rend le chiffrement traditionnel relativement statique. En revanche, un procédé de chiffrement homomorphe est dynamique; dans le cas de deux textes chiffrés, vous pouvez effectuer des opérations sur les textes en clair sous-jacents. Une opération d'« ajout » homomorphe fournit, par exemple, un texte chiffré qui fournit la somme des deux messages d'origine en texte en clair après déchiffrage. Cela permet de déléguer le traitement informatique à une autre partie, de sorte qu'elle puisse manipuler les données sans y accéder directement.

Un protocole typique d'infonuagique comprend un client qui envoie ses données dans le nuage. Puisque les connexions Internet sont intrinsèquement peu sûres, ce transfert est facilité par une forme de protocole de sécurité des transferts faisant intervenir le chiffrement, comme HTTPS. À la réception, le nuage procède au déchiffrage et au traitement informatique. Pourtant, que faire si vous souhaitez que vos données demeurent secrètes dans le nuage? Grâce à un chiffrement par procédé homomorphe, non seulement les données sont protégées au cours du transfert, mais elles le sont également tout au long du processus de traitement informatique. À l'issue de ce dernier, le nuage retransmet les résultats chiffrés au client, qui peut les déchiffrer et consulter les résultats à sa guise.

Le terme « homomorphe » vient du grec et se traduit approximativement par de « forme similaire ». En mathématiques, un homomorphisme est une application entre une structure mathématique et une autre qui préserve les opérations de la première structure. Pour créer un procédé de chiffrement homomorphe, une carte de chiffrement brouillant suffisamment les données est nécessaire, de sorte que personne ne puisse savoir ce qu'elles sont, tout en protégeant simultanément la structure des données, afin que des opérations sur les textes chiffrés entraînent des résultats prévisibles sur les textes en clair. Ces objectifs paradoxaux soulignent la difficulté de créer de tels procédés.

Figure 1 : Illustration des avantages du chiffrement homomorphe

Figure 1 : Illustration des avantages du chiffrement homomorphe. La série de figures de gauche représente un chiffrement ordinaire; pour appliquer l'analyse souhaitée, les données doivent d'abord être déchiffrées à l'aide de la clé privée. Pour que le transfert des résultats soit sécurisé, les données doivent être chiffrées à nouveau. Les données sont en outre vulnérables pendant toute la durée du traitement informatique. La série de figures de droite représente le chiffrement homomorphe; la partie effectuant le traitement informatique n'a besoin d'aucun renseignement de nature délicate pour procéder aux calculs, et les données ainsi que les résultats sont protégés par chiffrement.

Description - Figure 1

Illustration de la différence entre des traitements informatiques avec chiffrements ordinaire et homomorphe. Dans le cas du chiffrement ordinaire, les données (une boîte de lignes dotée d'un cadenas) doivent d'abord être déchiffrées à l'aide d'une clé; ce qui donne la même boîte marquée d'un cadenas ouvert. Si les résultats doivent être communiqués à une autre partie, ils doivent alors être à nouveau chiffrés à l'aide d'une autre clé. Dans le cas d'un chiffrement homomorphe, le traitement informatique peut être effectué directement, sans l'intervention de renseignements secrets tels que des clés.

Que pouvez-vous faire avec le chiffrement homomorphe?

Plusieurs paradigmes informatiques distincts peuvent être améliorés grâce au chiffrement homomorphe, notamment l'informatique déléguée, le partage de données et la diffusion de données. Ces différents paradigmes s'articulent tous autour du fait que le détenteur des données, l'analyste et les plateformes informatiques sont souvent des parties totalement distinctes; le but étant de réduire ou d'éliminer les préoccupations en matière de protection de la vie privée soulevées lorsque l'une de ces parties ne devrait pas accéder aux données. Il est important de noter que le chiffrement homomorphe utilise un modèle de sécurité plus faible qu'une cryptographie traditionnelle et que des précautions doivent être prises pour veiller à ce qu'il soit utilisé en pratique en toute sécurité.Note de bas de page 1

L'application probablement la plus simple fait intervenir un détenteur de données délégant le traitement informatique à une autre partie, comme le nuage. Dans ce scénario, un client chiffre ses données et les envoie dans le nuage avec des instructions. Le nuage peut suivre ces instructions de manière homomorphe et retourner le résultat chiffré, en n'apprenant rien sur les valeurs d'entrée, de sortie ni intermédiaires. Ces instructions suivent le modèle de circuits, qui sont des séquences d'opérations arithmétiques appliquées à des extrants. Il convient de souligner que créer des circuits corrects et efficaces avec chiffrement homomorphe n'est pas toujours évident, mais il n'y a théoriquement pas de limite aux calculs pouvant être exécutés. Statistique Canada a, par exemple, terminé des validations de principeNote de bas de page 2 en appliquant une analyse statistique et un entraînement de réseau neuronal sur des données chiffrées.

Pour reprendre le scénario d'informatique déléguée, envisagez un cas faisant intervenir de multiples détenteurs de données. Ces sources de données souhaitent partager leurs données, mais des enjeux de confidentialité les en empêchent. Le procédé exact dépend du modèle de confiance; toutefois, le chiffrement homomorphe peut permettre à ces différentes parties de chiffrer leurs données et de les partager avec une autorité centrale ayant le pouvoir de procéder à un traitement informatique de manière homomorphe. Ces applications de partage de données peuvent permettre de meilleures analyses dans des scénarios où les données sont limitées et protégées. Un exemple est un oncologue qui souhaite tester ses hypothèses; les données sur les patients sont généralement limitées aux hôpitaux traitants et combiner ces ensembles non seulement accroît la force du modèle, mais élimine les biais géographiques en matière de données. Par conséquent, permettre à plusieurs hôpitaux de partager leurs données chiffrées et aux oncologues de procéder à des traitements informatiques sur cet ensemble de données conjoint chiffré permet de meilleurs recherches et résultats en matière de soins de santé.

Envisagez également des scénarios faisant intervenir un détenteur de données central et plusieurs parties souhaitant analyser ces données. Les centres de données de recherche de Statistique Canada sont un tel exemple, puisqu'ils sont hébergés dans des installations sécurisées que gère l'organisme dans l'ensemble du Canada. Des chercheurs agréés peuvent obtenir une autorisation spéciale d'accéder à des microdonnées au sein de ces sites sécurisés. Même s'il est sécurisé, ce processus d'autorisation prend du temps et les chercheurs doivent pouvoir se rendre physiquement sur ces sites. Avec le chiffrement homomorphe, les centres de données pourraient peut-être héberger les données chiffrées et en fournir l'accès à toute partie le demandant. Cela réduirait les coûts administratifs d'ajouter de nouveaux chercheurs et étendrait l'accès aux données conformément à l'initiative de données ouvertes du Canada.

Figure 2 : Illustrations de ces trois paradigmes

Figure 2 : Illustrations de ces trois paradigmes. Tout d'abord, le traitement informatique délégué; le détenteur de données chiffre et envoie les données au nuage, qui retourne les résultats chiffrés après avoir procédé à des calculs homomorphes. Ensuite, plusieurs parties chiffrent et envoient leur part d'un ensemble de données distribué que le nuage peut utiliser pour procéder à une analyse, sans compromettre les principes de confidentialité de chaque détenteur de données. Enfin, un détenteur de données central peut donner accès à un ensemble de données chiffré à des analystes. Ces derniers peuvent ainsi faire l'objet d'une surveillance et de restrictions moindres, car ils n'ont jamais un accès direct aux données.

Description - Figure 2

Illustrations des trois paradigmes. Dans le cadre du paradigme de traitement informatique délégué, le détenteur de données envoie ses données chiffrées au nuage, qui lui retourne les résultats chiffrés. Dans le paradigme de multiples détenteurs de données, ces derniers peuvent individuellement envoyer leurs données chiffrées, permettant au serveur infonuagique d'effectuer un traitement informatique conjoint sur l'union de leurs ensembles de données, fournissant ainsi un résultat analytique plus robuste. Dans le paradigme de « banque de données », le nuage héberge les données et peut envoyer des données chiffrées à tout analyste choisi, sans crainte d'une mauvaise utilisation des données.

Le chiffrement homomorphe peut être utile au-delà de calculs numériques. Par exemple, pour un client en possession d'un ensemble de données de nature délicate, l'intersection d'ensembles privés (PSI) permet l'apprentissage de l'intersection de cet ensemble avec un ensemble de données sur un serveur, sans que ce serveur n'apprenne l'ensemble de données du client et sans que le client n'apprenne quoi que ce soit sur les données du serveur au-delà de l'intersection. La mise en correspondance de chaînes privées (PSM) est un protocole similaire permettant au client d'interroger une base de données textuelle pour une sous-chaîne correspondante. À l'aide de ces primitives cryptographiques et d'autres, vous pouvez imaginer une vaste suite protégeant la vie privée et couplant des données entre divers ministères et établissements publics. Même si un tel système est ambitieux et que les modes de mise en œuvre exacts ne sont pas encore clairs, cela permet d'envisager les types de systèmes auxquels nous pouvons aspirer à mesure que des tâches plus complexes sont effectuées à l'aide du chiffrement homomorphe et d'autres technologies liées à la protection de la vie privée.

Inconvénients du chiffrement homomorphe

Malgré les nombreux avantages de l'utilisation du chiffrement homomorphe, comme pour toute technologie, il présente de potentiels inconvénients. Le prix de la sécurité cryptographique est le coût computationnel; selon l'analyse, le calcul chiffré peut être plus dispendieux de plusieurs ordres de grandeur que le calcul non chiffré. Il existe également un coût de décompression des données qui peut être assez important. Ce coût de décompression des données est aggravé par le fait que la plupart des protocoles de chiffrement homomorphe font intervenir un transfert de données chiffrées. Alors que le stockage infonuagique est relativement peu coûteux, le transfert de données peut être coûteux et complexe.

Le chiffrement homomorphe autorise en outre un ensemble limité de calculs en mode natif. Seules l'addition, la soustraction et la multiplication sont natives à la plupart des procédés arithmétiques et tous les autres calculs (exponentiels, fonctions d'activation, etc.) doivent être exprimés approximativement par un polynôme. Il convient de souligner que cela est généralement le cas avec tous les ordinateurs, mais lorsqu'un ordinateur moderne cache ce fait à l'utilisateur, les bibliothèques de chiffrements homomorphes exigent actuellement de l'utilisateur qu'il précise comment calculer ces fonctions non insignifiantes.Note de bas de page 3 Dans certains procédés, il convient également de se préoccuper de la profondeur des calculs tentés. En effet, ces procédés introduisent du bruit dans les données chiffrées pour les protéger.

Ce bruit est aggravé par des calculs successifs et, à moins d'être réduit,Note de bas de page 4 dépasserait éventuellement le signal; le déchiffrage ne fournirait alors plus les résultats attendus. Le choix des paramètres de chiffrement est important dans ce cas. Pour un circuit donné, il existe un ensemble de paramètres suffisamment grand pour être adapté; toutefois, gérer des paramètres plus importants accroît le coût de calcul du protocole.

Les coûts supplémentaires en termes de calcul et de création de circuits peuvent-ils être justifiés? Le chiffrement homomorphe permet des calculs potentiellement impossibles autrement. Cela concerne des ensembles de données de nature délicate en particulier, comme les données sur la santé. Le coût auquel fait face un analyste pour obtenir les autorisations de travailler sur de telles données est énorme, tout comme d'autres complications, comme des environnements informatiques contrôlés. Une fois les données partagées, comment vérifier que les analystes respectent les règles? Certains détenteurs de données peuvent rechigner à permettre à quiconque d'accéder à leurs données; sans des mesures supplémentaires, comme le chiffrement homomorphe, cette analyse est peut-être impossible. La décision entre un « calcul coûteux » et « aucun calcul » est bien plus facile à prendre.

De plus, divers procédés et leur mise en œuvre sont un domaine actif de recherche et les mises en œuvre de bibliothèques permettent régulièrement des améliorations de leurs algorithmes de calcul homomorphe et de compression de données. D'importants investissements en accélération matérielle pour le chiffrement homomorphe ont récemment été faits. Cela est similaire au matériel installé sur la plupart des ordinateurs, qui comprend des circuits électroniques particuliers conçus pour effectuer des opérations de chiffrement et de déchiffrage aussi rapidement que possible. Cela pourrait permettre aux ordinateurs infonuagiques qui utilisent cette accélération du chiffrement homomorphe d'effectuer des analyses sur des données chiffrées à des vitesses plus proches de celles s'appliquant à des données non chiffrées.

Malgré ces inconvénients, il y a lieu de penser que le chiffrement homomorphe deviendra un important outil de protection de la vie privée. C'est par conséquent le moment idéal de commencer à examiner ce que ces techniques peuvent permettre de faire.

Mathématiques du chiffrement homomorphe

Nous allons maintenant plonger dans les rouages mathématiques internes du chiffrement homomorphe, notamment des détails cryptographiques. Nous espérons que même les lecteurs non férus de mathématiques pourront saisir les bases du fonctionnement de ces procédés. Il convient de souligner que le reste de cette section fournit des détails découlant du procédé de Cheon, Kim, Kim et Song, intitulé chiffrement homomorphe pour l'arithmétique de nombres approximatifs (le contenu de cette page est en anglais), mais la communauté cryptographique l'appelle généralement CKKS. Cela dit, la majeure partie de ce qui est mentionné ici s'applique également à d'autres procédés avec seulement de légères modifications.

Au cœur de tout cryptosystème à clé publique se trouve un problème mathématique jugé difficile à résoudre, sauf en ayant accès à un renseignement particulier appelé une clé secrète (ou privée). Une clé publique associée peut être utilisée pour chiffrer des données en texte clair pour produire un texte chiffré, mais seule la connaissance de cette clé secrète permet de rétablir le texte en clair initial à partir de ce texte chiffré. Puisque la clé publique ne peut pas servir au déchiffrage, elle peut être partagée avec toute personne souhaitant chiffrer des données avec la confiance que seul le détenteur de la clé secrète peut déchiffrer le texte chiffré pour accéder au texte en clair.

La plupart des procédés de chiffrement homomorphe ont recours à des variantes de l'hypothèse de difficulté d'apprentissage avec erreurs (LWE). Cela décrit la variante annulaire appelée apprentissage annulaire avec erreurs (RLWE). Au lieu de traiter de nombres entiers, ce procédé traite de polynômes dotés de coefficients entiers. Vous pouvez, par exemple, utiliser l'espace de polynômes avec coefficients entiers modulo q ordres de grandeur inférieur à N; exprimé sous la forme Rq=Zq[X]/XN-1. Vous pouvez considérer cet espace simplement comme des listes de nombres entiers N, chacun inférieur à q. Généralement, ces valeurs devraient être relativement grandes; par exemple N=215=16,384 et q ~ 2800. Cela rend Rq suffisamment grand pour y cacher des secrets! La figure 3 fournit un petit exemple du type d'espace avec lequel nous travaillerions.

Figure 3 : Petit exemple d'anneau d'un type pouvant être utilisé pour le chiffrement homomorphe, ainsi que quelques-uns de ses éléments

Figure 3 : Petit exemple d'anneau d'un type pouvant être utilisé pour le chiffrement homomorphe, ainsi que quelques-uns de ses éléments. Remarquez que la somme ou le produit de ces éléments est un autre élément de l'anneau.

Description - Figure 3

Exemple d'anneau pouvant être intéressant pour un travail avec le chiffrement homomorphe.

R17=Z17[X]/X16-1
X15+11X14+X12+5X7+2X6+4X2+X+16
X4+13X3+5X2+X+8
X10+16X8+X6+16X4+X2+16

Ici, la valeur de q est 17 et la valeur de N est 16. Des exemples de polynômes de l'anneau sont également indiqués; un exemple est le polynôme x4+13x3+5x2+x+8.

Dans le cas de deux polynômes, par exemple, vous pouvez les ajouter ou les multiplier. Le résultat de ces opérations est toujours un autre polynôme.Note de bas de page 5 Rq devient ainsi un type de bac à sable au sein duquel vous pouvez évoluer librement. Les mathématiciens appellent un ensemble présentant cette propriété un anneau; la façon dont ces opérations influent sur les éléments de l'anneau est ce que l'on appelle la structure. La propriété spéciale du chiffrement homomorphe est qu'il existe des opérations dans l'espace du texte chiffré qui correspondent de façon homomorphe aux opérations de l'espace de texte en clair sous-jacent. On préfère l'utilisation d'anneaux polynomiaux, car les opérations sont efficaces et on juge le problème RLWE difficile.

Comment cache-t-on un secret dans un espace mathématique? Supposez que vous disposez de quatre polynômes aléatoiresNote de bas de page 6 dans Rq, appelés a, s, e, et b. L'hypothèse de difficulté RLWE énonce qu'il est très difficile de distinguer une série de paires de la forme (a,as+e) ou de la forme (a,b). Ici, « très difficile de distinguer » signifie que « les paramètres peuvent être définis de telle sorte que tous les ordinateurs les plus puissants du monde fonctionnant ensemble avec les meilleurs algorithmes connus ne pourraient pas résoudre le problème ». Les polynômes a et b peuvent être échantillonnés de façon aléatoire uniformément au sein de tous les Rq, mais les autres ont une forme spéciale. Dans le cadre du procédé CKKS, s a les coefficients ±1  ou 0 et nous échantillonnons les coefficients de e dans une répartition gaussienne discrète sur Zq centrée autour de 0. Dans le reste de cet article, nous allons simplement qualifier ces polynômes de « petits », car, dans les deux cas, leurs coefficients sont proches de 0.

La difficulté du problème RLWE permet de garder un secret comme suit : remarquez que la première paire est corrélée; il existe un facteur de a dans les deux polynômes, alors que dans la deuxième, il n'existe aucune corrélation entre les a et b sélectionnés aléatoirement. Imaginez maintenant qu'une personne vous remette de nombreuses paires toutes de la forme (a,as+e) pour de nombreuses valeurs différentes de e et une constante s, ou toutes des paires complètement aléatoires. Selon la difficulté de RLWE, non seulement vous ne pourriez pas trouver s de façon fiable en fonction des paires (a,as+e), mais vous ne pourriez pas non plus déterminer de façon fiable la paire vous ayant été donnée! La figure 4 fournit un petit exemple de ce problème pour que vous vous y exerciez chez vous.

Figure 4 : Quatre paires de polynômes

Figure 4 : Quatre paires de polynômes dans R17=Z17[X]/X16-1 • réparties en deux groupes. Un groupe est distribué comme (a,as+e) pour certains « petits » s fixes et deux « petits » e aléatoires différents et l'autre groupe est de la forme (a,b). Savez-vous lequel est lequel? Qu'en est-il si 17 devient 2800 et 16 devient 16,384? Imaginez maintenant d'essayer de trouver s. Veuillez noter que dans l'hypothèse de RLWE, un seul de ces groupes vous serait fourni et non les deux.

Description - Figure 4

Quatre paires de polynômes. Cela est supposé être un petit exemple du problème RLWE pour que vous vous y exerciez chez vous. Les paires polynomiales sont réparties en deux groupes. Un groupe est réparti sous forme (a,as+e)  pour un « petit » polynôme s et l'autre est de la forme (a,b) pour a et b aléatoires. Savez-vous lequel est lequel? Les polynômes de la figure sont reproduits ci-dessous :

(x4+4x3+10x+1,x8+6x7+x6+8x5+12x4+4x3+10x2+8x+14)
(x4+12x3+2x2+5x+11, x8+14x7+14x6+12x5+9x4+13x3+8x2+6x+7)
(x4+5x3+3x2+8, x8+4x7+12x6+16x5+15x4+3x3+6x2+9x+8)
(x4+9x3+7x2+14x+1, x8+413x7+9x6+14x5+2x4+8x3+x2+13x+12)

La sécurité des procédés fondés sur RLWE découle du fait que si a, s et e sont donnés, il est facile de calculer a*s + e, mais il est pratiquement impossible de trouver s à partir de a et a*s + e. Vous pouvez créer un système de chiffrement de clé publique comme suit :

  • Fixez votre espace Rq en choisissant un coefficient modulus q et un polynôme modulus de degré N.
  • Choisissez une « petite » clé secrète s aléatoire, un a uniformément aléatoire, et un « petit » e aléatoire pour créer votre clé publique (a, -as+e,a). Remarquez la valeur négative dans cette paire; cela rend le processus de chiffrement plus simple, mais n'influe pas sur la sécurité de RLWE.
  • Partagez votre clé publique avec le monde entier et personne ne pourra trouver votre clé secrète! Ainsi, toutes les personnes possédant cette clé publique peuvent chiffrer les données et les envoyer à une partie pour y appliquer des calculs, de façon homomorphe. À la fin, les résultats peuvent également uniquement être déchiffrés et affichés à l'aide de la clé secrète.

Pour chiffrer les données, celles-ci doivent d'abord être codées comme vecteur de v nombres réels. Cela est simple lorsque vous travaillez avec des données numériques et la pratique courante lors d'un travail avec des données textuelles et autres. Pour ce chiffrement, le vecteur de v données est d'abord codé comme polynômeNote de bas de page 7 m dans Rq et combiné avec la clé publique, afin d'obtenir un texte chiffré, désigné par [v]. Maintenant, envoyez cela à la partie informatique effectuant les additions et multiplications homomorphes pour mettre en œuvre le calcul souhaité. La figure 5 représente un circuit simple calculant une fonction polynomiale. Une fois les calculs effectués et les textes chiffrés résultants obtenus, vous pouvez utiliser votre clé secrète pour déchiffrer et afficher les résultats.

Figure 5 : Visualisation d'un circuit homomorphe

Figure 5 : Visualisation d'un circuit homomorphe. Un vecteur de valeurs peut être chiffré en un simple texte chiffré et faire simultanément l'objet de calculs. La figure représente seulement une réalisation d'un circuit pour calculer le polynôme f(x). Les valeurs avec cadenas sont chiffrées et donc illisibles pour la partie effectuant les calculs.

Description - Figure 5

Circuit homomorphe évaluant la fonction nf(x)=x3+4x2+2x+1 sur un vecteur de valeurs. Les cadenas représentent les valeurs chiffrées et donc illisibles pour la partie effectuant les calculs. Les flèches et les opérations indiquent la façon dont il est possible de coder en fait le circuit dans une bibliothèque de chiffrements homomorphes.

Même si le présent article n'a pas exploré tous les détails de la mise en œuvre mathématique de ces opérations, la description du chiffrement homomorphe jusqu'à présent fournit le contexte nécessaire pour en apprendre plus en la matière.

Comment commencer à utiliser le chiffrement homomorphe

Pour vous lancer en chiffrement homomorphe, explorez certaines des bibliothèques de chiffrements homomorphes en source ouverte disponibles; vous pouvez essayer Microsoft SEAL, PALISADE Homomorphic Encryption Software Library, TFHE: Fast Fully Homomorphic Encryption over the Torus, voire Concrete: Open-source Homomorphic Encryption Library si vous êtes utilisateur de Rustacean also know as someone who uses Rust (le contenu de ces pages est en anglais). Ces diverses bibliothèques mettent en œuvre de multiples procédés de chiffrement homomorphe; vous pouvez choisir celui qui convient le mieux à votre cas d'utilisation. Nous soulignons que, jusqu'à la fin du processus de normalisation, le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe avec tout type de données de nature délicate.

Même si tous ces procédés de chiffrement homomorphe différents permettent de mettre en œuvre la plupart des cas d'utilisation, certains seront plus performants que d'autres sur certains problèmes. Le procédé CKKS est conçu pour fonctionner sur des nombres réels; si les statistiques ou l'apprentissage automatique vous intéressent, c'est là que vous devriez probablement commencer! Brakerski/Fan-Vercauteren et Brakerski-Gentry-Vaikuntanathan sont parfaits pour l'arithmétique de nombres entiers et mettre en œuvre les primitives informatiques comme l'intersection d'ensemble privé ou la correspondance de chaînes. TFHE met en œuvre des fonctions logiques en mode natif et actualise le bruit de texte chiffré à chaque opération, ce qui permet d'améliorer l'efficacité lorsque les profondeurs de circuit sont plus longues. Nous encourageons les lecteurs intéressés à essayer des circuits simples en utilisant chaque procédé et à en comparer les résultats et les performances!

Si vous souhaitez de plus amples renseignements sur les aspects de cybersécurité du chiffrement homomorphe, notamment les activités de normalisation, communiquez avec le Centre canadien pour la cybersécurité par courriel à l'adresse contact@cyber.gc.ca et par téléphone au 613-949-7048 ou 1-833-CYBER-88.

Conclusion

Le présent article a exploré en détail le chiffrement homomorphe, de ses applications jusqu'au problème RLWE. Cette série sur les technologies liées à la protection de la vie privée se penchera ensuite sur des validations de principe effectuées en appliquant le chiffrement homomorphe à Statistique Canada! Elle couvrira également certains des aspects plus avancés de l'interface CKKS, notamment les rotations, le choix des paramètres, la mise en paquet, le bootstrap, la mise à l'échelle et les niveaux.

Souhaitez-vous être tenu au courant de ces nouvelles technologies? Voulez-vous faire état de vos travaux dans le domaine de la protection de la vie privée? Consultez la page GCConnex de notre communauté de pratique sur les technologies de protection de la vie privée (réservée aux employés du gouvernement du Canada), afin de discuter de cette série d'articles sur la protection de la vie privée, d'interagir avec des pairs qui s'intéressent à la protection de la vie privée, et de partager des ressources et des idées avec la communauté. Vous pouvez également commenter ce sujet ou fournir des suggestions d'articles futurs pour cette série.

Note : Nous souhaitons remercier le Centre canadien pour la cybersécurité et l'Institut Tutte pour les mathématiques et le calcul, faisant tous deux partie du Centre de la sécurité des télécommunications, pour leur participation au présent article.

Date de modification :

Le bulletin d'information du Réseau de la science des données a un an!

Par : Allie MacIsaac, Claudia Mokbel et Kathleen Carson, Statistique Canada

Qui n'aime pas célébrer un anniversaire? Notre bulletin d'information du Réseau de la science des données pour la fonction publique fédérale (RSDFPF) – le Méli-mélo de la science des données – a eu un an! Pour célébrer notre premier anniversaire, nous vous communiquons certaines de nos réalisations de l'année écoulée.

Figure 1 – Anniversaire du Réseau de la science des données

Figure 1 – Anniversaire du Réseau de la science des données

Description - Figure 1

Image d'une bougie d'anniversaire ayant la forme du chiffre « 1 ». Les mots « Réseau de la science des données » figurent au-dessus, avec le logo du réseau en arrière-plan.

L'année a été passionnante et s'est écoulée à toute vitesse – la communauté du RSDFPF a connu une croissance rapide, et cet enthousiasme nous encourage à mesure que nous continuons de croître et de nous adapter pour répondre aux besoins de la communauté de la science des données.

Votre opinion nous importe!

À mesure que le RSDFPF continue de croître, nous espérons continuer de répondre à vos besoins et de fournir le contenu qui sera le plus utile à notre lectorat. Nous vous invitons à prendre un moment pour répondre à notre enquête : Sondage sur le bulletin d'information du Réseau de la science des données, et nous faire part de votre avis concernant le réseau – notamment ce qui fonctionne et ce que nous pourrions améliorer. Nous vous remercions pour votre rétroaction!

Figure 2 – Frise chronologique indiquant les étapes clés du RSDFPF

Description - Figure 2

Frise chronologique indiquant les étapes clés du RSDFPF. Une barre traversant la partie inférieure de l'image indique les années 2020, 2021 et 2022. Voici les points figurant dans la chronologie de 2020 : Naissance de l'idée du réseau lors de la Conférence sur les données 2020 – février; Lancement du module Web du Centre de la science des données – septembre; Première réunion du comité des directeurs du RSDFPF – novembre; Création du wiki du RSDFPF – décembre. Voici les points figurant dans la chronologie de 2021 : Annonce du nom du bulletin d'information – janvier; Participation du RSDFPF à la Conférence sur les données 2021 – février; Première publication d'offres d'emploi dans le bulletin d'information – février; Première réunion du groupe de travail sur la gestion des talents en science des données – avril; Atelier sur les robots conversationnels (à venir) – décembre. Voici les points figurant dans la chronologie de 2022 : Conférence sur les données 2022 (à venir) – février.

Tout ce qu'il faut savoir sur le Réseau de la science des données

Figure 3 Tableau des membres du Réseau de la science des données pour la fonction publique fédérale

Figure 3 Tableau des membres du RSDFPF

Description - Figure 3

Graphique circulaire des membres du RSDFPF montrant le pourcentage de membres qui appartiennent aux catégories qui suivent : administrations publiques fédérales (70 %), secteur privé (18 %), milieu universitaire (8 %), administrations publiques provinciales (2 %), municipalités (1 %) et administrations publiques étrangères (1 %).

En chiffres

  • Plus de 2 200 membres
  • Dont des représentants de :
    • plus de 70 organismes et ministères,
    • 69 établissements d'enseignement,
    • 15 administrations publiques et organismes provinciaux ou territoriaux;
  • 22 articles publiés;
  • 11 éditions du bulletin d'information.

La première édition du bulletin d'information a été publiée en octobre 2020. Elle a servi de point de lancement du RSDFPF, dont l'objectif était de renforcer les capacités de la science des données et de mettre en commun les méthodes de la science des données au sein du gouvernement du Canada et au-delà. La communauté du RSDFPF comprend des personnes provenant de tous les secteurs, notamment des employé(e)s des administrations publiques fédérale et provinciales, des employé(e)s du secteur privé et des membres du milieu universitaire. Consulter la page À propos du Réseau de la science des données pour la fonction publique fédérale pour obtenir plus de renseignements.

La communauté du RSDFPF accueille par ailleurs des membres de tous les niveaux d'expérience et de compétence – elle n'est pas réservée qu'aux scientifiques des données! La communauté comprend des personnes qui collaborent avec des scientifiques des données, les supervisent ou les embauchent et même des personnes qui sont simplement curieuses et veulent en savoir plus sur ce domaine en expansion permanente.

L'objectif principal du RSDFPF est d'établir les bases d'un écosystème de la science des données, à l'échelle du service public et organisé autour de cinq domaines d'intérêt : la gestion des talents, la formation et l'apprentissage, le partage de l'information, la collaboration et les services communs.

Figure 4 – Les cinq domaines d'intérêt du Réseau de la science des données pour la fonction publique fédérale

Figure 4 – Les cinq domaines d'intérêt du RSDFPF

Description - Figure 4

Image comprenant cinq cercles liés et alignés de gauche à droite. Chaque cercle comprend un domaine d'intérêt. De gauche à droite, les cinq domaines sont la gestion des talents, la formation et l'apprentissage, le partage de l’information, la collaboration et les services conjoints.

L'idée d'un réseau de la science des données a été présentée pour la première fois lors de la Conférence sur les données 2020, qui a eu lieu à Ottawa les 13 et 14 février. Les employé(e)s du gouvernement du Canada ont exprimé leur enthousiasme à l'égard de cette initiative, car ils cherchaient une plateforme centrale à visiter pour obtenir les derniers renseignements sur la science des données.

Un espace réservé au RSDFPF

Figure 5 – Un espace réservé au Réseau de la science des données pour la fonction publique

Figure 5 – Un espace réservé au RSDFPF

Description - Figure 5

Le logo du Réseau de la science des données est composé des mots « Réseau de la science des données » en bleu marine et bleu ciel qui figurent dans la partie supérieure et de deux images vectorielles de personnes à l'intérieur d'un cercle, représentant le noyau du logo (et du réseau). Ce cercle est relié par des lignes à d'autres cercles, à l'intérieur desquels figurent des images de graphiques, d'horizons et autres symboles. Ces images représentent les différentes manières d'utiliser ou d'exprimer les résultats de la science des données.

C'est de cet enthousiasme qu'est né le RSDFPF! Les premières étapes ont notamment compris le lancement du module Web — Réseau de la science des données pour la fonction publique fédérale. Ce module fait partie du Centre de la science des données de Statistique Canada et présente tous les articles du réseau, la page d'abonnement au bulletin du Réseau de la science des données pour la fonction publique fédérale et d'autres ressources en science des données.

Un méli-mélo plaisant

Le bulletin d'information, intitulé Méli-mélo de la science des données, est en constante évolution. Jusqu'à présent, nous y avons présenté une grande variété d'articles sur des sujets de pointe. Cela comprend les projets de Statistique Canada et des présentations d'autres organismes et ministères. Jetez un coup d'œil à nos dix articles les plus lus – vous y trouverez certainement quelque chose d'intéressant!

Découvrez les 10 articles les plus lus de l'année

  1. La plateforme infonuagique d'analyse avancée liée à la COVID-19
  2. Une brève enquête sur les technologies liées à la protection de la vie privée
  3. Utilisation responsable des systèmes décisionnels automatisés du gouvernement fédéral
  4. De l'exploration à l'élaboration de modèles d'apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité
  5. Charges de travail protégées dans le nuage public
  6. Utiliser la science des données et les outils infonuagiques pour évaluer les répercussions économiques de la COVID-19
  7. Modélisation thématique et modélisation thématique dynamique : Une revue technique
  8. Contrôle de version avec Git pour les professionnels de l'analyse
  9. Classification des commentaires sur le Recensement de 2021
  10. Un étudiant coop explore la puissance des mégadonnées

Au RSDFPF, nous accueillons toujours avec plaisir vos propositions. Vous pouvez envoyer vos idées ou vos articles à l'équipe par courriel : statcan.dsnfps-RSDFPF.statcan@statcan.gc.ca et nous faire part de vos commentaires! C'est avec grand plaisir que nous traiterons de votre projet ou d'un sujet qui vous intéresse.

La première réunion du comité des directeurs du RSDFPF

Pour répondre aux besoins croissants du réseau, la première rencontre du comité des directeurs du Réseau de la science des données a eu lieu le 25 novembre 2020. La réunion a été très suivie, avec des représentants venus de 17 organismes et ministères et des partenaires désireux de faire progresser les capacités en matière de science des données. Après une présentation de l'objet et des buts du RSDFPF, nous avons eu une discussion animée sur les priorités du réseau – nous avons déjà progressé sur beaucoup d'entre elles à l'occasion de réunions ultérieures.

Cette première discussion et les suivantes ont porté notamment sur : la création d'un groupe de travail chargé de définir les compétences pour les descriptions des emplois en science des données au sein du gouvernement du Canada et d'améliorer les processus d'embauche et de maintien en poste du personnel; les contributions potentielles à la Conférence sur les données 2022 (qui sera co-organisée par Statistique Canada et l'École de la fonction publique du Canada); le projet d'organiser plusieurs séances de discussion sur les sujets pressants pour la communauté du RSDFPF, notamment les agents conversationnels et les entrepôts de données. Restez à l'affût pour plus en savoir plus sur ces événements à venir!

Les contributions clés à la 2021 Conférence sur les données

Les membres de tout le RSDFPF ont participé à plusieurs séances lors de la Conférence sur les données 2021, organisée en ligne en février. Le thème de la conférence était « Une communauté des données intégrée pour rebâtir en mieux », en réponse à la priorité du gouvernement du Canada d'œuvrer au rétablissement et à sa volonté d'apporter des changements systémiques positifs en utilisant des données de qualité.

Le RSDFPF a participé aux séances qui suivent :

  • le groupe d'experts sur l'évaluation des données saisies et l'exactitude du modèle résultant – la manière dont les scientifiques des données mettent la théorie en pratique lorsqu'ils évaluent des données pour des projets et la manière dont ils collaborent avec les clients pour obtenir la qualité de sortie souhaitée;
  • l'atelier sur l'Espace de travail d'analyse avancée – une discussion sur la conception de ce guichet unique pour la science des données et les analyses, une démonstration de la plateforme et une explication sur la manière dont cet espace de travail permet de réaliser des analyses à une échelle qu'il était auparavant impossible d'atteindre;
  • l'atelier sur les outils de gestion des talents pour les scientifiques des données – la manière dont les rôles sont définis dans d'autres organismes et les moyens de mettre à profit ces méthodes pour aider à combler les lacunes dans les profils de compétences des scientifiques des données au sein du gouvernement du Canada, afin d'attirer et de maintenir en poste les talents.

Compétences et collaboration

En misant sur le succès de l'atelier sur la gestion des talents lors de la Conférence sur les données, ainsi que sur les besoins définis lors des discussions de la réunion du comité des directeurs, le RSDFPF a créé un groupe de travail sur les compétences pour la gestion des talents en science des données. L'objectif de ce groupe de travail est de définir les rôles attendus dans une équipe de science des données et les compétences techniques et comportementales nécessaires pour chacun de ces rôles. Le groupe de travail s'appuie sur ces renseignements pour élaborer des profils de compétences qui permettront ensuite de rédiger des descriptions de postes fonctionnels, afin d'aider à maintenir en poste les scientifiques des données au sein de la fonction publique fédérale. Par ailleurs, le groupe de travail collabore étroitement avec le Secrétariat du Conseil du Trésor et la communauté des données du gouvernement du Canada, pour garantir une cohérence avec les autres initiatives en matière de ressources humaines et avec les compétences en numérique du gouvernement du Canada. Les ébauches de définition des rôles et des compétences sont prêtes. Le groupe a commencé à travailler sur l'attribution des niveaux de compétence. Les membres se réunissent toutes les deux semaines. Consultez la page du groupe de travail sur GCcollab pour obtenir plus de renseignements.

Regard vers l'avenir

D'autres nouveautés passionnantes sont prévues pour les prochains mois. Gardez un œil sur le bulletin d'information pour en savoir plus.

Le RSDFPF se réjouit :

  • de continuer d'encourager les projets de collaboration entre Statistique Canada et d'autres organismes et ministères fédéraux;
  • d'organiser de nouveaux événements, tels que l'atelier sur les agents conversationnels à venir en décembre;
  • d'organiser un atelier sur les entrepôts de données en 2022;
  • de publier plus d'articles et de contenu dans le bulletin d'information, avec les dernières nouvelles sur les projets et les ressources en science des données;
  • de participer à la Conférence sur les données 2022;
  • et plus encore!

Nous vous remercions de votre soutien, de votre intérêt et de votre enthousiasme constants, tandis que nous nous efforçons toutes et tous d'accroître les capacités de la science des données au sein du gouvernement du Canada et au-delà.

Date de modification :

Un nouvel indicateur des mouvements hebdomadaires d'aéronefs

Par : Krishna Chaitanya Gopaluni, Statistique Canada

L'an dernier, lorsque la pandémie de COVID-19 a frappé le Canada, le gouvernement fédéral a imposé des restrictions concernant les voyages non essentiels dans l'ensemble du pays pour aider à limiter la propagation du virus. Des restrictions frontalières sont également entrées en vigueur le 18 mars 2020 pour les voyages transfrontaliers entre le Canada et les États-Unis de même que pour les autres voyages internationaux. L'équipe de l'aviation du Centre canadien de la statistique du tourisme et du transport (CCSTT) de Statistique Canada publie des statistiques mensuelles détaillées sur les mouvements d'aéronefs deux mois après la période de référence, mais ces statistiques n'étaient pas suffisamment actuelles pour mesurer l'évolution rapide de la situation.

Parmi les nombreuses sources de données utilisées par le CCSTT pour produire ces statistiques mensuelles figurent les données qu'il reçoit des tours de contrôle de la circulation aérienne de NAV CANADA. L'équipe de la CCSTT connaissait le potentiel des données, mais elle n'avait ni les compétences ni le temps nécessaires pour produire efficacement des estimations préliminaires de qualité. Par conséquent, elle a collaboré avec l'équipe de l'opérationnalisation de la science des données (OSD), qui fait partie de la Division de la science des données de Statistique Canada. Ensemble, les équipes ont entrepris un projet visant à produire un nouvel indicateur des mouvements hebdomadaires d'aéronefs au Canada afin d'évaluer l'incidence des restrictions sur les aéroports canadiens dotés de tours de contrôle de la circulation aérienne de NAV CANADA.

L'équipe de l'OSD a travaillé avec le CCSTT pour produire une application sur mesure et simple, qui produit des estimations des mouvements d'aéronefs à partir de fichiers de données brutes déclarées dans le cadre du programme mensuel sur les statistiques relatives aux mouvements des aéronefs. Cette application est utilisée par les analystes de l'équipe de l'aviation pour produire des fichiers de sortie de données hebdomadaires, qui sont ensuite chargés dans le tableau Mouvements itinérants intérieurs et internationaux d'aéronefs pour diffusion au public. Les données sont mises à jour chaque semaine et publiées 12 jours après la semaine de référence.

Les estimations hebdomadaires permettent à Statistique Canada de fournir un indicateur avancé du niveau de circulation aérienne dans l'ensemble du pays en temps très opportun. Cette mesure s'est révélée utile, car la circulation aérienne a été durement touchée par la pandémie.

Automatisation du déroulement des opérations

Étant donné qu'il s'agissait d'une nouvelle initiative entreprise pendant la pandémie, il a fallu la mettre en œuvre d'une manière qui nécessitait peu de temps et d'efforts afin de suivre l'évolution de la situation dans l'aviation. Les analystes de l'équipe de l'aviation du CCSTT n'étaient pas certains de la façon optimale de produire des estimations hebdomadaires. Bien qu'ils aient accès aux fichiers bruts de NAV CANADA, il n'est pas facile de les traiter pour obtenir les bons renseignements, car les données sont semi-structurées. En vue d'accélérer ce processus, l'équipe de l'OSD a mis au point une approche automatisée pour estimer les mouvements hebdomadaires des aéronefs, afin que les analystes puissent facilement publier les chiffres.

Les renseignements extraits Mouvements itinérants intérieurs et internationaux d'aéronefs, total de tous les aéroports dotés d'une tour de contrôle de NAV CANADA, hebdomadaire, ont été agrégés chaque semaine pour les voyages intérieurs, transfrontaliers et internationaux.

Une représentation des étapes que franchissent les données pendant leur traitement

Figure 1 – Étapes du réseau de données

Description - Figure 1

Une représentation des étapes que franchissent les données pendant leur traitement. Progression de l'appariement du modèle vers l'extraction de la position du texte apparié, l'identification des aéroports intérieurs et la conversion en table de données. La table de données structurée est ensuite classée en catégories et des agrégats hebdomadaires sont créés.

À première vue, l'automatisation de ce processus semblait difficile; toutefois, l'équipe de l'OSD a mis en place une solution fondée sur Python, qui s'est révélée utile. Elle a utilisé une technique simple d'appariement de formes utilisant des expressions régulières et la bibliothèque intégrée de traitement de chaînes de caractères de Python pour extraire du texte à partir d'une position donnée dans les données semi-structurées. Pour ce faire, l'équipe a d'abord recueilli les données de NAV CANADA auprès des intervenants et a utilisé des techniques de reconnaissance des motifs pour récupérer les entrées liées à 41 aéroports intérieurs et des renseignements sur les mouvements intérieurs, les mouvements transfrontaliers et les autres mouvements internationaux. Ensuite, les données ont été transformées en données structurées et stockées dans une table de données. À l'étape suivante de l'exécution, l'application a classé chaque entrée selon les catégories « voyages intérieurs », « voyages transfrontaliers » ou « autres voyages internationaux », en fonction des métadonnées. Enfin, les chiffres correspondant à chaque catégorie ont été regroupés en mouvements hebdomadaires. La bibliothèque Python d'analyse de données Pandas a également été utilisée pour créer des agrégations hebdomadaires complexes. L'agrégation hebdomadaire dépend de la date de début fournie par l'utilisateur.

Résultats après l'automatisation du déroulement des opérations

Lors de la première diffusion du 18 mars 2020, les analystes ont utilisé l'approche automatisée pour diffuser les estimations agrégées des mouvements d'aéronefs. Les résultats ont montré une diminution du nombre de vols provenant de ces 41 aéroports. Pendant l'analyse des résultats d'un processus automatisé , il est souvent difficile de connaître la qualité de ces résultats. Toutefois, dans ce cas, les données diffusées précédemment comportaient beaucoup de données validées sur le terrain. L'exactitude des résultats de l'application a été vérifiée en recréant les chiffres mensuels déjà diffusés de l'année précédente. La validation était un processus itératif, car la majorité des résultats de la nouvelle application Python se rapprochaient des valeurs diffusées. Certaines données aberrantes ont dû être examinées par les experts du CCSTT. Une fois cette étape terminée, le code a été mis à jour jusqu'à ce que les estimations préliminaires de la nouvelle application Python et les résultats diffusés soient raisonnablement exacts. Depuis le déploiement de l'application en production, une seule modification a été nécessaire : un aéroport a été ajouté aux données de NAV CANADA.

Incidence sur les utilisateurs de l'application

Les analystes du CCSTT utilisent le format de l'Entrepôt commun des données de sortie (ECDS) pour diffuser tous les résultats sur le site Web de Statistique Canada. L'ECDS est un format de base de données précis qui aide à visualiser les données exportées. L'application Python développée par l'équipe de l'OSD produit également les résultats au format de l'ECDS, ce qui facilite l'intégration avec le déroulement des opérations déjà en place des analystes pour la diffusion des estimations. De plus, l'application a été simplifiée pour les utilisateurs non techniques en permettant la saisie de paramètres d'entrée à partir de fichiers Excel.

Si les analystes avaient choisi de recueillir et d'agréger les renseignements manuellement au moyen d'Excel, cela aurait pris beaucoup de temps et aurait été particulièrement laborieux. Il aurait fallu répéter ce processus chaque fois que de nouvelles données arrivaient. Toute nouvelle exigence relativement au déroulement des opérations aurait également augmenté les frais généraux. Compte tenu de cela, il était nécessaire d'établir un programme extensible et réutilisable pouvant estimer les nombres agrégés de mouvements d'aéronefs. Ce simple programme Python a satisfait à cette exigence et a permis d'économiser de nombreuses heures d'efforts manuels.

L'équipe de l'OSD et le CCSTT étudient actuellement la possibilité d'élargir les données diffusées, par exemple pour inclure une ventilation par aéroport principal.

Renseignements supplémentaires

Pour obtenir de plus amples renseignements sur ce projet, veuillez consulter :

Date de modification :

Modélisation de la dynamique du SRAS-CoV-2 pour prévoir la demande d'EPI

Par : Jihoon Choi, Deirdre Hennessy et Joel Barnes, Statistique Canada

L'équipement de protection individuelle (EPI) est devenu un aspect important de la vie de tous les Canadiens, la pandémie ayant modifié notre façon d'agir les uns avec les autres et de nous protéger. La progression rapide du nouveau coronavirus, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), aussi désigné par le nom COVID-19, a exercé des pressions sans précédent sur le gouvernement du Canada pour qu'il fournisse des informations actuelles, exactes et pertinentes en vue d'éclairer la prise de décisions relatives à de nombreux enjeux de santé publique, notamment l'approvisionnement en EPI et le déploiement de l'EPI vers les provinces et territoires.

La pandémie mondiale attribuable au SRAS-CoV-2 pose un problème grave en matière de santé publique pour les Canadiens.Note de bas de page 1 En octobre 2021, plus de 1,71 million de cas diagnostiqués avaient été signalés au Canada. Cela signifie qu'il est essentiel que les Canadiens aient accès à de l'EPI lorsqu'ils en ont besoin.

Par EPI, on entend des produits comme des masques, des gants et des blouses qui sont portés pour se protéger d'une exposition potentielle à des agents pathogènes infectieux. La pandémie a exercé des pressions considérables sur les chaînes d'approvisionnement de l'EPI au Canada, ce qui a entraîné des perturbations importantes de l'approvisionnement dans des secteurs où les stocks d'EPI sont essentiels (comme les hôpitaux, les établissements de soins de longue durée).Note de bas de page 2 C'est pourquoi les prévisions relatives à la trajectoire de la pandémie et à ses effets sur l'approvisionnement, la demande et les stocks d'EPI sont devenues un aspect crucial du processus décisionnel.Note de bas de page 3Note de bas de page 4

Les modèles épidémiologiques peuvent fournir des données précieuses lors du processus décisionnel en matière de santé publique, en produisant un certain nombre de scénarios de simulation tenant compte de différentes hypothèses. De plus, ils peuvent aider à évaluer les répercussions de différentes mesures d'intervention en santé publique sur le résultat de l'épidémie (c.-à-d. lorsqu'on doit décider du moment critique pour adopter des mesures de confinement ou de réouverture dans chaque province).Note de bas de page 5 Il existe différentes variations des modèles épidémiologiques. Plusieurs d'entre elles sont des modèles à compartiments dans lesquels la population est divisée en de multiples compartiments et passe d'un compartiment à un autre selon un taux établi.Note de bas de page 6

Le modèle Susceptible-Infecté-Rétabli (SIR) fait partie des formes les plus fondamentales du modèle à compartiments (figure 1). Ce modèle comporte trois compartiments, où S représente le nombre de personnes susceptibles, I, le nombre de personnes infectées et R, le nombre de personnes rétablies (et immunisées).

Figure 1 – Structure d’un modèle épidémiologique de base

Figure 1 – Structure d'un modèle épidémiologique de base.

Description - Figure 1

La structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

La figure 1 montre la structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

Les modèles à compartiments ont commencé à être utilisés en épidémiologie au début du XXe siècle. Plus précisément, les fondements reposaient sur le théorème décrit par Ronald Ross, William Hamer, Anderson McKendrick et William Kermack, ainsi que la grande influence de John Brownlee et ses perspectives statistiques.Note de bas de page 7 Depuis leur création, les modèles à compartiments se sont avérés utiles pour modéliser de nombreuses maladies transmissibles, comme la malaria et la peste.Note de bas de page 8Note de bas de page 9

Alors que l'éclosion de SRAS-CoV-2 est devenue une grande préoccupation des Canadiens en matière de santé publique, Santé Canada a demandé à la Division de la science des données (DScD) et à la Division de l'analyse de la santé (DAS) de Statistique Canada de créer un modèle épidémiologique qui pourrait prévoir les trajectoires de l'éclosion dans les provinces canadiennes. Les prévisions relatives aux cas et aux hospitalisations produites à partir du modèle épidémiologique sont utilisées dans le cadre du projet sur l'EPI afin d'évaluer la demande d'EPI dans différents secteurs de chacune des provinces. Le projet sur l'EPI cherche à permettre de prendre des décisions éclairées relatives à l'approvisionnement, à l'affectation et aux investissements pour la production nationale d'EPI, au moyen de rapports fondés sur des données probantes qui portent sur la situation actuelle et les projections de l'offre et de la demande d'EPI, dans le cadre de différents scénarios épidémiologiques.

Création du modèle initial pour la demande d'EPI : modèle Susceptible – Infecté – Rétabli – Décédé (SIRD)

Le modèle SIRD initial utilisait des méthodes bayésiennes pour évaluer le nombre d'infections actives dans les collectivités canadiennes, en fonction de la mortalité attribuable au SRAS-CoV-2. Le nombre total d'infections au SRAS-CoV-2 (diagnostiquées ou non) a été estimé, de manière inversée, à partir des décès attribuables au SRAS-CoV-2 par province et territoire, au moyen d'une méthode semblable à celle utilisée par Flaxman et coll.Note de bas de page 10 Le nombre estimé d'infections, de décès et de cas rétablis a été ajouté à un modèle à compartiments simple, composé de quatre compartiments. Les trois premiers compartiments sont équivalents à ceux du modèle SIR de base (Susceptible, Infecté et Rétabli). Cependant, ce modèle dispose d'un compartiment additionnel, D, qui représente la population décédée (figure 2).

Figure 2 – Structure d’un modèle épidémiologique SIRD

Figure 2 – Structure d'un modèle épidémiologique SIRD.

Description - Figure 2

La structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité γ.

La figure 2 illustre la structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité γ.

Ce modèle produit également un nombre de reproduction historique dynamique, R(t). Le concept R(t) est important dans le cadre de l'épidémiologie des maladies infectieuses, fournissant de l'information sur le potentiel de transmission d'un agent infectieux. Autrement dit, il montre à quel point une maladie infectieuse est contagieuse à un moment t au sein de la population à l'étude. De manière générale, si R(t) est supérieur à 1, la maladie commencera à se propager au sein de la population. Si R(t) est inférieur à 1, le nombre de nouveaux cas diminuera.

On évalue souvent R(t) en observant le nombre de nouvelles infections pendant une période. Cependant, le nombre de cas de SRAS-CoV-2 n'a pas été retracé avec exactitude au début de la pandémie, en raison des ressources limitées, par exemple le manque de trousses d'analyse.Note de bas de page 11 En tant que solution de rechange, le modèle SIRD a estimé le R(t) historique à partir du nombre de décès attribuables au SRAS-CoV-2, une mesure beaucoup plus fiable que le nombre réel de cas pendant la période initiale de l'éclosion. Un taux de mortalité par infection (TMI) pour le SRAS-CoV-2 tiré de la littérature de recherche a servi à calculer, de manière inversée, le R(t) historique.

Pour prévoir le R(t) futur, l'équipe a produit différents scénarios de pandémie. Chacun comportait diverses hypothèses au sujet des mesures d'intervention en santé publique adoptées :

  • Le scénario de confinement en raison du SRAS-CoV-2 – cherche à modéliser une situation lors de laquelle des mesures d'intervention en santé publique sont en place (comme le confinement). Selon ce scénario, R(t) est toujours inférieur à 1.
  • Le scénario de la meilleure estimation de la recrudescence – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, ce qui fait en sorte que le R(t) demeure élevé.
  • Le scénario des sommets et des creux – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, jusqu'à ce que le taux d'occupation dans les unités de soins intensifs (USI) des hôpitaux atteigne 30 % du maximum provincial. Un plan d'intervention est ensuite mis en application pour que le R(t) retrouve le niveau observé pendant le confinement.

Le modèle SIRD a servi de principal modèle épidémiologique dans le cadre du projet sur l'EPI jusqu'au début de 2021. Ce modèle a fait preuve d'un degré raisonnable d'exactitude pour prévoir la pandémie, au cours du stade initial d'éclosion. Cependant, ce modèle comporte un certain nombre de limitations. Tout particulièrement, il ne considérait pas la structure par âge de la population. Ces limitations ont entraîné la création d'une autre version du modèle épidémiologique, doté de compartiments additionnels, qui peut prendre en considération des caractéristiques plus complexes de la pandémie.

Le modèle courant : modèle Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné (SEIRDV)

Au début de la pandémie, la DScD et la DAS de Statistique Canada ont collaboré avec l'Agence de la santé publique du Canada (ASPC) pour créer un modèle SIR à compartiments multiples structuré selon l'âge. Cette collaboration a permis de créer le modèle SEIRDV, adapté par l'équipe épidémiologique chargée de l'EPI au sein de Statistique Canada, en conjonction avec Santé Canada, afin qu'il soit utilisé dans le modèle principal d'offre et de demande d'EPI. Le modèle sert de principal modèle épidémiologique dans le cadre du projet sur l'EPI depuis janvier 2021 (figure 3).

Figure 3 – Structure simplifiée d’un modèle épidémiologique SEIRDV

Figure 3 – Structure simplifiée d'un modèle épidémiologique SEIRDV.

Description - Figure 3

Une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie aux autres est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement.

La figure 3 illustre une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Certaines de ces infections sont décelées à la suite de la recherche de contacts ou de tests de dépistage pour le SRAS-CoV-2. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement. Les personnes qui n'ont que des symptômes légers ou qui n'ont aucun symptôme passeront, au fil du temps, au compartiment « rétabli ». De plus, dans ce modèle, la population peut être vaccinée. Si une personne est vaccinée, la probabilité qu'elle passe au compartiment « infecté » est réduite en raison du taux de protection du vaccin. Dans le même ordre d'idées, la population vaccinée affiche un taux de probabilité réduit quand vient le temps d'avoir la forme sévère de la maladie et donc d'être prise en charge par le système de soins de santé (comme les hôpitaux ou les USI).

Voici les quatre modifications principales apportées en raison de l'adoption du modèle SEIRDV :

1. Le modèle permet à la population à l'étude d'être stratifiée selon l'âge

Dans le modèle SEIRDV, la population est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus), ce qui permet de configurer différents paramètres pour chaque groupe d'âge et de tenir compte des différences en fonction de l'âge.

Par exemple, les rapports démontrent que les groupes d'âge plus jeunes affichent une probabilité réduite d'hospitalisation et de mortalité par rapport aux groupes d'âge plus âgésNote de bas de page 12. Puisque le modèle SEIRDV permet aux utilisateurs d'établir différents taux de flux pour chaque groupe d'âge, il peut modéliser cet effet.

Dans le même ordre d'idées, nous savons que certains groupes d'âge ont des interactions plus fréquentes que d'autres (comme les parents avec leurs enfants). La probabilité qu'ils se transmettent la maladie est donc supérieure. Dans le modèle SEIRDV, cet effet peut être pris en compte en utilisant une matrice des interactions qui modélise le taux de contacts moyen entre deux groupes d'âge.

2. Amélioration de l'estimation du taux de transmission (β)

Au lieu de se fonder sur une seule mesure, comme R(t), afin d'évaluer le taux de transmission, le modèle utilise désormais trois paramètres différents pour calculer le taux de transmission.

Tout d'abord, il y a β qui, dans ce modèle, représente la probabilité de transmission lors d'un contact. Ce chiffre est évalué à partir de la littérature et ajusté en fonction de la souche dominante de SRAS-CoV-2 dans chaque province. Cette mesure est multipliée par une matrice de contacts, c'est-à-dire une matrice numérique qui illustre le nombre moyen de contacts que les personnes de chaque groupe d'âge ont avec un autre groupe d'âge. Enfin, un multiplicateur de contacts est appliqué afin de tenir compte des variances en ce qui concerne les taux de contacts. Lorsque différentes mesures d'intervention en santé publique sont imposées (comme un confinement), le taux de contacts au sein de la population évolue en conséquence. Ces variations sont obtenues en étalonnant le multiplicateur de contacts en fonction du nombre signalé de cas actifs quotidiens dans chaque province, toutes les semaines.

3. L'effet de la vaccination est pris en compte

Parmi les principaux effets de la vaccination, il y a une réduction des pressions exercées sur le système de santé (en évitant que les personnes infectées soient si gravement malades qu'elles doivent être hospitalisées) et de la transmission de la maladie dans la collectivité (en évitant que les gens soient infectés, ce qui finalement favorise l'immunité collective). La conception actuelle du modèle SEIRDV tient compte de ces deux effets, comprenant une voie distincte réservée à la vaccination. La population vaccinée passera à cette voie, où la chance qu'elle contracte la maladie est réduite et la probabilité qu'elle ait des symptômes sévères exigeant une hospitalisation est réduite.

Le modèle tient aussi compte du plan de vaccination à deux doses établi par le Comité consultatif national de l'immunisation. Les données sur la vaccination ont été obtenues auprès de l'ASPC et du COVID-19 Canada Open Data Working Group (CCODWG), afin d'évaluer le nombre de doses qui peuvent être injectées chaque jour par province. De plus, les différents taux de protection assurés par le plan de vaccination à deux doses ont été modélisés en divisant la voie de vaccination en quatre compartiments distincts. La figure 4 résume ce processus.

Figure 4 – Conception du compartiment réservé à la vaccination

Figure 4 – Conception du compartiment réservé à la vaccination

Description - Figure 4

Montre la division des groupes d’âges au sein d’une population ainsi que la distribution des vaccins injectés aux personnes plus âgées et plus jeunes, en tenant compte de certains groupes de risque élevé de tout âge. Les groupes passent de la première à la deuxième dose pour être pleinement vaccinés.

La population à l'étude est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus). Les vaccins sont injectés aux personnes des groupes d'âge les plus âgés avant de l'être aux personnes des groupes d'âge les plus jeunes. Un petit nombre de doses a été injecté à un groupe d'âge qui représente les professionnels de la santé, au premier stade. Lorsqu'elle reçoit la première dose, la population qui vient d'être vaccinée passe au premier compartiment de vaccination, représentant la population qui a reçu un vaccin, mais qui n'est pas encore immunisée. Cette population passe ensuite au deuxième compartiment de vaccination après une période établie. À ce moment, elle acquiert une protection partielle contre le SRAS-CoV-2. La population demeure dans ce compartiment jusqu'à ce que le stade 1 (lorsque la distribution de la première dose) soit terminé. Lorsque le stade 2 du plan de vaccination commence, la population passe au troisième compartiment de vaccination, au moment où elle reçoit sa deuxième dose, avant de passer au dernier compartiment de vaccination, lorsqu'elle a le degré d'immunité maximal qu'offre la vaccination.

4. Il est possible de modéliser les répercussions des variants préoccupants (VP)

La séquence d'un certain nombre de souches différentes de SRAS-CoV-2 a été établie partout dans le monde en raison de mutations virales, dont certaines affichent des taux de transmission ou de mortalité supérieursNote de bas de page 13. Il s'agit de variants préoccupants (VP) qui sont un facteur crucial à prendre en considération dans la modélisation épidémiologique du SRAS-CoV-2. Le modèle SEIRDV peut les modéliser en modifiant la probabilité de transmission (β) pour obtenir le taux de transmission accru, en plus de modifier le passage vers le compartiment réservé à l'hospitalisation ou au décès pour obtenir l'effet d'une gravité accrue des symptômes associés au variant. Au moyen de ce mécanisme, l'équipe a réussi à modéliser l'effet du variant B.1.1.7 (Alpha) dans le modèle.

Conclusion

En raison des efforts déployés pour assurer un développement, une amélioration et un étalonnage continus, le modèle épidémiologique a contribué de manière utile à la modélisation de la tendance en ce qui concerne la pandémie de SRAS-CoV-2 au Canada. Plus précisément, les résultats de ce modèle ont permis au projet sur l'EPI d'évaluer la demande d'EPI à l'échelle des provinces canadiennes, afin de veiller à ce que tous les secteurs se procurent suffisamment de stocks d'EPI avant les éclosions d'envergure.

De plus, cet article démontre comment l'application de la science des données, jumelée à des statistiques, à l'informatique et à l'épidémiologie, peut servir à assurer une planification en santé publique, en plus de prendre des décisions relatives aux besoins en ressources pendant la pandémie de COVID-19.

Comment cela a-t-il été rendu possible?

Domaines pouvant faire l'objet d'autres études

Puisque la pandémie de SRAS-CoV-2 est toujours active, d'autres travaux devront peut-être être réalisés. Voici quelques domaines qui pourraient faire l'objet d'autres études :

  • Nouveaux variants
    En raison du taux de mutation élevé observé en ce qui concerne la souche SRAS-CoV-2, la séquence de nouveaux variants est constamment établie partout dans le monde. Alors que le modèle tenait compte de l'effet du variant B.1.1.7, il existe plusieurs autres VP dont il faut tenir compte (comme le variant Delta). L'équipe surveille étroitement la propagation des VP à l'échelle du pays afin de déterminer si le modèle doit tenir compte d'autres variants.
  • Déclin de l'immunité
    Des études ont démontré que l'immunité acquise grâce à la vaccination (ou à l'infection) ne dure pas de manière indéfinie. L'immunité diminuera au fil du temps, ce qui entraînera une perte progressive des anticorps conférant une protection. On désigne ce phénomène par le nom « déclin de l'immunité ». Le modèle devra en tenir compte pour préparer un scénario futur, notamment lorsqu'une grande proportion de la population aura besoin d'une autre dose de vaccin pour maintenir son immunité.

Équipe de modélisation épidémiologique chargée de l'EPI :
Jihoon Choi (DScD), Deirdre Hennessy (DAS), Joel Barnes (DAS).

Équipe du projet et collaborateurs :
Rubab Arim, Statistique Canada ; Kayle Hatt, Santé Canada

Date de modification :