Mise en œuvre des pratiques MLOps avec Azure

Par : Jules Kuehn, Services partagés Canada

Les pratiques MLOps sont une variante des pratiques DevOps qui répondent à des préoccupations relatives à l'apprentissage automatique (AA). Tout comme le processus DevOps, le processus MLOps permet l'intégration et le déploiement continus (IC/DC) (le contenu de cette page est en anglais) de modèles d'apprentissage automatique (AA), mais automatise en outre le réentraînement sur de nouvelles données et effectue le suivi des résultats des différentes sessions d'entraînement (ou expériences).

Un problème courant avec les modèles d'AA est la baisse du rendement au fil du temps. C'est ce que l'on appelle une « dérive » (consultez le guide ultime du réentraînement de modèle (le contenu de cette page est en anglais) pour obtenir de plus amples renseignements sur la dérive). Imaginez un modèle d'AA prédisant si une maison à Ottawa se vendra au-dessus du prix demandé, selon les renseignements sur la maison et le prix d'inscription. Lorsque le modèle a été déployé il y a cinq ans, il a été en mesure de fournir cette prédiction avec 95 % d'exactitude. Toutefois, si le modèle n'était pas réentraîné avec des données mises à jour, ses prédictions ne refléteraient pas le marché du logement actuel d'Ottawa et seraient donc moins exactes. Pour résoudre ce problème, un système MLOps peut automatiquement réentraîner et redéployer des modèles, afin d'intégrer des données plus récentes et suivre le rendement du modèle au fil du temps.

L'équipe de la Science des données et de l'Intelligence artificielle de Services partagés Canada (SPC) a élaboré plusieurs modèles d'AA comme solutions de validation de principe aux problèmes opérationnels de SPC. Le point de départ du parcours du processus MLOps a été la collaboration de l'équipe avec Microsoft afin de développer une solution MLOps fonctionnelle entièrement au sein de l'écosystème Azure.

Le système MLOps comprend plusieurs composantes, comme le contrôle des sources, le suivi des expériences, les registres de modèles, les pipelines IC/DC, les API Azure ML, Docker et Kubernetes. L'utilisation de ce système permet à l'équipe de continuellement livrer des API REST pour les modèles d'AA les plus performants et de les mettre à disposition dans le nouveau magasin des API du gouvernement du Canada.

Élaboration d'un modèle

Pour accélérer la mise en œuvre, l'équipe a utilisé les fonctions SaaS (logiciel en tant que service) d'Azure pour exécuter la majorité des tâches. Cela comprenait le chargement des données avec Azure Data Factory, le développement de modèle dans les carnets Azure Databricks, le suivi expérimental et le déploiement de modèle avec Azure ML, ainsi que le contrôle des sources et l'IC/DC avec Azure DevOps.

Suivi des expériences et des modèles

Les carnets Databricks journalisent les mesures des sessions et enregistrent les modèles dans un espace de travail Azure ML à la fin d'une session entraînement (consultez les pages Journaliser et afficher les métriques et les fichiers journaux et Classe de modèle pour de plus amples détails). Cela est utile lorsque les sessions sont lancées manuellement pendant l'élaboration du modèle et lorsqu'elles sont exécutées comme une tâche au sein de pipelines IC/DC. Au cours de l'élaboration d'un modèle, il est possible de suivre les améliorations apportées aux mesures, comme l'exactitude, tout en ajustant les hyperparamètres. Dans le cas d'une session en tant que tâche de pipeline, il est alors possible de surveiller les changements apportés aux mesures lorsque de nouvelles données sont utilisées dans le cadre d'un réentraînement.

Contrôle des sources et intégration continue

Le répertoire de contrôle des sources pour ce modèle est composé de trois dossiers :

Carnets : le code des carnets Databricks
Pipelines : deux pipelines pour entraîner et déployer les modèles
API : le code servant à envelopper le modèle entraîné dans une API REST.

Figure 1 – Structure générale du répertoire de contrôle des sources — Description - Figure 1

Arborescence du dépôt DevOps avec 3 dossiers de haut niveau. Le premier dossier est le Carnet de notes, qui est connecté via Databricks Git Sync à model_train.py. Le deuxième dossier est Pipelines, qui contient deux sous-dossiers, chacun contenant Pipeline YAML et des scripts Python. Ces sous-dossiers sont nommés "ci / train" et "deploy". Le troisième dossier de premier niveau est "API", qui contient score.py et un sous-dossier tests, qui contient des scripts PyTest.

Pipeline de demandes d'extraction de carnets

Même si la programmation littéraire à l'aide de carnets (p. ex. Jupyter) est une pratique courante en science des données, les environnements de carnets infonuagiques ne s'intègrent pas toujours efficacement au contrôle des sources. Le travail de plusieurs membres de l'équipe sur un projet peut entraîner une désorganisation des carnets. L'équipe a élaboré un déroulement des opérations qui intègre des pratiques exemplaires de gestion du contrôle des sources, comme les branches par fonctionnalité et les essais d'intégration dans des demandes d'extraction.

Figure 2 – Carnets de science des données — Description - Figure 2

Bureau désordonné recouvert de documents éparpillés sur sa surface, au sol et dans la corbeille à proximité. Les documents sont intitulés "Carnets de science des données".

Dans Databricks, tous les carnets se trouvant dans un dossier principal à emplacement fixe sont synchronisés pour suivre la branche principale dans un répertoire Git Azure DevOps. Avant de modifier le code de modèle, un membre de l'équipe crée une copie de ce dossier dans Databricks et une nouvelle branche correspondante dans DevOps, puis configure la synchronisation Git entre eux. Lorsque les modifications sont satisfaisantes, le membre de l'équipe consigne les carnets dans Databricks, puis crée une demande d'extraction dans DevOps.

Toute demande d'extraction comprenant des changements au code du carnet déclenche un pipeline d'intégration continue garantissant que les modifications aux carnets ne seront pas annulées. Cela commence par la copie des carnets de la branche par fonctionnalité dans un dossier d'essai d'intégration à emplacement fixe référencé par une tâche Databricks; cette tâche étant ensuite déclenchée par le pipeline au moyen de l'API Databricks.

Pour accélérer l'exécution de cet essai, un paramètre est transféré au carnet pour indiquer qu'il s'agit d'un essai et non d'une tâche d'entraînement complète. Le modèle est entraîné sur un échantillon de 5 % pour une époque, et le modèle résultant n'est pas enregistré.

Figure 3 – IC et pipelines d'entraînement avec Databricks — Description - Figure 3

Diagramme des pipelines de IC et pipelines d'entraînement. Étape 1 : Copie de la source du carnet vers Databricks. Étape 2 : Début de l'entraînement du modèle dans Databricks. Étape 3 : Attente de la « réussite » de Databricks.

Le pipeline continue de sonder Databricks jusqu'à ce que le travail soit terminé. Si l'exécution du carnet est réussie, la fusion vers la branche principale peut se poursuivre.

Déploiement de modèle

Puisque l'équipe de SPC prévoit livrer la plupart de ses modèles dans le magasin des API du gouvernement du Canada, elle souhaite passer des carnets aux applications API REST le plus rapidement et le plus efficacement possible.

Conteneurisation du modèle

Pour des applications simples, l'API d'Azure ML peut déployer un modèle enregistré en tant qu'application conteneurisée en utilisant quelques lignes de code à la fin d'un carnet. Toutefois, cette option ne répond pas à plusieurs exigences opérationnelles telles que l'échelonnage. Plus important encore, elle n'offre pas beaucoup de souplesse pour les intrants et les extrants des modèles avant et après le processus. Nous utilisons plutôt la fonction Model.package() à partir de la trousse de développement logiciel à partir de la trousse de développement logiciel (SDK) d'Azure ML pour créer une image Docker. L'image est ensuite déployée dans un espace Kubernetes antérieurement configuré, et le point de terminaison est enregistré dans le magasin des API du gouvernement du Canada.

Par défaut, la fonction extrait la dernière version enregistrée du modèle, mais peut également utiliser les journaux d'expériences afin de sélectionner dynamiquement un modèle en fonction de n'importe quelle mesure enregistrée dans le carnet (p. ex. pour minimiser les pertes).

Pipeline de déploiement

Comme son nom l'indique, Azure DevOps ne se limite pas au contrôle des sources, mais peut également définir des pipelines permettant d'automatiser les tâches d'intégration et de développement continus. Les pipelines sont définis par les fichiers YAML et ont recours à des scripts Bash et Python.

Contrairement au pipeline de demande d'extraction de carnet, le pipeline de déploiement est déclenché par tout engagement envers la branche principale. Il comprend trois étapes :

Mise à l'essai du code : À l'aide de PyTest, effectuer l'essai unitaire de l'API à l'aide d'intrants corrects et incorrects. À titre d'essai d'intégration, déployer avec Model.deploy() le service Web localement sur la machine virtuelle du bassin d'agents et exécuter des essais semblables, mais dans un contexte HTTP.
Construction et enregistrement du conteneur Docker : Avec Model.package(), créer une image Docker en entrant un code API personnalisé. Enregistrer le conteneur dans un registre de conteneurs Azure.
Déploiement vers Kubernetes : Avec kubectl apply, se connecter au service Azure Kubernetes, se connecter au service Azure Kubernetes configuré précédemment. Transférer un fichier manifeste pointant vers la nouvelle image dans le registre des conteneurs.

Ce processus conserve les mêmes points de terminaison d'API au moyen de redéploiements et ne perturbe pas la livraison de l'application par l'entremise du magasin des API du gouvernement du Canada.

Pipeline de réentraînement de modèle

Le pipeline de réentraînement de modèle est semblable à celui de demande d'extraction, mais exécute une tâche Databricks différente qui pointe vers le carnet de la branche principale. Le carnet journalise les mesures de session et enregistre le nouveau modèle dans Azure ML, puis déclenche le pipeline de déploiement.

L'entraînement du modèle peut nécessiter beaucoup de ressources. L'exécution du carnet en tant que tâche Databricks offre la possibilité de sélectionner un espace de calcul de haute performance (y compris les processeurs graphiques (GPU)). Les espaces sont automatiquement désassociés à la fin de la session d'entraînement.

Plutôt que d'être déclenchées par un événement particulier, les sessions du pipeline peuvent également être planifiées (consultez la page relative à la configuration de calendriers de pipelines pour obtenir de plus amples détails). Bon nombre des modèles reposent sur les données du dépôt de données d'entreprise de SPC, de sorte que l'équipe peut planifier le pipeline de réentraînement de modèle pour suivre le cycle de mise à jour du dépôt. Le modèle déployé peut ainsi toujours reposer sur les données les plus récentes.

Conclusion

Pour fournir un déroulement des opérations reproductible pour le déploiement de modèles d'AA dans le magasin des API du gouvernement du Canada, SPC a intégré plusieurs offres de SaaS Azure afin de créer une solution MLOps fonctionnelle.

Azure DevOps : Répertoire de code source; pipelines d'IC/DC et de réentraînement;
Azure Databricks : Développement de modèles d'AA dans des carnets; synchronisé avec le répertoire Git DevOps;
Azure ML : Expériences de suivi et d'enregistrement de modèles; création d'images Docker;
Service Azure Kubernetes : Service pour conteneur; vers lequel pointe le magasin des API du gouvernement du Canada.

Enfin, il convient de souligner que cette approche ne constitue qu'une des nombreuses solutions possibles. Les API Azure ML sur lesquelles la trousse de développement logiciel est basée sont en cours de développement actif et font l'objet de changements fréquents. L'équipe continue d'explorer des options en source ouverte et autohébergées. Le parcours de MLOps est loin d'être terminé, mais il est déjà bien engagé!

Si vous avez des questions au sujet de cette mise en œuvre ou si vous souhaitez simplement discuter de l'apprentissage automatique, veuillez envoyer un courriel à l'équipe de la Science des données et de l'Intelligence artificielle de SPC : ssc.dsai-sdia.spc@canada.ca.

Signaler un problème ou une erreur sur cette page

Date de modification :: 2021-12-13

Technologies liées à la protection de la vie privée partie deux : introduction au chiffrement homomorphe

par Zachary Zanussi, Statistique Canada

Avez-vous déjà souhaité qu'il soit possible d'accéder à des données pour effectuer une analyse tout en préservant leur confidentialité? Le chiffrement homomorphe est une technique émergente de protection de la vie privée présentant d'éventuelles applications qui permettent un plus grand accès, tout en maintenant les données chiffrées et sécurisées.

Le premier article de la série, Une brève enquête sur les technologies liées à la protection de la vie privée, a présenté les technologies liées à la protection de la vie privée (TPVP) et la façon dont elles peuvent permettre une analyse tout en protégeant la confidentialité des données. Le présent article élabore sur le sujet en examinant plus en détail l'une de ces techniques, le chiffrement homomorphique, notamment pour discuter de quoi il s'agit, son fonctionnement et ce qu'il peut faire pour vous.

Le présent article commence par un aperçu du chiffrement homomorphe et de certains cas d'utilisation courants. Il fournit une évaluation équilibrée des avantages et des inconvénients du chiffrement homomorphe. Il couvre ensuite certains détails plus techniques pour vous préparer à explorer ces techniques vous-mêmes. À l'issue de cet article, nous espérons que vous souhaiterez poursuivre cet apprentissage en choisissant une bibliothèque de chiffrements homomorphes et en créant vos propres circuits chiffrés.

Des groupes internationaux envisagent actuellement la normalisation du chiffrement homomorphe. Le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe en pratique, ni toute technique cryptographique, avant sa normalisation par des experts. Même si le chiffrement homomorphe n'est pas encore prêt à être utilisé sur des données de nature délicate, c'est le moment idéal pour explorer ses fonctionnalités ainsi que d'éventuels cas d'utilisation. Un article ultérieur portera sur les activités de normalisation relatives au chiffrement homomorphe, notamment les délais et les procédés attendus.

Qu'est-ce que le chiffrement homomorphe?

Un procédé traditionnel de chiffrement associe du texte en clair lisible par une personne à des cryptogrammes masqués, afin de protéger les données de regards indiscrets. Une fois masqués, ces cryptogrammes sont inaltérables; la modification même d'un seul bit de texte chiffré peut créer un message en texte en clair méconnaissable après déchiffrage. Cela rend le chiffrement traditionnel relativement statique. En revanche, un procédé de chiffrement homomorphe est dynamique; dans le cas de deux textes chiffrés, vous pouvez effectuer des opérations sur les textes en clair sous-jacents. Une opération d'« ajout » homomorphe fournit, par exemple, un texte chiffré qui fournit la somme des deux messages d'origine en texte en clair après déchiffrage. Cela permet de déléguer le traitement informatique à une autre partie, de sorte qu'elle puisse manipuler les données sans y accéder directement.

Un protocole typique d'infonuagique comprend un client qui envoie ses données dans le nuage. Puisque les connexions Internet sont intrinsèquement peu sûres, ce transfert est facilité par une forme de protocole de sécurité des transferts faisant intervenir le chiffrement, comme HTTPS. À la réception, le nuage procède au déchiffrage et au traitement informatique. Pourtant, que faire si vous souhaitez que vos données demeurent secrètes dans le nuage? Grâce à un chiffrement par procédé homomorphe, non seulement les données sont protégées au cours du transfert, mais elles le sont également tout au long du processus de traitement informatique. À l'issue de ce dernier, le nuage retransmet les résultats chiffrés au client, qui peut les déchiffrer et consulter les résultats à sa guise.

Le terme « homomorphe » vient du grec et se traduit approximativement par de « forme similaire ». En mathématiques, un homomorphisme est une application entre une structure mathématique et une autre qui préserve les opérations de la première structure. Pour créer un procédé de chiffrement homomorphe, une carte de chiffrement brouillant suffisamment les données est nécessaire, de sorte que personne ne puisse savoir ce qu'elles sont, tout en protégeant simultanément la structure des données, afin que des opérations sur les textes chiffrés entraînent des résultats prévisibles sur les textes en clair. Ces objectifs paradoxaux soulignent la difficulté de créer de tels procédés.

Figure 1 : Illustration des avantages du chiffrement homomorphe — Description - Figure 1

Illustration de la différence entre des traitements informatiques avec chiffrements ordinaire et homomorphe. Dans le cas du chiffrement ordinaire, les données (une boîte de lignes dotée d'un cadenas) doivent d'abord être déchiffrées à l'aide d'une clé; ce qui donne la même boîte marquée d'un cadenas ouvert. Si les résultats doivent être communiqués à une autre partie, ils doivent alors être à nouveau chiffrés à l'aide d'une autre clé. Dans le cas d'un chiffrement homomorphe, le traitement informatique peut être effectué directement, sans l'intervention de renseignements secrets tels que des clés.

Que pouvez-vous faire avec le chiffrement homomorphe?

Plusieurs paradigmes informatiques distincts peuvent être améliorés grâce au chiffrement homomorphe, notamment l'informatique déléguée, le partage de données et la diffusion de données. Ces différents paradigmes s'articulent tous autour du fait que le détenteur des données, l'analyste et les plateformes informatiques sont souvent des parties totalement distinctes; le but étant de réduire ou d'éliminer les préoccupations en matière de protection de la vie privée soulevées lorsque l'une de ces parties ne devrait pas accéder aux données. Il est important de noter que le chiffrement homomorphe utilise un modèle de sécurité plus faible qu'une cryptographie traditionnelle et que des précautions doivent être prises pour veiller à ce qu'il soit utilisé en pratique en toute sécurité.^{Note de bas de page 1}

L'application probablement la plus simple fait intervenir un détenteur de données délégant le traitement informatique à une autre partie, comme le nuage. Dans ce scénario, un client chiffre ses données et les envoie dans le nuage avec des instructions. Le nuage peut suivre ces instructions de manière homomorphe et retourner le résultat chiffré, en n'apprenant rien sur les valeurs d'entrée, de sortie ni intermédiaires. Ces instructions suivent le modèle de circuits, qui sont des séquences d'opérations arithmétiques appliquées à des extrants. Il convient de souligner que créer des circuits corrects et efficaces avec chiffrement homomorphe n'est pas toujours évident, mais il n'y a théoriquement pas de limite aux calculs pouvant être exécutés. Statistique Canada a, par exemple, terminé des validations de principe^{Note de bas de page 2} en appliquant une analyse statistique et un entraînement de réseau neuronal sur des données chiffrées.

Pour reprendre le scénario d'informatique déléguée, envisagez un cas faisant intervenir de multiples détenteurs de données. Ces sources de données souhaitent partager leurs données, mais des enjeux de confidentialité les en empêchent. Le procédé exact dépend du modèle de confiance; toutefois, le chiffrement homomorphe peut permettre à ces différentes parties de chiffrer leurs données et de les partager avec une autorité centrale ayant le pouvoir de procéder à un traitement informatique de manière homomorphe. Ces applications de partage de données peuvent permettre de meilleures analyses dans des scénarios où les données sont limitées et protégées. Un exemple est un oncologue qui souhaite tester ses hypothèses; les données sur les patients sont généralement limitées aux hôpitaux traitants et combiner ces ensembles non seulement accroît la force du modèle, mais élimine les biais géographiques en matière de données. Par conséquent, permettre à plusieurs hôpitaux de partager leurs données chiffrées et aux oncologues de procéder à des traitements informatiques sur cet ensemble de données conjoint chiffré permet de meilleurs recherches et résultats en matière de soins de santé.

Envisagez également des scénarios faisant intervenir un détenteur de données central et plusieurs parties souhaitant analyser ces données. Les centres de données de recherche de Statistique Canada sont un tel exemple, puisqu'ils sont hébergés dans des installations sécurisées que gère l'organisme dans l'ensemble du Canada. Des chercheurs agréés peuvent obtenir une autorisation spéciale d'accéder à des microdonnées au sein de ces sites sécurisés. Même s'il est sécurisé, ce processus d'autorisation prend du temps et les chercheurs doivent pouvoir se rendre physiquement sur ces sites. Avec le chiffrement homomorphe, les centres de données pourraient peut-être héberger les données chiffrées et en fournir l'accès à toute partie le demandant. Cela réduirait les coûts administratifs d'ajouter de nouveaux chercheurs et étendrait l'accès aux données conformément à l'initiative de données ouvertes du Canada.

Figure 2 : Illustrations de ces trois paradigmes — Description - Figure 2

Illustrations des trois paradigmes. Dans le cadre du paradigme de traitement informatique délégué, le détenteur de données envoie ses données chiffrées au nuage, qui lui retourne les résultats chiffrés. Dans le paradigme de multiples détenteurs de données, ces derniers peuvent individuellement envoyer leurs données chiffrées, permettant au serveur infonuagique d'effectuer un traitement informatique conjoint sur l'union de leurs ensembles de données, fournissant ainsi un résultat analytique plus robuste. Dans le paradigme de « banque de données », le nuage héberge les données et peut envoyer des données chiffrées à tout analyste choisi, sans crainte d'une mauvaise utilisation des données.

Le chiffrement homomorphe peut être utile au-delà de calculs numériques. Par exemple, pour un client en possession d'un ensemble de données de nature délicate, l'intersection d'ensembles privés (PSI) permet l'apprentissage de l'intersection de cet ensemble avec un ensemble de données sur un serveur, sans que ce serveur n'apprenne l'ensemble de données du client et sans que le client n'apprenne quoi que ce soit sur les données du serveur au-delà de l'intersection. La mise en correspondance de chaînes privées (PSM) est un protocole similaire permettant au client d'interroger une base de données textuelle pour une sous-chaîne correspondante. À l'aide de ces primitives cryptographiques et d'autres, vous pouvez imaginer une vaste suite protégeant la vie privée et couplant des données entre divers ministères et établissements publics. Même si un tel système est ambitieux et que les modes de mise en œuvre exacts ne sont pas encore clairs, cela permet d'envisager les types de systèmes auxquels nous pouvons aspirer à mesure que des tâches plus complexes sont effectuées à l'aide du chiffrement homomorphe et d'autres technologies liées à la protection de la vie privée.

Inconvénients du chiffrement homomorphe

Malgré les nombreux avantages de l'utilisation du chiffrement homomorphe, comme pour toute technologie, il présente de potentiels inconvénients. Le prix de la sécurité cryptographique est le coût computationnel; selon l'analyse, le calcul chiffré peut être plus dispendieux de plusieurs ordres de grandeur que le calcul non chiffré. Il existe également un coût de décompression des données qui peut être assez important. Ce coût de décompression des données est aggravé par le fait que la plupart des protocoles de chiffrement homomorphe font intervenir un transfert de données chiffrées. Alors que le stockage infonuagique est relativement peu coûteux, le transfert de données peut être coûteux et complexe.

Le chiffrement homomorphe autorise en outre un ensemble limité de calculs en mode natif. Seules l'addition, la soustraction et la multiplication sont natives à la plupart des procédés arithmétiques et tous les autres calculs (exponentiels, fonctions d'activation, etc.) doivent être exprimés approximativement par un polynôme. Il convient de souligner que cela est généralement le cas avec tous les ordinateurs, mais lorsqu'un ordinateur moderne cache ce fait à l'utilisateur, les bibliothèques de chiffrements homomorphes exigent actuellement de l'utilisateur qu'il précise comment calculer ces fonctions non insignifiantes.^{Note de bas de page 3} Dans certains procédés, il convient également de se préoccuper de la profondeur des calculs tentés. En effet, ces procédés introduisent du bruit dans les données chiffrées pour les protéger.

Ce bruit est aggravé par des calculs successifs et, à moins d'être réduit,^{Note de bas de page 4} dépasserait éventuellement le signal; le déchiffrage ne fournirait alors plus les résultats attendus. Le choix des paramètres de chiffrement est important dans ce cas. Pour un circuit donné, il existe un ensemble de paramètres suffisamment grand pour être adapté; toutefois, gérer des paramètres plus importants accroît le coût de calcul du protocole.

Les coûts supplémentaires en termes de calcul et de création de circuits peuvent-ils être justifiés? Le chiffrement homomorphe permet des calculs potentiellement impossibles autrement. Cela concerne des ensembles de données de nature délicate en particulier, comme les données sur la santé. Le coût auquel fait face un analyste pour obtenir les autorisations de travailler sur de telles données est énorme, tout comme d'autres complications, comme des environnements informatiques contrôlés. Une fois les données partagées, comment vérifier que les analystes respectent les règles? Certains détenteurs de données peuvent rechigner à permettre à quiconque d'accéder à leurs données; sans des mesures supplémentaires, comme le chiffrement homomorphe, cette analyse est peut-être impossible. La décision entre un « calcul coûteux » et « aucun calcul » est bien plus facile à prendre.

De plus, divers procédés et leur mise en œuvre sont un domaine actif de recherche et les mises en œuvre de bibliothèques permettent régulièrement des améliorations de leurs algorithmes de calcul homomorphe et de compression de données. D'importants investissements en accélération matérielle pour le chiffrement homomorphe ont récemment été faits. Cela est similaire au matériel installé sur la plupart des ordinateurs, qui comprend des circuits électroniques particuliers conçus pour effectuer des opérations de chiffrement et de déchiffrage aussi rapidement que possible. Cela pourrait permettre aux ordinateurs infonuagiques qui utilisent cette accélération du chiffrement homomorphe d'effectuer des analyses sur des données chiffrées à des vitesses plus proches de celles s'appliquant à des données non chiffrées.

Malgré ces inconvénients, il y a lieu de penser que le chiffrement homomorphe deviendra un important outil de protection de la vie privée. C'est par conséquent le moment idéal de commencer à examiner ce que ces techniques peuvent permettre de faire.

Mathématiques du chiffrement homomorphe

Nous allons maintenant plonger dans les rouages mathématiques internes du chiffrement homomorphe, notamment des détails cryptographiques. Nous espérons que même les lecteurs non férus de mathématiques pourront saisir les bases du fonctionnement de ces procédés. Il convient de souligner que le reste de cette section fournit des détails découlant du procédé de Cheon, Kim, Kim et Song, intitulé chiffrement homomorphe pour l'arithmétique de nombres approximatifs (le contenu de cette page est en anglais), mais la communauté cryptographique l'appelle généralement CKKS. Cela dit, la majeure partie de ce qui est mentionné ici s'applique également à d'autres procédés avec seulement de légères modifications.

Au cœur de tout cryptosystème à clé publique se trouve un problème mathématique jugé difficile à résoudre, sauf en ayant accès à un renseignement particulier appelé une clé secrète (ou privée). Une clé publique associée peut être utilisée pour chiffrer des données en texte clair pour produire un texte chiffré, mais seule la connaissance de cette clé secrète permet de rétablir le texte en clair initial à partir de ce texte chiffré. Puisque la clé publique ne peut pas servir au déchiffrage, elle peut être partagée avec toute personne souhaitant chiffrer des données avec la confiance que seul le détenteur de la clé secrète peut déchiffrer le texte chiffré pour accéder au texte en clair.

La plupart des procédés de chiffrement homomorphe ont recours à des variantes de l'hypothèse de difficulté d'apprentissage avec erreurs (LWE). Cela décrit la variante annulaire appelée apprentissage annulaire avec erreurs (RLWE). Au lieu de traiter de nombres entiers, ce procédé traite de polynômes dotés de coefficients entiers. Vous pouvez, par exemple, utiliser l'espace de polynômes avec coefficients entiers modulo $q$ ordres de grandeur inférieur à $N$ ; exprimé sous la forme $R_{q} = Z_{q} [X] / ⟨ X^{N} - 1 ⟩$ . Vous pouvez considérer cet espace simplement comme des listes de nombres entiers $N$ , chacun inférieur à $q$ . Généralement, ces valeurs devraient être relativement grandes; par exemple $N = 2^{15} = 16, 384$ et $q ~ 2^{800}$ . Cela rend $R_{q}$ suffisamment grand pour y cacher des secrets! La figure 3 fournit un petit exemple du type d'espace avec lequel nous travaillerions.

Figure 3 : Petit exemple d'anneau d'un type pouvant être utilisé pour le chiffrement homomorphe, ainsi que quelques-uns de ses éléments — Description - Figure 3

Exemple d'anneau pouvant être intéressant pour un travail avec le chiffrement homomorphe.

$R_{17} = Z_{17} [X] / ⟨ X^{16} - 1 ⟩$
$X^{15} + 11 X^{14} + X^{12} + 5 X^{7} + 2 X^{6} + 4 X^{2} + X + 16$
$X^{4} + 13 X^{3} + 5 X^{2} + X + 8$
$X^{10} + 16 X^{8} + X^{6} + 16 X^{4} + X^{2} + 16$

Ici, la valeur de $q$ est 17 et la valeur de $N$ est 16. Des exemples de polynômes de l'anneau sont également indiqués; un exemple est le polynôme $x^{4} + 13 x^{3} + 5 x^{2} + x + 8$ .

Dans le cas de deux polynômes, par exemple, vous pouvez les ajouter ou les multiplier. Le résultat de ces opérations est toujours un autre polynôme.^{Note de bas de page 5} $R_{q}$ devient ainsi un type de bac à sable au sein duquel vous pouvez évoluer librement. Les mathématiciens appellent un ensemble présentant cette propriété un anneau; la façon dont ces opérations influent sur les éléments de l'anneau est ce que l'on appelle la structure. La propriété spéciale du chiffrement homomorphe est qu'il existe des opérations dans l'espace du texte chiffré qui correspondent de façon homomorphe aux opérations de l'espace de texte en clair sous-jacent. On préfère l'utilisation d'anneaux polynomiaux, car les opérations sont efficaces et on juge le problème RLWE difficile.

Comment cache-t-on un secret dans un espace mathématique? Supposez que vous disposez de quatre polynômes aléatoires^{Note de bas de page 6} dans $R_{q}$ , appelés $a$ , $s$ , $e$ , et $b$ . L'hypothèse de difficulté RLWE énonce qu'il est très difficile de distinguer une série de paires de la forme $(a, a \cdot s + e)$ ou de la forme $(a, b)$ . Ici, « très difficile de distinguer » signifie que « les paramètres peuvent être définis de telle sorte que tous les ordinateurs les plus puissants du monde fonctionnant ensemble avec les meilleurs algorithmes connus ne pourraient pas résoudre le problème ». Les polynômes $a$ et $b$ peuvent être échantillonnés de façon aléatoire uniformément au sein de tous les $R_{q}$ , mais les autres ont une forme spéciale. Dans le cadre du procédé CKKS, $s$ a les coefficients $\pm 1$ ou $0$ et nous échantillonnons les coefficients de $e$ dans une répartition gaussienne discrète sur $Z_{q}$ centrée autour de $0$ . Dans le reste de cet article, nous allons simplement qualifier ces polynômes de « petits », car, dans les deux cas, leurs coefficients sont proches de $0$ .

La difficulté du problème RLWE permet de garder un secret comme suit : remarquez que la première paire est corrélée; il existe un facteur de a dans les deux polynômes, alors que dans la deuxième, il n'existe aucune corrélation entre les $a$ et $b$ sélectionnés aléatoirement. Imaginez maintenant qu'une personne vous remette de nombreuses paires toutes de la forme $(a, a \cdot s + e)$ pour de nombreuses valeurs différentes de $e$ et une constante $s$ , ou toutes des paires complètement aléatoires. Selon la difficulté de RLWE, non seulement vous ne pourriez pas trouver $s$ de façon fiable en fonction des paires $(a, a \cdot s + e)$ , mais vous ne pourriez pas non plus déterminer de façon fiable la paire vous ayant été donnée! La figure 4 fournit un petit exemple de ce problème pour que vous vous y exerciez chez vous.

Figure 4 : Quatre paires de polynômes — Description - Figure 4

Quatre paires de polynômes. Cela est supposé être un petit exemple du problème RLWE pour que vous vous y exerciez chez vous. Les paires polynomiales sont réparties en deux groupes. Un groupe est réparti sous forme $(a, a \cdot s + e)$ pour un « petit » polynôme s et l'autre est de la forme $(a, b)$ pour $a$ et $b$ aléatoires. Savez-vous lequel est lequel? Les polynômes de la figure sont reproduits ci-dessous :

$(x^{4} + 4 x^{3} + 10 x + 1, x^{8} + 6 x^{7} + x^{6} + 8 x^{5} + 12 x^{4} + 4 x^{3} + 10 x^{2} + 8 x + 14)$
$(x^{4} + 12 x^{3} + 2 x^{2} + 5 x + 11, x^{8} + 14 x^{7} + 14 x^{6} + 12 x^{5} + 9 x^{4} + 13 x^{3} + 8 x^{2} + 6 x + 7)$
$(x^{4} + 5 x^{3} + 3 x^{2} + 8, x^{8} + 4 x^{7} + 12 x^{6} + 16 x^{5} + 15 x^{4} + 3 x^{3} + 6 x^{2} + 9 x + 8)$
$(x^{4} + 9 x^{3} + 7 x^{2} + 14 x + 1, x^{8} + 413 x^{7} + 9 x^{6} + 14 x^{5} + 2 x^{4} + 8 x^{3} + x^{2} + 13 x + 12)$

La sécurité des procédés fondés sur RLWE découle du fait que si $a$ , $s$ et $e$ sont donnés, il est facile de calculer $a * s + e$ , mais il est pratiquement impossible de trouver $s$ à partir de $a$ et $a * s + e$ . Vous pouvez créer un système de chiffrement de clé publique comme suit :

Fixez votre espace $R_{q}$ en choisissant un coefficient modulus $q$ et un polynôme modulus de degré $N$ .
Choisissez une « petite » clé secrète $s$ aléatoire, un $a$ uniformément aléatoire, et un « petit » $e$ aléatoire pour créer votre clé publique $(a, - a \cdot s + e, a)$ . Remarquez la valeur négative dans cette paire; cela rend le processus de chiffrement plus simple, mais n'influe pas sur la sécurité de RLWE.
Partagez votre clé publique avec le monde entier et personne ne pourra trouver votre clé secrète! Ainsi, toutes les personnes possédant cette clé publique peuvent chiffrer les données et les envoyer à une partie pour y appliquer des calculs, de façon homomorphe. À la fin, les résultats peuvent également uniquement être déchiffrés et affichés à l'aide de la clé secrète.

Pour chiffrer les données, celles-ci doivent d'abord être codées comme vecteur de $v$ nombres réels. Cela est simple lorsque vous travaillez avec des données numériques et la pratique courante lors d'un travail avec des données textuelles et autres. Pour ce chiffrement, le vecteur de $v$ données est d'abord codé comme polynôme^{Note de bas de page 7} $m$ dans $R_{q}$ et combiné avec la clé publique, afin d'obtenir un texte chiffré, désigné par $[v]$ . Maintenant, envoyez cela à la partie informatique effectuant les additions et multiplications homomorphes pour mettre en œuvre le calcul souhaité. La figure 5 représente un circuit simple calculant une fonction polynomiale. Une fois les calculs effectués et les textes chiffrés résultants obtenus, vous pouvez utiliser votre clé secrète pour déchiffrer et afficher les résultats.

Figure 5 : Visualisation d'un circuit homomorphe — Description - Figure 5

Circuit homomorphe évaluant la fonction $n f (x) = x^{3} + 4 x^{2} + 2 x + 1$ sur un vecteur de valeurs. Les cadenas représentent les valeurs chiffrées et donc illisibles pour la partie effectuant les calculs. Les flèches et les opérations indiquent la façon dont il est possible de coder en fait le circuit dans une bibliothèque de chiffrements homomorphes.

Même si le présent article n'a pas exploré tous les détails de la mise en œuvre mathématique de ces opérations, la description du chiffrement homomorphe jusqu'à présent fournit le contexte nécessaire pour en apprendre plus en la matière.

Comment commencer à utiliser le chiffrement homomorphe

Pour vous lancer en chiffrement homomorphe, explorez certaines des bibliothèques de chiffrements homomorphes en source ouverte disponibles; vous pouvez essayer Microsoft SEAL, PALISADE Homomorphic Encryption Software Library, TFHE: Fast Fully Homomorphic Encryption over the Torus, voire Concrete: Open-source Homomorphic Encryption Library si vous êtes utilisateur de Rustacean also know as someone who uses Rust (le contenu de ces pages est en anglais). Ces diverses bibliothèques mettent en œuvre de multiples procédés de chiffrement homomorphe; vous pouvez choisir celui qui convient le mieux à votre cas d'utilisation. Nous soulignons que, jusqu'à la fin du processus de normalisation, le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe avec tout type de données de nature délicate.

Même si tous ces procédés de chiffrement homomorphe différents permettent de mettre en œuvre la plupart des cas d'utilisation, certains seront plus performants que d'autres sur certains problèmes. Le procédé CKKS est conçu pour fonctionner sur des nombres réels; si les statistiques ou l'apprentissage automatique vous intéressent, c'est là que vous devriez probablement commencer! Brakerski/Fan-Vercauteren et Brakerski-Gentry-Vaikuntanathan sont parfaits pour l'arithmétique de nombres entiers et mettre en œuvre les primitives informatiques comme l'intersection d'ensemble privé ou la correspondance de chaînes. TFHE met en œuvre des fonctions logiques en mode natif et actualise le bruit de texte chiffré à chaque opération, ce qui permet d'améliorer l'efficacité lorsque les profondeurs de circuit sont plus longues. Nous encourageons les lecteurs intéressés à essayer des circuits simples en utilisant chaque procédé et à en comparer les résultats et les performances!

Si vous souhaitez de plus amples renseignements sur les aspects de cybersécurité du chiffrement homomorphe, notamment les activités de normalisation, communiquez avec le Centre canadien pour la cybersécurité par courriel à l'adresse contact@cyber.gc.ca et par téléphone au 613-949-7048 ou 1-833-CYBER-88.

Conclusion

Le présent article a exploré en détail le chiffrement homomorphe, de ses applications jusqu'au problème RLWE. Cette série sur les technologies liées à la protection de la vie privée se penchera ensuite sur des validations de principe effectuées en appliquant le chiffrement homomorphe à Statistique Canada! Elle couvrira également certains des aspects plus avancés de l'interface CKKS, notamment les rotations, le choix des paramètres, la mise en paquet, le bootstrap, la mise à l'échelle et les niveaux.

Souhaitez-vous être tenu au courant de ces nouvelles technologies? Voulez-vous faire état de vos travaux dans le domaine de la protection de la vie privée? Consultez la page GCConnex de notre communauté de pratique sur les technologies de protection de la vie privée (réservée aux employés du gouvernement du Canada), afin de discuter de cette série d'articles sur la protection de la vie privée, d'interagir avec des pairs qui s'intéressent à la protection de la vie privée, et de partager des ressources et des idées avec la communauté. Vous pouvez également commenter ce sujet ou fournir des suggestions d'articles futurs pour cette série.

Note : Nous souhaitons remercier le Centre canadien pour la cybersécurité et l'Institut Tutte pour les mathématiques et le calcul, faisant tous deux partie du Centre de la sécurité des télécommunications, pour leur participation au présent article.

Notes de bas de page

Note de bas de page 1

Le chiffrement homomorphe est généralement considéré comme étant uniquement sûr du point de vue sémantique (c.-à-d. sûr contre un adversaire pouvant effectuer des attaques choisies sur texte en clair) plutôt que selon la notion de sécurité plus forte permettant les déchiffrages de textes chiffrés (c.-à-d. dans le cadre d'attaques choisies sur texte chiffré) du fait de la propriété homomorphe souhaitée.

Retour à la référence de la note de bas de page 1

Note de bas de page 2

Cela fera l'objet d'un futur article; restez à l'écoute!

Retour à la référence de la note de bas de page 2

Note de bas de page 3

Pour calculer la fonction $e^{x}$ , par exemple, un ordinateur moderne a recours à une combinaison d'expansion de série de Taylor, de tableaux de recherche et de règles algébriques pour la réduire à une approximation utilisant uniquement des opérations arithmétiques élémentaires, fournissant une valeur correcte avec une très faible erreur de sorte que cela soit invisible à l'utilisateur. Avec la plupart des bibliothèques de chiffrements homomorphes disponibles, il est cependant nécessaire d'effectuer ce processus manuellement.

Retour à la référence de la note de bas de page 3

Note de bas de page 4

Le bruit dans un texte chiffré peut être réduit au moyen d'une opération appelée bootstrap. Cette opération sera examinée plus en détail dans un article ultérieur de cette série. Pour l'instant, consultez cet article : Computing Arbitrary Functions of Encrypted Data (le contenu de cette page est en anglais) pour obtenir de plus amples détails.

Retour à la référence de la note de bas de page 4

Note de bas de page 5

Les additions et multiplications annulaires de polynômes dans $R_{q}$ correspondent à des additions et multiplications de polynômes ordinaires avec la mise en garde suivante : après chaque opération, vous pouvez devoir appliquer deux réductions au résultat. La première est de réduire chacun des coefficients modulo $q$ (consultez Arithmétique modulaire pour plus d’informations); c'est-à-dire, remplacer chaque coefficient par son reste après division par $q$ . Cela est souvent représenté en arithmétique informatique à l'aide de l'opérateur modulo, désigné par %. La deuxième réduction s'applique si le degré du polynôme résultant est supérieur ou égal à $N$ et analogue à la première réduction, sauf au niveau du polynôme. Nous remplaçons le polynôme entier par le reste après l'avoir divisé par $X^{N} - 1$ (consultez Division d'un polynôme pour plus d'informations). Si cela dépasse un peu votre zone de confort, ne vous inquiétez pas; vous n'avez pas à connaître l'arithmétique polynomiale pour utiliser des bibliothèques de chiffrements homomorphes. De plus, les exemples de la figure 4 ont été créés pour ne pas nécessiter de deuxième réduction.

Retour à la référence de la note de bas de page 5

Note de bas de page 6

En réalité, on juge que les valeurs s et e sont « petites »; c.-à-d. les coefficients polynomiaux ne s'étendent pas au-delà de $Z_{q}$ , mais plutôt un sous-ensemble de $Z_{q}$ . Dans CKKS, on suppose généralement que s a les coefficients $\pm 1$ ou $0$ et les coefficients de e sont échantillonnés dans une répartition gaussienne discrète sur $Z_{q}$ centrée autour de $0$ .

Retour à la référence de la note de bas de page 6

Note de bas de page 7

Ce chiffrement est effectué à l'aide de l'inverse de plongement canonique de l'espace $R_{q}$ dans l'espace vectoriel complexe $C^{n}$ . La nature de ce plongement est ce qui vous permet d'effectuer l'emballage qui est central au procédé, mais que nous ne couvrons pas dans le présent article.

Retour à la référence de la note de bas de page 7

Signaler un problème ou une erreur sur cette page

Date de modification :: 2022-03-03

Le bulletin d'information du Réseau de la science des données a un an!

Par : Allie MacIsaac, Claudia Mokbel et Kathleen Carson, Statistique Canada

Qui n'aime pas célébrer un anniversaire? Notre bulletin d'information du Réseau de la science des données pour la fonction publique fédérale (RSDFPF) – le Méli-mélo de la science des données – a eu un an! Pour célébrer notre premier anniversaire, nous vous communiquons certaines de nos réalisations de l'année écoulée.

L'année a été passionnante et s'est écoulée à toute vitesse – la communauté du RSDFPF a connu une croissance rapide, et cet enthousiasme nous encourage à mesure que nous continuons de croître et de nous adapter pour répondre aux besoins de la communauté de la science des données.

Votre opinion nous importe!

À mesure que le RSDFPF continue de croître, nous espérons continuer de répondre à vos besoins et de fournir le contenu qui sera le plus utile à notre lectorat. Nous vous invitons à prendre un moment pour répondre à notre enquête : Sondage sur le bulletin d'information du Réseau de la science des données, et nous faire part de votre avis concernant le réseau – notamment ce qui fonctionne et ce que nous pourrions améliorer. Nous vous remercions pour votre rétroaction!

Tout ce qu'il faut savoir sur le Réseau de la science des données

En chiffres

Plus de 2 200 membres
Dont des représentants de :
- plus de 70 organismes et ministères,
- 69 établissements d'enseignement,
- 15 administrations publiques et organismes provinciaux ou territoriaux;
22 articles publiés;
11 éditions du bulletin d'information.

La première édition du bulletin d'information a été publiée en octobre 2020. Elle a servi de point de lancement du RSDFPF, dont l'objectif était de renforcer les capacités de la science des données et de mettre en commun les méthodes de la science des données au sein du gouvernement du Canada et au-delà. La communauté du RSDFPF comprend des personnes provenant de tous les secteurs, notamment des employé(e)s des administrations publiques fédérale et provinciales, des employé(e)s du secteur privé et des membres du milieu universitaire. Consulter la page À propos du Réseau de la science des données pour la fonction publique fédérale pour obtenir plus de renseignements.

La communauté du RSDFPF accueille par ailleurs des membres de tous les niveaux d'expérience et de compétence – elle n'est pas réservée qu'aux scientifiques des données! La communauté comprend des personnes qui collaborent avec des scientifiques des données, les supervisent ou les embauchent et même des personnes qui sont simplement curieuses et veulent en savoir plus sur ce domaine en expansion permanente.

L'objectif principal du RSDFPF est d'établir les bases d'un écosystème de la science des données, à l'échelle du service public et organisé autour de cinq domaines d'intérêt : la gestion des talents, la formation et l'apprentissage, le partage de l'information, la collaboration et les services communs.

L'idée d'un réseau de la science des données a été présentée pour la première fois lors de la Conférence sur les données 2020, qui a eu lieu à Ottawa les 13 et 14 février. Les employé(e)s du gouvernement du Canada ont exprimé leur enthousiasme à l'égard de cette initiative, car ils cherchaient une plateforme centrale à visiter pour obtenir les derniers renseignements sur la science des données.

Un espace réservé au RSDFPF

C'est de cet enthousiasme qu'est né le RSDFPF! Les premières étapes ont notamment compris le lancement du module Web — Réseau de la science des données pour la fonction publique fédérale. Ce module fait partie du Centre de la science des données de Statistique Canada et présente tous les articles du réseau, la page d'abonnement au bulletin du Réseau de la science des données pour la fonction publique fédérale et d'autres ressources en science des données.

Un méli-mélo plaisant

Le bulletin d'information, intitulé Méli-mélo de la science des données, est en constante évolution. Jusqu'à présent, nous y avons présenté une grande variété d'articles sur des sujets de pointe. Cela comprend les projets de Statistique Canada et des présentations d'autres organismes et ministères. Jetez un coup d'œil à nos dix articles les plus lus – vous y trouverez certainement quelque chose d'intéressant!

Découvrez les 10 articles les plus lus de l'année

Au RSDFPF, nous accueillons toujours avec plaisir vos propositions. Vous pouvez envoyer vos idées ou vos articles à l'équipe par courriel : statcan.dsnfps-RSDFPF.statcan@statcan.gc.ca et nous faire part de vos commentaires! C'est avec grand plaisir que nous traiterons de votre projet ou d'un sujet qui vous intéresse.

La première réunion du comité des directeurs du RSDFPF

Pour répondre aux besoins croissants du réseau, la première rencontre du comité des directeurs du Réseau de la science des données a eu lieu le 25 novembre 2020. La réunion a été très suivie, avec des représentants venus de 17 organismes et ministères et des partenaires désireux de faire progresser les capacités en matière de science des données. Après une présentation de l'objet et des buts du RSDFPF, nous avons eu une discussion animée sur les priorités du réseau – nous avons déjà progressé sur beaucoup d'entre elles à l'occasion de réunions ultérieures.

Cette première discussion et les suivantes ont porté notamment sur : la création d'un groupe de travail chargé de définir les compétences pour les descriptions des emplois en science des données au sein du gouvernement du Canada et d'améliorer les processus d'embauche et de maintien en poste du personnel; les contributions potentielles à la Conférence sur les données 2022 (qui sera co-organisée par Statistique Canada et l'École de la fonction publique du Canada); le projet d'organiser plusieurs séances de discussion sur les sujets pressants pour la communauté du RSDFPF, notamment les agents conversationnels et les entrepôts de données. Restez à l'affût pour plus en savoir plus sur ces événements à venir!

Les contributions clés à la 2021 Conférence sur les données

Les membres de tout le RSDFPF ont participé à plusieurs séances lors de la Conférence sur les données 2021, organisée en ligne en février. Le thème de la conférence était « Une communauté des données intégrée pour rebâtir en mieux », en réponse à la priorité du gouvernement du Canada d'œuvrer au rétablissement et à sa volonté d'apporter des changements systémiques positifs en utilisant des données de qualité.

Le RSDFPF a participé aux séances qui suivent :

le groupe d'experts sur l'évaluation des données saisies et l'exactitude du modèle résultant – la manière dont les scientifiques des données mettent la théorie en pratique lorsqu'ils évaluent des données pour des projets et la manière dont ils collaborent avec les clients pour obtenir la qualité de sortie souhaitée;
l'atelier sur l'Espace de travail d'analyse avancée – une discussion sur la conception de ce guichet unique pour la science des données et les analyses, une démonstration de la plateforme et une explication sur la manière dont cet espace de travail permet de réaliser des analyses à une échelle qu'il était auparavant impossible d'atteindre;
l'atelier sur les outils de gestion des talents pour les scientifiques des données – la manière dont les rôles sont définis dans d'autres organismes et les moyens de mettre à profit ces méthodes pour aider à combler les lacunes dans les profils de compétences des scientifiques des données au sein du gouvernement du Canada, afin d'attirer et de maintenir en poste les talents.

Compétences et collaboration

En misant sur le succès de l'atelier sur la gestion des talents lors de la Conférence sur les données, ainsi que sur les besoins définis lors des discussions de la réunion du comité des directeurs, le RSDFPF a créé un groupe de travail sur les compétences pour la gestion des talents en science des données. L'objectif de ce groupe de travail est de définir les rôles attendus dans une équipe de science des données et les compétences techniques et comportementales nécessaires pour chacun de ces rôles. Le groupe de travail s'appuie sur ces renseignements pour élaborer des profils de compétences qui permettront ensuite de rédiger des descriptions de postes fonctionnels, afin d'aider à maintenir en poste les scientifiques des données au sein de la fonction publique fédérale. Par ailleurs, le groupe de travail collabore étroitement avec le Secrétariat du Conseil du Trésor et la communauté des données du gouvernement du Canada, pour garantir une cohérence avec les autres initiatives en matière de ressources humaines et avec les compétences en numérique du gouvernement du Canada. Les ébauches de définition des rôles et des compétences sont prêtes. Le groupe a commencé à travailler sur l'attribution des niveaux de compétence. Les membres se réunissent toutes les deux semaines. Consultez la page du groupe de travail sur GCcollab pour obtenir plus de renseignements.

Regard vers l'avenir

D'autres nouveautés passionnantes sont prévues pour les prochains mois. Gardez un œil sur le bulletin d'information pour en savoir plus.

Le RSDFPF se réjouit :

de continuer d'encourager les projets de collaboration entre Statistique Canada et d'autres organismes et ministères fédéraux;
d'organiser de nouveaux événements, tels que l'atelier sur les agents conversationnels à venir en décembre;
d'organiser un atelier sur les entrepôts de données en 2022;
de publier plus d'articles et de contenu dans le bulletin d'information, avec les dernières nouvelles sur les projets et les ressources en science des données;
de participer à la Conférence sur les données 2022;
et plus encore!

Nous vous remercions de votre soutien, de votre intérêt et de votre enthousiasme constants, tandis que nous nous efforçons toutes et tous d'accroître les capacités de la science des données au sein du gouvernement du Canada et au-delà.

Signaler un problème ou une erreur sur cette page

Date de modification :: 2021-12-13

Un nouvel indicateur des mouvements hebdomadaires d'aéronefs

Par : Krishna Chaitanya Gopaluni, Statistique Canada

L'an dernier, lorsque la pandémie de COVID-19 a frappé le Canada, le gouvernement fédéral a imposé des restrictions concernant les voyages non essentiels dans l'ensemble du pays pour aider à limiter la propagation du virus. Des restrictions frontalières sont également entrées en vigueur le 18 mars 2020 pour les voyages transfrontaliers entre le Canada et les États-Unis de même que pour les autres voyages internationaux. L'équipe de l'aviation du Centre canadien de la statistique du tourisme et du transport (CCSTT) de Statistique Canada publie des statistiques mensuelles détaillées sur les mouvements d'aéronefs deux mois après la période de référence, mais ces statistiques n'étaient pas suffisamment actuelles pour mesurer l'évolution rapide de la situation.

Parmi les nombreuses sources de données utilisées par le CCSTT pour produire ces statistiques mensuelles figurent les données qu'il reçoit des tours de contrôle de la circulation aérienne de NAV CANADA. L'équipe de la CCSTT connaissait le potentiel des données, mais elle n'avait ni les compétences ni le temps nécessaires pour produire efficacement des estimations préliminaires de qualité. Par conséquent, elle a collaboré avec l'équipe de l'opérationnalisation de la science des données (OSD), qui fait partie de la Division de la science des données de Statistique Canada. Ensemble, les équipes ont entrepris un projet visant à produire un nouvel indicateur des mouvements hebdomadaires d'aéronefs au Canada afin d'évaluer l'incidence des restrictions sur les aéroports canadiens dotés de tours de contrôle de la circulation aérienne de NAV CANADA.

L'équipe de l'OSD a travaillé avec le CCSTT pour produire une application sur mesure et simple, qui produit des estimations des mouvements d'aéronefs à partir de fichiers de données brutes déclarées dans le cadre du programme mensuel sur les statistiques relatives aux mouvements des aéronefs. Cette application est utilisée par les analystes de l'équipe de l'aviation pour produire des fichiers de sortie de données hebdomadaires, qui sont ensuite chargés dans le tableau Mouvements itinérants intérieurs et internationaux d'aéronefs pour diffusion au public. Les données sont mises à jour chaque semaine et publiées 12 jours après la semaine de référence.

Les estimations hebdomadaires permettent à Statistique Canada de fournir un indicateur avancé du niveau de circulation aérienne dans l'ensemble du pays en temps très opportun. Cette mesure s'est révélée utile, car la circulation aérienne a été durement touchée par la pandémie.

Automatisation du déroulement des opérations

Étant donné qu'il s'agissait d'une nouvelle initiative entreprise pendant la pandémie, il a fallu la mettre en œuvre d'une manière qui nécessitait peu de temps et d'efforts afin de suivre l'évolution de la situation dans l'aviation. Les analystes de l'équipe de l'aviation du CCSTT n'étaient pas certains de la façon optimale de produire des estimations hebdomadaires. Bien qu'ils aient accès aux fichiers bruts de NAV CANADA, il n'est pas facile de les traiter pour obtenir les bons renseignements, car les données sont semi-structurées. En vue d'accélérer ce processus, l'équipe de l'OSD a mis au point une approche automatisée pour estimer les mouvements hebdomadaires des aéronefs, afin que les analystes puissent facilement publier les chiffres.

Les renseignements extraits Mouvements itinérants intérieurs et internationaux d'aéronefs, total de tous les aéroports dotés d'une tour de contrôle de NAV CANADA, hebdomadaire, ont été agrégés chaque semaine pour les voyages intérieurs, transfrontaliers et internationaux.

Description - Figure 1

Une représentation des étapes que franchissent les données pendant leur traitement. Progression de l'appariement du modèle vers l'extraction de la position du texte apparié, l'identification des aéroports intérieurs et la conversion en table de données. La table de données structurée est ensuite classée en catégories et des agrégats hebdomadaires sont créés.

À première vue, l'automatisation de ce processus semblait difficile; toutefois, l'équipe de l'OSD a mis en place une solution fondée sur Python, qui s'est révélée utile. Elle a utilisé une technique simple d'appariement de formes utilisant des expressions régulières et la bibliothèque intégrée de traitement de chaînes de caractères de Python pour extraire du texte à partir d'une position donnée dans les données semi-structurées. Pour ce faire, l'équipe a d'abord recueilli les données de NAV CANADA auprès des intervenants et a utilisé des techniques de reconnaissance des motifs pour récupérer les entrées liées à 41 aéroports intérieurs et des renseignements sur les mouvements intérieurs, les mouvements transfrontaliers et les autres mouvements internationaux. Ensuite, les données ont été transformées en données structurées et stockées dans une table de données. À l'étape suivante de l'exécution, l'application a classé chaque entrée selon les catégories « voyages intérieurs », « voyages transfrontaliers » ou « autres voyages internationaux », en fonction des métadonnées. Enfin, les chiffres correspondant à chaque catégorie ont été regroupés en mouvements hebdomadaires. La bibliothèque Python d'analyse de données Pandas a également été utilisée pour créer des agrégations hebdomadaires complexes. L'agrégation hebdomadaire dépend de la date de début fournie par l'utilisateur.

Résultats après l'automatisation du déroulement des opérations

Lors de la première diffusion du 18 mars 2020, les analystes ont utilisé l'approche automatisée pour diffuser les estimations agrégées des mouvements d'aéronefs. Les résultats ont montré une diminution du nombre de vols provenant de ces 41 aéroports. Pendant l'analyse des résultats d'un processus automatisé , il est souvent difficile de connaître la qualité de ces résultats. Toutefois, dans ce cas, les données diffusées précédemment comportaient beaucoup de données validées sur le terrain. L'exactitude des résultats de l'application a été vérifiée en recréant les chiffres mensuels déjà diffusés de l'année précédente. La validation était un processus itératif, car la majorité des résultats de la nouvelle application Python se rapprochaient des valeurs diffusées. Certaines données aberrantes ont dû être examinées par les experts du CCSTT. Une fois cette étape terminée, le code a été mis à jour jusqu'à ce que les estimations préliminaires de la nouvelle application Python et les résultats diffusés soient raisonnablement exacts. Depuis le déploiement de l'application en production, une seule modification a été nécessaire : un aéroport a été ajouté aux données de NAV CANADA.

Incidence sur les utilisateurs de l'application

Les analystes du CCSTT utilisent le format de l'Entrepôt commun des données de sortie (ECDS) pour diffuser tous les résultats sur le site Web de Statistique Canada. L'ECDS est un format de base de données précis qui aide à visualiser les données exportées. L'application Python développée par l'équipe de l'OSD produit également les résultats au format de l'ECDS, ce qui facilite l'intégration avec le déroulement des opérations déjà en place des analystes pour la diffusion des estimations. De plus, l'application a été simplifiée pour les utilisateurs non techniques en permettant la saisie de paramètres d'entrée à partir de fichiers Excel.

Si les analystes avaient choisi de recueillir et d'agréger les renseignements manuellement au moyen d'Excel, cela aurait pris beaucoup de temps et aurait été particulièrement laborieux. Il aurait fallu répéter ce processus chaque fois que de nouvelles données arrivaient. Toute nouvelle exigence relativement au déroulement des opérations aurait également augmenté les frais généraux. Compte tenu de cela, il était nécessaire d'établir un programme extensible et réutilisable pouvant estimer les nombres agrégés de mouvements d'aéronefs. Ce simple programme Python a satisfait à cette exigence et a permis d'économiser de nombreuses heures d'efforts manuels.

L'équipe de l'OSD et le CCSTT étudient actuellement la possibilité d'élargir les données diffusées, par exemple pour inclure une ventilation par aéroport principal.

Renseignements supplémentaires

Pour obtenir de plus amples renseignements sur ce projet, veuillez consulter :

Signaler un problème ou une erreur sur cette page

Date de modification :: 2022-11-29

Modélisation de la dynamique du SRAS-CoV-2 pour prévoir la demande d'EPI

Par : Jihoon Choi, Deirdre Hennessy et Joel Barnes, Statistique Canada

L'équipement de protection individuelle (EPI) est devenu un aspect important de la vie de tous les Canadiens, la pandémie ayant modifié notre façon d'agir les uns avec les autres et de nous protéger. La progression rapide du nouveau coronavirus, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), aussi désigné par le nom COVID-19, a exercé des pressions sans précédent sur le gouvernement du Canada pour qu'il fournisse des informations actuelles, exactes et pertinentes en vue d'éclairer la prise de décisions relatives à de nombreux enjeux de santé publique, notamment l'approvisionnement en EPI et le déploiement de l'EPI vers les provinces et territoires.

La pandémie mondiale attribuable au SRAS-CoV-2 pose un problème grave en matière de santé publique pour les Canadiens.^{Note de bas de page 1} En octobre 2021, plus de 1,71 million de cas diagnostiqués avaient été signalés au Canada. Cela signifie qu'il est essentiel que les Canadiens aient accès à de l'EPI lorsqu'ils en ont besoin.

Par EPI, on entend des produits comme des masques, des gants et des blouses qui sont portés pour se protéger d'une exposition potentielle à des agents pathogènes infectieux. La pandémie a exercé des pressions considérables sur les chaînes d'approvisionnement de l'EPI au Canada, ce qui a entraîné des perturbations importantes de l'approvisionnement dans des secteurs où les stocks d'EPI sont essentiels (comme les hôpitaux, les établissements de soins de longue durée).^{Note de bas de page 2} C'est pourquoi les prévisions relatives à la trajectoire de la pandémie et à ses effets sur l'approvisionnement, la demande et les stocks d'EPI sont devenues un aspect crucial du processus décisionnel.^{Note de bas de page 3}^{Note de bas de page 4}

Les modèles épidémiologiques peuvent fournir des données précieuses lors du processus décisionnel en matière de santé publique, en produisant un certain nombre de scénarios de simulation tenant compte de différentes hypothèses. De plus, ils peuvent aider à évaluer les répercussions de différentes mesures d'intervention en santé publique sur le résultat de l'épidémie (c.-à-d. lorsqu'on doit décider du moment critique pour adopter des mesures de confinement ou de réouverture dans chaque province).^{Note de bas de page 5} Il existe différentes variations des modèles épidémiologiques. Plusieurs d'entre elles sont des modèles à compartiments dans lesquels la population est divisée en de multiples compartiments et passe d'un compartiment à un autre selon un taux établi.^{Note de bas de page 6}

Le modèle Susceptible-Infecté-Rétabli (SIR) fait partie des formes les plus fondamentales du modèle à compartiments (figure 1). Ce modèle comporte trois compartiments, où S représente le nombre de personnes susceptibles, I, le nombre de personnes infectées et R, le nombre de personnes rétablies (et immunisées).

Figure 1 – Structure d’un modèle épidémiologique de base — Description - Figure 1

La structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

La figure 1 montre la structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

Les modèles à compartiments ont commencé à être utilisés en épidémiologie au début du XXe siècle. Plus précisément, les fondements reposaient sur le théorème décrit par Ronald Ross, William Hamer, Anderson McKendrick et William Kermack, ainsi que la grande influence de John Brownlee et ses perspectives statistiques.^{Note de bas de page 7} Depuis leur création, les modèles à compartiments se sont avérés utiles pour modéliser de nombreuses maladies transmissibles, comme la malaria et la peste.^{Note de bas de page 8}^{Note de bas de page 9}

Alors que l'éclosion de SRAS-CoV-2 est devenue une grande préoccupation des Canadiens en matière de santé publique, Santé Canada a demandé à la Division de la science des données (DScD) et à la Division de l'analyse de la santé (DAS) de Statistique Canada de créer un modèle épidémiologique qui pourrait prévoir les trajectoires de l'éclosion dans les provinces canadiennes. Les prévisions relatives aux cas et aux hospitalisations produites à partir du modèle épidémiologique sont utilisées dans le cadre du projet sur l'EPI afin d'évaluer la demande d'EPI dans différents secteurs de chacune des provinces. Le projet sur l'EPI cherche à permettre de prendre des décisions éclairées relatives à l'approvisionnement, à l'affectation et aux investissements pour la production nationale d'EPI, au moyen de rapports fondés sur des données probantes qui portent sur la situation actuelle et les projections de l'offre et de la demande d'EPI, dans le cadre de différents scénarios épidémiologiques.

Création du modèle initial pour la demande d'EPI : modèle Susceptible – Infecté – Rétabli – Décédé (SIRD)

Le modèle SIRD initial utilisait des méthodes bayésiennes pour évaluer le nombre d'infections actives dans les collectivités canadiennes, en fonction de la mortalité attribuable au SRAS-CoV-2. Le nombre total d'infections au SRAS-CoV-2 (diagnostiquées ou non) a été estimé, de manière inversée, à partir des décès attribuables au SRAS-CoV-2 par province et territoire, au moyen d'une méthode semblable à celle utilisée par Flaxman et coll.^{Note de bas de page 10} Le nombre estimé d'infections, de décès et de cas rétablis a été ajouté à un modèle à compartiments simple, composé de quatre compartiments. Les trois premiers compartiments sont équivalents à ceux du modèle SIR de base (Susceptible, Infecté et Rétabli). Cependant, ce modèle dispose d'un compartiment additionnel, D, qui représente la population décédée (figure 2).

Figure 2 – Structure d’un modèle épidémiologique SIRD — Description - Figure 2

La structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité $γ$ .

La figure 2 illustre la structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité $γ$ .

Ce modèle produit également un nombre de reproduction historique dynamique, R(t). Le concept R(t) est important dans le cadre de l'épidémiologie des maladies infectieuses, fournissant de l'information sur le potentiel de transmission d'un agent infectieux. Autrement dit, il montre à quel point une maladie infectieuse est contagieuse à un moment t au sein de la population à l'étude. De manière générale, si R(t) est supérieur à 1, la maladie commencera à se propager au sein de la population. Si R(t) est inférieur à 1, le nombre de nouveaux cas diminuera.

On évalue souvent R(t) en observant le nombre de nouvelles infections pendant une période. Cependant, le nombre de cas de SRAS-CoV-2 n'a pas été retracé avec exactitude au début de la pandémie, en raison des ressources limitées, par exemple le manque de trousses d'analyse.^{Note de bas de page 11} En tant que solution de rechange, le modèle SIRD a estimé le R(t) historique à partir du nombre de décès attribuables au SRAS-CoV-2, une mesure beaucoup plus fiable que le nombre réel de cas pendant la période initiale de l'éclosion. Un taux de mortalité par infection (TMI) pour le SRAS-CoV-2 tiré de la littérature de recherche a servi à calculer, de manière inversée, le R(t) historique.

Pour prévoir le R(t) futur, l'équipe a produit différents scénarios de pandémie. Chacun comportait diverses hypothèses au sujet des mesures d'intervention en santé publique adoptées :

Le scénario de confinement en raison du SRAS-CoV-2 – cherche à modéliser une situation lors de laquelle des mesures d'intervention en santé publique sont en place (comme le confinement). Selon ce scénario, R(t) est toujours inférieur à 1.
Le scénario de la meilleure estimation de la recrudescence – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, ce qui fait en sorte que le R(t) demeure élevé.
Le scénario des sommets et des creux – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, jusqu'à ce que le taux d'occupation dans les unités de soins intensifs (USI) des hôpitaux atteigne 30 % du maximum provincial. Un plan d'intervention est ensuite mis en application pour que le R(t) retrouve le niveau observé pendant le confinement.

Le modèle SIRD a servi de principal modèle épidémiologique dans le cadre du projet sur l'EPI jusqu'au début de 2021. Ce modèle a fait preuve d'un degré raisonnable d'exactitude pour prévoir la pandémie, au cours du stade initial d'éclosion. Cependant, ce modèle comporte un certain nombre de limitations. Tout particulièrement, il ne considérait pas la structure par âge de la population. Ces limitations ont entraîné la création d'une autre version du modèle épidémiologique, doté de compartiments additionnels, qui peut prendre en considération des caractéristiques plus complexes de la pandémie.

Le modèle courant : modèle Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné (SEIRDV)

Au début de la pandémie, la DScD et la DAS de Statistique Canada ont collaboré avec l'Agence de la santé publique du Canada (ASPC) pour créer un modèle SIR à compartiments multiples structuré selon l'âge. Cette collaboration a permis de créer le modèle SEIRDV, adapté par l'équipe épidémiologique chargée de l'EPI au sein de Statistique Canada, en conjonction avec Santé Canada, afin qu'il soit utilisé dans le modèle principal d'offre et de demande d'EPI. Le modèle sert de principal modèle épidémiologique dans le cadre du projet sur l'EPI depuis janvier 2021 (figure 3).

Figure 3 – Structure simplifiée d’un modèle épidémiologique SEIRDV — Description - Figure 3

Une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie aux autres est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement.

La figure 3 illustre une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Certaines de ces infections sont décelées à la suite de la recherche de contacts ou de tests de dépistage pour le SRAS-CoV-2. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement. Les personnes qui n'ont que des symptômes légers ou qui n'ont aucun symptôme passeront, au fil du temps, au compartiment « rétabli ». De plus, dans ce modèle, la population peut être vaccinée. Si une personne est vaccinée, la probabilité qu'elle passe au compartiment « infecté » est réduite en raison du taux de protection du vaccin. Dans le même ordre d'idées, la population vaccinée affiche un taux de probabilité réduit quand vient le temps d'avoir la forme sévère de la maladie et donc d'être prise en charge par le système de soins de santé (comme les hôpitaux ou les USI).

Voici les quatre modifications principales apportées en raison de l'adoption du modèle SEIRDV :

1. Le modèle permet à la population à l'étude d'être stratifiée selon l'âge

Dans le modèle SEIRDV, la population est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus), ce qui permet de configurer différents paramètres pour chaque groupe d'âge et de tenir compte des différences en fonction de l'âge.

Par exemple, les rapports démontrent que les groupes d'âge plus jeunes affichent une probabilité réduite d'hospitalisation et de mortalité par rapport aux groupes d'âge plus âgés^{Note de bas de page 12}. Puisque le modèle SEIRDV permet aux utilisateurs d'établir différents taux de flux pour chaque groupe d'âge, il peut modéliser cet effet.

Dans le même ordre d'idées, nous savons que certains groupes d'âge ont des interactions plus fréquentes que d'autres (comme les parents avec leurs enfants). La probabilité qu'ils se transmettent la maladie est donc supérieure. Dans le modèle SEIRDV, cet effet peut être pris en compte en utilisant une matrice des interactions qui modélise le taux de contacts moyen entre deux groupes d'âge.

2. Amélioration de l'estimation du taux de transmission (β)

Au lieu de se fonder sur une seule mesure, comme R(t), afin d'évaluer le taux de transmission, le modèle utilise désormais trois paramètres différents pour calculer le taux de transmission.

Tout d'abord, il y a β qui, dans ce modèle, représente la probabilité de transmission lors d'un contact. Ce chiffre est évalué à partir de la littérature et ajusté en fonction de la souche dominante de SRAS-CoV-2 dans chaque province. Cette mesure est multipliée par une matrice de contacts, c'est-à-dire une matrice numérique qui illustre le nombre moyen de contacts que les personnes de chaque groupe d'âge ont avec un autre groupe d'âge. Enfin, un multiplicateur de contacts est appliqué afin de tenir compte des variances en ce qui concerne les taux de contacts. Lorsque différentes mesures d'intervention en santé publique sont imposées (comme un confinement), le taux de contacts au sein de la population évolue en conséquence. Ces variations sont obtenues en étalonnant le multiplicateur de contacts en fonction du nombre signalé de cas actifs quotidiens dans chaque province, toutes les semaines.

3. L'effet de la vaccination est pris en compte

Parmi les principaux effets de la vaccination, il y a une réduction des pressions exercées sur le système de santé (en évitant que les personnes infectées soient si gravement malades qu'elles doivent être hospitalisées) et de la transmission de la maladie dans la collectivité (en évitant que les gens soient infectés, ce qui finalement favorise l'immunité collective). La conception actuelle du modèle SEIRDV tient compte de ces deux effets, comprenant une voie distincte réservée à la vaccination. La population vaccinée passera à cette voie, où la chance qu'elle contracte la maladie est réduite et la probabilité qu'elle ait des symptômes sévères exigeant une hospitalisation est réduite.

Le modèle tient aussi compte du plan de vaccination à deux doses établi par le Comité consultatif national de l'immunisation. Les données sur la vaccination ont été obtenues auprès de l'ASPC et du COVID-19 Canada Open Data Working Group (CCODWG), afin d'évaluer le nombre de doses qui peuvent être injectées chaque jour par province. De plus, les différents taux de protection assurés par le plan de vaccination à deux doses ont été modélisés en divisant la voie de vaccination en quatre compartiments distincts. La figure 4 résume ce processus.

Figure 4 – Conception du compartiment réservé à la vaccination — Description - Figure 4

Montre la division des groupes d’âges au sein d’une population ainsi que la distribution des vaccins injectés aux personnes plus âgées et plus jeunes, en tenant compte de certains groupes de risque élevé de tout âge. Les groupes passent de la première à la deuxième dose pour être pleinement vaccinés.

La population à l'étude est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus). Les vaccins sont injectés aux personnes des groupes d'âge les plus âgés avant de l'être aux personnes des groupes d'âge les plus jeunes. Un petit nombre de doses a été injecté à un groupe d'âge qui représente les professionnels de la santé, au premier stade. Lorsqu'elle reçoit la première dose, la population qui vient d'être vaccinée passe au premier compartiment de vaccination, représentant la population qui a reçu un vaccin, mais qui n'est pas encore immunisée. Cette population passe ensuite au deuxième compartiment de vaccination après une période établie. À ce moment, elle acquiert une protection partielle contre le SRAS-CoV-2. La population demeure dans ce compartiment jusqu'à ce que le stade 1 (lorsque la distribution de la première dose) soit terminé. Lorsque le stade 2 du plan de vaccination commence, la population passe au troisième compartiment de vaccination, au moment où elle reçoit sa deuxième dose, avant de passer au dernier compartiment de vaccination, lorsqu'elle a le degré d'immunité maximal qu'offre la vaccination.

4. Il est possible de modéliser les répercussions des variants préoccupants (VP)

La séquence d'un certain nombre de souches différentes de SRAS-CoV-2 a été établie partout dans le monde en raison de mutations virales, dont certaines affichent des taux de transmission ou de mortalité supérieurs^{Note de bas de page 13}. Il s'agit de variants préoccupants (VP) qui sont un facteur crucial à prendre en considération dans la modélisation épidémiologique du SRAS-CoV-2. Le modèle SEIRDV peut les modéliser en modifiant la probabilité de transmission (β) pour obtenir le taux de transmission accru, en plus de modifier le passage vers le compartiment réservé à l'hospitalisation ou au décès pour obtenir l'effet d'une gravité accrue des symptômes associés au variant. Au moyen de ce mécanisme, l'équipe a réussi à modéliser l'effet du variant B.1.1.7 (Alpha) dans le modèle.

Conclusion

En raison des efforts déployés pour assurer un développement, une amélioration et un étalonnage continus, le modèle épidémiologique a contribué de manière utile à la modélisation de la tendance en ce qui concerne la pandémie de SRAS-CoV-2 au Canada. Plus précisément, les résultats de ce modèle ont permis au projet sur l'EPI d'évaluer la demande d'EPI à l'échelle des provinces canadiennes, afin de veiller à ce que tous les secteurs se procurent suffisamment de stocks d'EPI avant les éclosions d'envergure.

De plus, cet article démontre comment l'application de la science des données, jumelée à des statistiques, à l'informatique et à l'épidémiologie, peut servir à assurer une planification en santé publique, en plus de prendre des décisions relatives aux besoins en ressources pendant la pandémie de COVID-19.

Comment cela a-t-il été rendu possible?

En utilisant des Logiciels libre
Le langage de programmation R a servi à établir le modèle SEIRDV, et la méthodologie de base du modèle a été publiée dans un journal d'accès libre (Évaluation de l'impact de différents niveaux de détection des cas et de recherche des contacts sur la transmission du COVID-19 au Canada pendant la levée des fermetures restrictives à l'aide d'un modèle dynamique compartimental, en anglais seulement). La trousse R est accessible dans le compte GitHub de Statistique Canada.
En adaptant différentes plateformes de développement pour établir notre modèle
L'équipe a utilisé de multiples plateformes et langages de programmation pour le développement, dont : R et Python pour créer le modèle principal; SQL pour bâtir et réviser les bases de données et les tableaux; Power BI et R Shiny pour assurer la visualisation et la prestation de produits; Azure Data Factory pour bâtir et gérer le pipeline.
En optimisant et en automatisant le pipeline pour en tirer le degré d'efficacité maximal
Toutes les tâches de modélisation ont été parallélisées pour avoir recours à la puissance du processeur multicoeur. L'équipe a également automatisé de nombreuses procédures, y compris l'établissement de rapports, l'analyse de sensibilité et les tests d'assurance de la qualité.

Domaines pouvant faire l'objet d'autres études

Puisque la pandémie de SRAS-CoV-2 est toujours active, d'autres travaux devront peut-être être réalisés. Voici quelques domaines qui pourraient faire l'objet d'autres études :

Nouveaux variants
En raison du taux de mutation élevé observé en ce qui concerne la souche SRAS-CoV-2, la séquence de nouveaux variants est constamment établie partout dans le monde. Alors que le modèle tenait compte de l'effet du variant B.1.1.7, il existe plusieurs autres VP dont il faut tenir compte (comme le variant Delta). L'équipe surveille étroitement la propagation des VP à l'échelle du pays afin de déterminer si le modèle doit tenir compte d'autres variants.
Déclin de l'immunité
Des études ont démontré que l'immunité acquise grâce à la vaccination (ou à l'infection) ne dure pas de manière indéfinie. L'immunité diminuera au fil du temps, ce qui entraînera une perte progressive des anticorps conférant une protection. On désigne ce phénomène par le nom « déclin de l'immunité ». Le modèle devra en tenir compte pour préparer un scénario futur, notamment lorsqu'une grande proportion de la population aura besoin d'une autre dose de vaccin pour maintenir son immunité.

Équipe de modélisation épidémiologique chargée de l'EPI :
Jihoon Choi (DScD), Deirdre Hennessy (DAS), Joel Barnes (DAS).

Équipe du projet et collaborateurs :
Rubab Arim, Statistique Canada ; Kayle Hatt, Santé Canada

Références

Note de bas de page 1

Webster, P. Canada and COVID-19: learning from SARS. Lancet 395, 936–937 (2020).

Retour à la référence de la note de bas de page 1

Note de bas de page 2

Mehrotra, P., Malani, P. & Yadav, P. Personal protective equipment shortages during COVID-19—supply chain--related causes and mitigation strategies. in JAMA Health Forum vol. 1 e200553--e200553 (2020).

Retour à la référence de la note de bas de page 2

Note de bas de page 3

Nikolopoulos, K., Punia, S., Schäfers, A., Tsinopoulos, C. & Vasilakis, C. Forecasting and planning during a pandemic: COVID-19 growth rates, supply chain disruptions, and governmental decisions. Eur. J. Oper. Res. 290, 99–115 (2021).

Retour à la référence de la note de bas de page 3

Note de bas de page 4

Rowan, N. J. & Laffey, J. G. Challenges and solutions for addressing critical shortage of supply chain for personal and protective equipment (PPE) arising from Coronavirus disease (COVID19) pandemic--Case study from the Republic of Ireland. Sci. Total Environ. 725, 138532 (2020).

Retour à la référence de la note de bas de page 4

Note de bas de page 5

Garner, M. G., Hamilton, S. A. & others. Principles of epidemiological modelling. Rev. Sci. Tech. 30, 407 (2011).

Retour à la référence de la note de bas de page 5

Note de bas de page 6

Tang, L. et al. A Review of Multi-Compartment Infectious Disease Models. Int. Stat. Rev. 88, 462–513 (2020).

Retour à la référence de la note de bas de page 6

Note de bas de page 7

Brauer, F. Compartmental Models in Epidemiology. Mathematical Epidemiology vol. 1945 19–79 (2008).

Retour à la référence de la note de bas de page 7

Note de bas de page 8

Mandal, S., Sarkar, R. R. & Sinha, S. Mathematical models of malaria - a review. Malar. J. 10, 202 (2011).

Retour à la référence de la note de bas de page 8

Note de bas de page 9

Dean, K. R. & Dean, K. R. Modeling plague transmission in Medieval European cities. (2015).

Retour à la référence de la note de bas de page 9

Note de bas de page 10

Flaxman, S. et al. Estimating the effects of non-pharmaceutical interventions on COVID-19 in Europe. Nature 584, 257–261 (2020).

Retour à la référence de la note de bas de page 10

Note de bas de page 11

Association canadienne de santé publique. La riposte initiale du Canada à la pandémie de COVID-19. (2021).

Retour à la référence de la note de bas de page 11

Note de bas de page 12

AT, L. et al. Assessing the age specificity of infection fatality rates for COVID-19: systematic review, meta-analysis, and public policy implications. Eur. J. Epidemiol. 35, 1123–1138 (2020).

Retour à la référence de la note de bas de page 12

Note de bas de page 13

Oosterhout, C. van, Hall, N., Ly, H. & Tyler, K. M. COVID-19 evolution during the pandemic – Implications of new SARS-CoV-2 variants on disease control and public health policies. 12, 507–508 (2021).

Retour à la référence de la note de bas de page 13

Signaler un problème ou une erreur sur cette page

Date de modification :: 2021-11-10

Enquête sur la rémunération auprès des entreprises - Secteur public : Guide de déclaration

Veuillez lire ce guide de déclaration avant d'inscrire les renseignements sur le questionnaire. Vous pourrez ainsi mieux comprendre les exigences de la présente enquête. Veuillez conserver ce guide pour référence future.

Introduction

But de l'enquête

L'Enquête sur la rémunération auprès des entreprises mesure les tendances mensuelles de l'ensemble des salariés inscrits sur la liste de paye, des heures rémunérées, et des gains. Cette enquête ainsi que l'information provenant des formules PD7A des versements des retenues de l'Agence du revenu du Canada fournissent les données de base pour produire les estimations du programme de l'Enquête sur l'emploi, la rémunération et les heures de travail (EERH). Votre participation est essentielle à l'obtention de résultats qui reflèteront correctement votre industrie, région et taille d'entreprise. En vertu de la Loi sur la statistique, vous êtes tenu de répondre à cette enquête.

Ce guide contient des définitions et des directives sur la manière de remplir le questionnaire d'enquête.

Pour cette enquête, la définition d'un employé est toute personne qui reçoit une rémunération pour services rendus au Canada ou pour un congé payé et pour laquelle l'employeur est tenu de remplir une déclaration État de la rémunération payée de l'Agence du revenu du Canada (Feuillet T-4). Le terme salarié englobe les salariés à temps plein, à temps partiel et occasionnels ou temporaires.

Veuillez noter que la Question 1 couvre le nombre total de salariés de la dernière période de paye du mois de référence, pour l'ensemble des catégories de salariés. Pour les Questions 2 à 15, le nombre de salarié, la rémunération brute régulière et les heures se rapportent tous à la dernière période de paye du mois de référence, pour chacune des catégories de salariés. Les questions sur les paiements spéciaux recueillent l'information sur les paiements faits en tout temps durant le mois de référence, et les périodes que le montant couvre.

Confidentialité

La loi interdit à Statistique Canada de divulguer toute information recueillie qui pourrait dévoiler l'identité d'une personne, d'une entreprise ou d'un organisme sans leur permission ou sans en être autorisé par la loi. Statistique Canada utilisera les données de cette enquête à des fins statistiques.

Période de déclaration

Le mois de référence est indiqué sur l'invitation électronique.

Tous les salariés incluant les membres du conseil (Question 1)

Toute personne rémunérée pour les services rendus au Canada ou pour des congés payés par l'employeur et pour laquelle l'employeur est tenu de remplir une déclaration T-4 de l'Agence du revenu du Canada. Le terme salarié englobe les salariés à temps plein, à temps partiel, et les salariés occasionnels ou temporaires.

Indiquez le nombre total de salariés rémunérés pour les services rendus ou pour des congés payés par l'employeur au cours de la dernière période de paye, du mois de référence. Inclure les salariés à temps partiel et les membres du conseil, s'il y a lieu.

Tous les salariés incluant les membres du conseil (Questions 2 15)

Les questions suivantes concernent le nombre de salariés, les dates, la rémunération régulière brute et le nombre d'heures qui se réfèrent à la dernière période de paye payable, du mois de référence. Il importe peu que les chèques de paye aient été émis ou non pour cette période. Veuillez noter que la question sur les paiements spéciaux fait référence à des paiements faits en tout temps durant le mois de référence. Les dates que vous devez déclarer sont les dates de la période visée par les paiements.

Déclarez vos données par catégorie de salariés. S'il y a seulement un registre de paye pour une catégorie de salariés, inscrivez vos renseignements dans la première colonne. Utilisez les colonnes additionnelles si vous avez plus d'un registre de paye par catégorie de salariés.

Catégorie de salariés :

Salariés rémunérés à l'heure :: Tout salarié dont la rémunération de base est calculée selon un taux horaire.
Employés à salaire fixe :: Tout salarié dont la rémunération de base constitue une somme fixe versée pour une période d'au moins une semaine.
Autres salariés :: Tout salarié n'ayant pas été déclaré dans les catégories précédentes – par exemple, les membres du conseil.

Exemple:

Les employés à salaire fixe d'une compagnie sont payés à différents intervalles, certains employés à salaire fixe reçoivent leur paye toutes les semaines tandis qu'un autre groupe est payé aux deux semaines. Pour déclarer ces renseignements pour la dernière période de paye, utilisez la première colonne pour déclarer les employés payés toutes les semaines, avec des dates correspondant à une période hebdomadaire, et la deuxième colonne pour les employés payés toutes les deux semaines, avec des dates correspondant à deux semaines.

Nombre de salariés (Questions 2, 7 et 12)

Choisissez la catégorie de salariés appropriée et déclarez le nombre de salariés ayant été rémunérés au cours de la dernière période de paye du mois de référence. Cette rémunération peut être pour les services rendus ou pour des congés payés par l'employeur tels que des jours fériés, des jours de vacances, etc. Déclarez un employé dans une catégorie de salariés seulement.

Dates concernant la dernière période régulière de paye

Dates du premier et dernier jour (Questions 3, 8 et 13)

La dernière période de paye du mois correspond à la dernière période de paye consignée dans les livres comptables comme une charge courue. Il importe peu que les chèques de paye aient été émis ou non pour cette période.

Indiquez les dates du premier et du dernier jour de la dernière période de paye complète du mois de référence pour chaque catégorie de salariés applicable. Si votre dernière période de paye inclut trois jours ou moins du mois suivant, vous pouvez inscrire cette période de paye.

Rémunération régulière brute (Questions 4a, 9a et 14)

Déclarez la rémunération régulière brute payable pour la dernière période de paye du mois de référence. Il faut inclure la rémunération payable pour les heures supplémentaires travaillées durant la même période.

La rémunération régulière brute payable, avant les retenues, inclut :

les salaires normaux ;
les paiements habituels prévus ou imprévus pour les heures supplémentaires versées spécifiquement pour la dernière période de paye du mois ;
les gratifications versées régulièrement pour la dernière période de paye du mois (par exemple, les primes à la production, à l'initiative, d'éloignement) ; et
les congés payés par l'employeur pour la dernière période de paye du mois.

La rémunération régulière brute payable, avant les retenues, exclut :

tous les paiements qui ne portent pas sur la dernière période de paye visée ;
les avances d'indemnisation des accidents de travail faites aux salariés pendant la résolution d'une réclamation ;
les paiements en espèce ;
les avantages imposables et non imposables ;
les frais de déplacement ; et
les cachets des administrateurs qui ne sont pas des salariés de l'entreprise.

Rémunération des heures supplémentaires (Questions 4b et 9b)

Rémunération versée pour toutes les heures de travail effectuées en sus de la journée ou de la semaine normale de travail durant la dernière période de paye du mois de référence. La rémunération pour les heures supplémentaires représente le paiement versé au salarié après que le taux a été majoré. (Se reporter à la section sur la « Rémunération régulière brute » et les « Paiements spéciaux » pour obtenir d'autres détails).

Nombre total d'heures payables (pour salariés à l'heure seulement) (Question 5a)

Déclarez toutes les heures payables pour les services rendus et pour les congés payés pour la dernière période de paye du mois de référence. Il faut inclure les heures supplémentaires et les autres heures payées, telles que les heures de congé payées, les jours fériés, les vacances, les congés de maladie, et les congés pour fonctions de jury. Arrondissez les chiffres à une heure près.

Exemple :

Une compagnie compte 7 salariés rémunérés à l'heure qui sont payés toutes les semaines :

2 salariés travaillent à temps plein 40 heures par semaine ;
3 salariés travaillent à temps plein 37 1/2 heures par semaine ; et
2 salariés travaillent à temps partiel 24 heures par semaine.

Pour la dernière période de paye du mois, les salariés ont travaillé le nombre d'heures normales, sauf que :

1 salarié a pris une journée de congé de maladie payé ; et
1 salarié à temps partiel a pris un congé sans solde de 4 heures.
Il y avait également trois heures supplémentaires travaillées.

Le nombre total d'heures payables pour du travail accompli et des congés payés de la dernière période de paye du mois de référence, serait de 240 heures.

(Voir l'exemple du calcul)

Calcul:

2 temps plein x 40.0 heures

= 80,0

3 temps plein x 37.5 heures

= 112,5

2 temps partiel x 24.0 heures (moins 4 heures sans rémunération)

= 44,0

3 heures supplémentaires (avant majoration)

= 3,0

Total 239,5
Arrondi à 240

Nombre total d'heures supplémentaires travaillées (Salariés rémunérés à l'heure seulement) (Question 5b)

Déclarez le nombre d'heures supplémentaires travaillées durant la dernière période de paye du mois de référence avant que le taux de majoration soit appliqué. Seul le nombre réel d'heures supplémentaires travaillées est requis.

Exemple:

Si un salarié a travaillé deux heures supplémentaires à un taux majoré de moitié, le nombre réel d'heures supplémentaires travaillées est de 2 heures.

Nombre moyen d'heures de travail prévues dans une semaine (Employés à salaire fixe seulement) (Question 10)

Déclarez le nombre moyen d'heures prévues dans une semaine de travail normale au cours de la dernière période de paye du mois de référence. Il est important que ce nombre soit pour une seule semaine.

Si tous vos employés à salaire fixe comptent le même nombre d'heures prévues dans une semaine normale de travail, déclarez ce nombre. Exprimez les fractions sous forme de décimales.

Si le nombre moyen d'heures de travail prévues diffère pour vos employés à salaire fixe, indiquez le nombre moyen d'heures travaillées par ces employés. (Voir exemple ci-dessous)

Exemple:

Si 4 employés à salaire fixe à temps plein travaillent 40 heures par semaine et 2 employés à salaire fixe à temps partiel travaillent 24 heures par semaine, alors la moyenne pour ces employés est calculée de la façon suivante :

((4x40) + (2x24)) ÷ (4+2) = 34,66 heures en moyenne

Paiements spéciaux versés n'importe quand durant le mois (Questions 6, 11 et 15)

Les paiements spéciaux sont les sommes versées aux salariés pour le travail accompli ou pour d'autres versements :

qui ne portent pas exclusivement sur la dernière période de paye du mois ;
qui sont effectués à un moment quelconque au cours du mois ;
qui ne font pas partie des salaires normaux ;
qui sont habituellement inscrits aux livres selon la méthode de comptabilité de « aisse ». (La comptabilité de caisse est une méthode qui consiste à ne comptabiliser les produits et charges qu'au moment où les opérations en cause donnent lieu à des rentrées ou des sorties de fonds).

Les paiements spéciaux ne comprennent pas la rémunération comptabilisée comme une rémunération régulière ainsi que les allocations et les avantages non imposables. Il ne faut pas inclure dans la dernière période de paye les paiements spéciaux, car cela donnerait une image inexacte des gains moyens.

Si les paiements sont effectués sur une base régulière (par exemple, à chacune des périodes de paye), ils peuvent être inclus avec la rémunération régulière brute. Toutefois, si les paiements sont faits sur une base irrégulière (par exemple, s'ils ne sont pas versés à chaque période de paye), ils doivent être rapportés avec les paiements spéciaux.

Les exemples suivants constituent une liste partielle de paiements spéciaux possibles. Il peut exister d'autres paiements qui soient uniques à votre entreprise. Les intervieweurs des bureaux régionaux sont disponibles pour répondre à toutes vos questions et vous renseigner en ce qui concerne les paiements spéciaux.

les primes : annuelles, contractuelles, de Noël, incitatives, mensuelles, de rendement, de recrutement et de maintien en poste ;
les indemnités de vie chère ou de subsistance ;
les paiements cumulatifs au titre des heures supplémentaires portant sur une période plus longue que la période de paye visée ;
les congés réguliers (fériés, maladie) qui portent sur une période autre que la dernière période de paye ;
les paiements de participation aux bénéfices ;
les indemnités de cessation d'emploi, de départ et de retraite ;
les paiements rétroactifs ;
la rémunération cumulative de vacances qui porte sur une période plus longue que la période de paye visée ;
les salaires versés aux membres du conseil portant sur une période autre que la dernière période de paye.

Dates de début et de fin de la couverture des paiements spéciaux (Questions 6, 11 et 15)

Indiquez les dates du premier et du dernier jour de la période visée par les paiements spéciaux pour une catégorie d'employé. Il est essentiel que les dates des paiements spéciaux correspondent aux périodes couvertes et non pas le mois dans lequel les paiements ont été versés. Ne pas déclarer les dates auxquelles ces paiements ont été versés aux salariés.

Exemple:

Le 24 mars, les salariés rémunérés à l'heure ont reçu une prime de rendement de l'ordre de 2 200 $ pour le travail accompli entre le 1er janvier 2011 et le 29 février 2011. Le type de paiement serait « Prime », et les dates qu'il faudrait indiquer pour ce paiement spécial payé durant le mois de référence « mars » seraient du 01-01-2011 au 29-02-2011, et le montant serait 2 200 $.

Pour tous les paiements spéciaux versés pendant le mois de référence, indiquez le type de paiement spécial, le montant versé et la période couverte par le paiement spécial.

Renseignements generaux

Ententes de partage de données

Afin de réduire le fardeau des répondants, Statistique Canada a conclu des ententes de partage de données avec des organismes statistiques provinciaux et territoriaux et d'autres organisations gouvernementales, qui ont accepté de garder les données confidentielles et les utiliser uniquement à des fins statistiques. Statistique Canada communiquera les données de la présente enquête seulement aux organisations ayant démontré qu'elles avaient besoin de les utiliser.

L'article 11 de la Loi sur la statistique prévoit le partage de données avec des organismes statistiques provinciaux et territoriaux répondant à certaines conditions. Ces organismes doivent posséder l'autorisation légale de recueillir les mêmes données, sur une base obligatoire, et les lois en vigueur doivent contenir essentiellement les mêmes dispositions que la Loi sur la statistique en ce qui concerne la confidentialité et les sanctions imposées en cas de divulgation de renseignements confidentiels. Comme ces organismes possèdent l'autorisation légale d'obliger les entreprises à fournir les mêmes données, on ne demande pas le consentement des entreprises et celles-ci ne peuvent s'opposer au partage des données.

Pour la présente enquête, des ententes en vertu de l'article 11 ont été conclues avec les organismes statistiques provinciaux et territoriaux de Terre-Neuve-et-Labrador, de la Nouvelle-Écosse, du Nouveau-Brunswick, du Québec, de l'Ontario, du Manitoba, de la Saskatchewan, de l'Alberta, de la Colombie-Britannique et du Yukon.

Les données partagées seront limitées aux renseignements relatifs aux établissements commerciaux situés dans la province ou le territoire en question.

L'article 12 de la Loi sur la statistique prévoit le partage de données avec des organisations gouvernementales fédérales, provinciales ou territoriales. En vertu de cet article, vous pouvez refuser de partager vos données avec l'une ou l'autre de ces organisations en écrivant une lettre d'objection au statisticien en chef et en la retournant avec le questionnaire rempli. Veuillez préciser les organisations avec lesquelles vous ne voulez pas partager vos données.

Pour la présente enquête, des ententes en vertu de l'article 12 ont été conclues avec les organismes statistiques de l'Île-du-Prince-Édouard, des Territoires du Nord-Ouest et du Nunavut.

Dans le cas des ententes conclues avec des organisations gouvernementales provinciales et territoriales, les données partagées seront limitées aux renseignements relatifs aux établissements commerciaux situés dans la province ou le territoire en question.

Liens d'enregistrement

Vos réponses à cette enquête seront combinées avec les fichiers mensuels de retenues sur la paie de votre entreprise reçus de l'Agence du revenu du Canada. Statistique Canada peut également combiner les informations que vous fournissez avec d'autres sources de données d'enquête ou administratives.

Merci de votre collaboration!

Demandes de renseignements — Éducation, formation et apprentissage

En vertu de la Loi sur la statistique, Statistique Canada demande par la présente les renseignements suivants, qui seront utilisés uniquement à des fins statistiques et de recherche et qui seront protégés conformément aux dispositions de la Loi sur la statistique et de toute autre loi pertinente. Veuillez noter que cette demande est à caractère obligatoire.

Études primaires et secondaires
- Données sur les élèves du primaire et du secondaire (de la maternelle à la 12^e année) en Colombie-Britannique
- Données sur les élèves du secondaire (de la 9^e à la 12^e année) de l’Ontario
Études postsecondaires

Études primaires et secondaires

Données sur les élèves du primaire et du secondaire (de la maternelle à la 12^e année) en Colombie-Britannique

Quels sont les renseignements demandés?

Statistique Canada demande des dossiers administratifs à jour au ministère de l'Éducation de la Colombie-Britannique.

L'organisme détient les dossiers administratifs des élèves du primaire et du secondaire de la Colombie-Britannique pour les années scolaires de 1991-1992 à 2018-2019. Ces dossiers administratifs comportent des renseignements sur les caractéristiques démographiques des élèves (p. ex. l'âge, la langue parlée à la maison, si un élève avait des besoins spécifiques), des renseignements sur l'école (p. ex. le nom de l'école, le district scolaire), des renseignements sur les inscriptions (p. ex. si un élève était inscrit dans un programme d'immersion en français), les résultats des évaluations des compétences fondamentales, des renseignements sur le rendement scolaire au niveau secondaire, des renseignements sur l'obtention du diplôme (p. ex. l'année et le mois d'obtention du diplôme, le type de diplôme) et des renseignements sur le quartier des élèves selon le Recensement de la population de 2016.

Dans le cadre de cette demande, Statistique Canada recevra des dossiers administratifs mis à jour, ainsi que de nouveaux dossiers pour les années scolaires 2019-2020 et 2020-2021.

Les dossiers des élèves mis à jour comprendront des renseignements sur les notes de cours des élèves. Les dossiers administratifs déjà reçus comportaient le nombre de tentatives d'un élève pour terminer un cours et sa note finale en lettre et en pourcentage. Les dossiers administratifs à jour comprendront des notes distinctes pour la partie travail du cours et la partie examen du cours, chacune en lettre et en pourcentage. La liste des cours pour lesquels ces notes sont disponibles reste la même (33 cours au niveau secondaire). Les dossiers à jour comprendront également une variable indicatrice pour indiquer si un élève a suivi un cours à deux crédits au cours d'une année donnée.

Une variable supplémentaire indiquant l'organisation de niveau supérieur de l'école qu'un élève a fréquentée l'année où l'élève était admissible à obtenir son diplôme sera également comprise. Les organisations de niveau supérieur comprennent l'« External Schools Association' », l'« Independent Schools Association' », le « conseil scolaire » et les organisations « Inconnues ». Les données demandées viendront compléter les données déjà obtenues par Statistique Canada auprès du ministère de l'Éducation de la Colombie-Britannique sur les élèves du primaire et du secondaire.

Quels renseignements personnels sont inclus dans cette demande?

Les renseignements demandés comprennent des identifiants personnels comme le prénom, le nom, le surnom, le genre, la date de naissance, la province, l'adresse et le code postal des élèves. Ces renseignements sont nécessaires pour effectuer des couplages de données et seront utilisés à des fins statistiques uniquement. Une fois les données couplées, les identifiants personnels sont remplacés par une clé anonyme.

Quelles seront les années de données demandées?

Statistique Canada a demandé des données annuelles pour les années scolaires 2018-2019 à 2020-2021, ainsi que des variables supplémentaires sur une base annuelle.

L'organisme a aussi demandé les fichiers révisés pour les années 1991-1992 à 2018-2019, y compris les variables supplémentaires.

À qui les renseignements seront-ils demandés?

Cette demande de renseignements est présentée au ministère de l'Éducation de la Colombie-Britannique.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a demandé les données les plus récentes afin de calculer des indicateurs clés actuels sur l'éducation et d'effectuer une analyse précise et pertinente liée à la transition aux études postsecondaires, aux programmes d'apprentissage et à la transition vers le marché du travail. Cela se fera grâce à l'intégration des données sur la scolarité de la maternelle à la 12^e année de la Colombie-Britannique aux données sur les étudiants postsecondaires et sur les apprentissages dans les fichiers d'impôt sur le revenu de la Plateforme longitudinale entre l'éducation et le marché du travail.

Les renseignements supplémentaires sur les élèves du primaire et du secondaire seront utilisés par les décideurs, les chercheurs et les intervenants de l'industrie sur la programmation étudiante afin de prendre des décisions puisqu'ils auront une meilleure compréhension des cheminements scolaires des élèves de la Colombie-Britannique, y compris l'incidence de la scolarisation de la maternelle à la 12^e année sur les résultats en éducation et les résultats sur le marché du travail.

Statistique Canada peut également utiliser les renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le ministère de l'Éducation de la Colombie-Britannique est responsable de la collecte et du maintien des données sur les élèves du primaire et du secondaire (de la maternelle à la 12^e année) en Colombie-Britannique.

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés annuellement à partir de juin 2021.

Quand cette demande a-t-elle été publiée?

Le 28 juillet 2021

Données sur les élèves du secondaire (de la 9^e à la 12^e année) de l’Ontario

Quels sont les renseignements demandés?

L’organisme détient des dossiers administratifs sur les élèves du secondaire de l’Ontario pour les années scolaires 2009-2010 à 2015-2016. Ces dossiers administratifs comprennent des renseignements démographiques sur les élèves (p. ex. l’âge, le genre, si l’élève avait des besoins particuliers), des renseignements sur l’école (p. ex. le nom de l’école, le district scolaire), des renseignements sur l’inscription (p. ex. si l’élève était inscrit à un programme d’immersion en français, à un programme d’enseignement coopératif ou à un programme d’enseignement technique), les notes obtenues aux tests normalisés (OQRE), certains résultats scolaires au secondaire (l’inscription à un cours et la note finale), ainsi que des renseignements sur l’obtention du diplôme (p. ex. l’année et le mois de l’obtention du diplôme, le type de diplôme).

En plus des renseignements déjà détenus, Statistique Canada présente une demande officielle de renseignements démographiques supplémentaires sur les élèves (genre de visa, plan d’enseignement individualisé), de renseignements sur l’inscription (si l’étudiant était inscrit à un programme d’enseignement coopératif ou à un programme d’enseignement technique), les notes obtenues aux tests normalisés (OQRE), ainsi que des renseignements sur un plus grand nombre de cours et sur les notes obtenues au secondaire.

Quels renseignements personnels sont inclus dans cette demande?

Statistique Canada reçoit déjà des identificateurs personnels, comme le prénom, le nom de famille, le genre, la date de naissance et le code postal des élèves, qui sont nécessaires au couplage des données et qui serviront uniquement à des fins statistiques. Une fois les données couplées, les identificateurs personnels seront remplacés par une clé anonymisée.

En plus de ces renseignements, Statistique Canada demandera le genre de visa et l’année d’entrée des étudiants étrangers afin de permettre une analyse et une compréhension plus approfondies de cette sous-population.

Pour obtenir de plus amples renseignements, consultez le supplément à l’Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada pour cette demande. Plateforme longitudinale entre l'éducation et le marché du travail – addenda.

Quelles seront les années de données demandées?

Statistique Canada détient des données pour les années scolaires 2009-2010 à 2015-2016 et demandera des années supplémentaires si nécessaire, lorsqu’elles sont disponibles.

À qui les renseignements seront-ils demandés?

Cette demande de renseignements est présentée au ministère de l’Éducation de l’Ontario.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a besoin de ces renseignements pour créer et publier des statistiques agrégées sur l’éducation et pour effectuer des analyses précises et pertinentes au sujet de la transition des élèves du secondaire vers les études postsecondaires, les programmes d’apprentissage et le marché du travail. Cette tâche sera réalisée au moyen de l’intégration des données sur les élèves de la 9^e à la 12^e année du secondaire de l’Ontario aux données sur les étudiants postsecondaires et sur les apprentis ainsi qu’aux déclarations de revenus dans la Plateforme longitudinale entre l’éducation et le marché du travail (PLEMT).

Les décideurs, les chercheurs et les intervenants de l’industrie utiliseront ces renseignements pour éclairer les décisions sur les programmes offerts aux élèves, puisqu’ils permettront de mieux comprendre les parcours en éducation des élèves en Ontario, y compris les répercussions des études secondaires sur les résultats clés en matière d’éducation et sur le marché du travail.

Statistique Canada pourrait également utiliser les enseignements à d’autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le ministère de l'Éducation de l'Ontario est responsable de la collecte et de la mise à jour des données sur les élèves du secondaire (de la 9^e à la 12^e année) en Ontario.

Quand ces renseignements seront-ils demandés?

Avril 2024, avec des mises à jour ad hoc lorsque les nouvelles années sont disponibles.

Quand cette demande a-t-elle été publiée?

Le 18 janvier 2024

Résumé des changements

Février 2024 - Horaire pour recevoir de nouvelles données a été mise à jour. Il n'y a pas de changement au niveau de l'information requise.

Études postsecondaires

Programme canadien pour l'épargne-études (PCEE)

Quels sont les renseignements demandés?

Statistique Canada détient des dossiers administratifs sur les étudiants de niveau postsecondaire qui ont reçu de l'aide financière de 1998 à 2020 dans le cadre du Programme canadien pour l'épargne-études du ministère de l'Emploi et du Développement social. Ces dossiers administratifs contiennent des renseignements sur les personnes cotisant à un régime enregistré d'épargne-études (REEE), leurs bénéficiaires et les activités liées au régime (c.-à-d. les cotisations et les retraits).

Des renseignements à jour seront demandés pour 2021 et les années suivantes, dont toute nouvelle information sur la personne responsable de l'enfant pour chaque bénéficiaire du Bon d'études canadien (BEC), des renseignements supplémentaires sur l'admissibilité des bénéficiaires et leur réception de la Subvention canadienne pour l'épargne-études, et de nouveaux renseignements sur les fournisseurs de REEE.

Quels renseignements personnels sont inclus dans cette demande?

Aucun nouveau renseignement personnel ne sera demandé. Statistique Canada reçoit du ministère de l'Emploi et du Développement social des identificateurs personnels des étudiants, comme leur prénom, leur nom, leur numéro d'assurance sociale, leur genre, leur date de naissance, leur province, leur adresse et leur code postal. Ces renseignements sont nécessaires à la réalisation de couplages de données et sont utilisés à des fins statistiques seulement. Une fois que les données sont couplées, une clé anonymisée au niveau de la personne remplace les identificateurs personnels.

Quelles seront les années de données demandées?

Statistique Canada demandera des données pour l'année 2021 et les années suivantes, sur une base annuelle, ainsi que des fichiers révisés de 1998 à 2020.

À qui les renseignements seront-ils demandés?

Ces renseignements sont demandés au ministère de l'Emploi et du Développement social.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada demande des renseignements à jour afin d'établir les principaux indicateurs actuels en ce qui concerne l'épargne-études et d'effectuer des analyses précises et pertinentes en lien avec les résultats futurs au niveau postsecondaire et ceux sur le marché du travail des personnes qui ont reçu des incitatifs à l'épargne-études dans le cadre du Programme canadien pour l'épargne-études (PCEE).

Les décideurs, les chercheurs et les intervenants de l'industrie peuvent se servir des éléments d'information supplémentaires pour obtenir des renseignements plus utiles sur les bénéficiaires des régimes d'épargne, les subventions qu'ils ont reçues et les fournisseurs de régimes d'épargne responsables de la gestion de l'investissement tout au long de son cycle de vie. Cela permettra aux administrateurs du programme de mieux comprendre la portée du PCEE et l'utilité de ses services aux Canadiens. De plus, les administrateurs pourront élaborer de nouvelles approches novatrices visant à renforcer la participation aux incitatifs à l'épargne-études proposés par le programme. Statistique Canada peut en outre utiliser ces renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le Programme canadien pour l'épargne-études du ministère de l'Emploi et du Développement social est responsable de la collecte et de la tenue à jour des données liées aux transactions reçues de fiduciaires et de fournisseurs de régimes enregistrés d'épargne-études au Canada.

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés en 2022 et par la suite (annuellement).

Quand cette demande a-t-elle été publiée?

Le 3 août 2022

Programme canadien d'aide financière aux étudiants (PCAFE), anciennement le Programme canadien de prêts aux étudiants (PCPE)

Quels sont les renseignements demandés?

Statistique Canada demande des dossiers administratifs à jour sur le Programme canadien d'aide financière aux étudiants (PCAEF) à Emploi et Développement social Canada (EDSC).

Statistique Canada détient des dossiers administratifs sur les étudiants du niveau postsecondaire qui ont reçu de l'aide financière dans le cadre du PCAFE de 2003-2004 à 2015-2016. Ces dossiers administratifs comprennent des renseignements sur les caractéristiques démographiques des étudiants (p. ex. l'âge, le sexe, la province de résidence), l'établissement d'enseignement postsecondaire, l'inscription (p. ex. si l'étudiant était inscrit à un programme de génie), l'évaluation du besoin d'aide, le type et le montant de l'aide reçue et les renseignements sur le remboursement des prêts étudiants.

Statistique Canada demandera les dossiers administratifs à jour, y compris les nouveaux dossiers pour les années scolaires allant de 2016-2017 à 2019-2020.

Ces dossiers d'étudiants mis à jour contiendront des renseignements sur les trois étapes du cycle d'aide financière, y compris les subventions et les prêts, l'évaluation des besoins en matière de décaissement et, dans le cas des prêts, les remboursements. Les dossiers administratifs déjà reçus comprennent des renseignements supplémentaires sur les subventions et les prêts accordés. Les dossiers administratifs mis à jour contiendront des renseignements sur la période d'études, les nouveaux types de subventions disponibles pendant la période mise à jour et des détails sur le type d'aide au remboursement fournie.

Quels renseignements personnels sont inclus dans cette demande?

Statistique Canada a déjà reçu des identificateurs personnels du PCAFE, comme le prénom, le nom de famille, le surnom, le sexe, la date de naissance, la province, l'adresse et le code postal des étudiants. Ces renseignements sont nécessaires pour effectuer des couplages de données et sont utilisés à des fins statistiques seulement. Une fois les données couplées, une clé anonymisée au niveau de la personne remplace les identificateurs personnels.

Cette nouvelle demande comprendra l'acquisition d'identificateurs personnels supplémentaires, comme un numéro de téléphone, une adresse de courriel et un autre code postal, ce qui permettra d'améliorer les taux de couplage. Ces taux plus élevés aident à réduire le biais dans les résultats et à offrir des données plus exhaustives et de meilleure qualité.

Quelles seront les années de données demandées?

Statistique Canada demandera des données annuelles pour les années scolaires allant de 2016-2017 à 2019-2020, y compris les variables supplémentaires susmentionnées.

Les fichiers révisés de 2009-2010 à 2015-2016, y compris les variables supplémentaires, seront également demandés.

À qui les renseignements seront-ils demandés?

Ces renseignements sur le Programme canadien d'aide financière aux étudiants sont demandés à Emploi et Développement social Canada.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada demande les données administratives mises à jour sur le PCAEF afin d'obtenir des indicateurs clés opportuns sur l'aide financière et d'effectuer des analyses exactes et pertinentes liées aux études postsecondaires, aux programmes d'apprentissage et à la transition des étudiants au marché du travail.

Les renseignements sur les bénéficiaires de l'aide financière aux étudiants peuvent être utilisés par les décideurs, les chercheurs et les intervenants de l'industrie pour prendre des décisions sur les programmes destinés aux étudiants. L'accès à ces données permettra de mieux comprendre le cheminement scolaire et la situation d'emploi des bénéficiaires et des non-bénéficiaires de l'aide financière aux étudiants.

Statistique Canada peut également utiliser ces renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le Programme canadien d'aide financière aux étudiants est chargé de recueillir et de tenir à jour des données sur l'aide financière aux étudiants dans 10 provinces et territoires (Île-du-Prince-Édouard, Terre-Neuve-et-Labrador, Nouvelle-Écosse, Nouveau-Brunswick, Ontario, Manitoba, Saskatchewan, Alberta, Colombie-Britannique et Yukon).

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés en mars 2022 et par la suite (annuellement).

Quand cette demande a-t-elle été publiée?

Le 25 mars 2022

Renseignements sur le personnel d’enseignement à temps plein dans les universités canadiennes

Quels sont les renseignements demandés?

Statistique Canada demande que les renseignements suivants soient recueillis dans le cadre de l’enquête sur le Système d’information sur le personnel d’enseignement dans les universités et les collèges – Personnel enseignant à plein temps (SIPEUC-PT) : prénom, nom de famille et date de naissance.

Quels renseignements personnels sont inclus dans cette demande?

Cette demande contient des renseignements personnels comme le prénom, le nom de famille et la date de naissance du personnel d’enseignement à temps plein dans les universités canadiennes.

Ces renseignements sont nécessaires à la réalisation de couplages de données et sont utilisés à des fins statistiques seulement. Une fois les données couplées, les identificateurs personnels seront remplacés par une clé anonyme.

Pour obtenir de plus amples renseignements, consultez le Modernisation du Système d’information sur le personnel d’enseignement dans les universités et les collèges (SIPEUC) (projet pilote sur l’EDI et le personnel à temps partiel) – Supplément à l’Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada relative à la modernisation du SIPEUC.

Quelles seront les années de données demandées?

Données annuelles à partir de 2022 et les années suivantes.

À qui les renseignements seront-ils demandés?

Ces renseignements sont demandés à tous les établissements publics décernant des diplômes (universités publiques) au Canada.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a besoin de ces renseignements pour créer et publier des statistiques sur les diverses populations au sein du milieu universitaire canadien. Ces renseignements aideront les universités à faire un suivi de la représentation, à prendre des décisions éclairées au chapitre de la répartition équitable des fonds de recherches et à répondre aux besoins en matière de données des principales parties prenantes de l’enseignement postsecondaire, y compris Innovation, Sciences et Développement économique Canada, les trois organismes subventionnaires (le Conseil de recherches en sciences naturelles et en génie, le Conseil de recherches en sciences humaines et les Instituts de recherche en santé du Canada) ainsi que la Fondation canadienne pour l’innovation.

Statistique Canada peut aussi utiliser les renseignements à d’autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Les universités canadiennes ont la responsabilité de la collecte et de la tenue à jour des données sur les ressources humaines de leur établissement.

Quand ces renseignements seront-ils demandés?

Annuellement, à partir de décembre 2022.

Quels programmes de Statistique Canada utiliseront principalement ces données?

3101 : Système d'information sur le personnel d'enseignement dans les universités et les collèges - Personnel enseignant à plein temps (SPEUC-PT)

Quand cette demande a-t-elle été publiée?

Le 29 novembre 2022

Résumé des changements

Le 4 mars 2025 - De décembre 2022 à juin 2024, Statistique Canada a collaboré avec huit universités canadiennes pour combler des lacunes statistiques dans le programme du SIPEUC. Pour cette étude de faisabilité, Statistique Canada a demandé des renseignements sur le personnel d’enseignement à temps partiel et contractuel, ainsi que des renseignements sur l’identité autochtone, les groupes racisés (minorités visibles), l’incapacité autodéclarée et l’orientation sexuelle.

Statistique Canada a déterminé que la collecte de données sur le personnel d’enseignement à temps partiel et contractuel est faisable et pourrait être envisagée dans le cadre de futurs efforts de collecte de données.

Toutefois, les établissements ont éprouvé des difficultés à fournir les données demandées portant sur la diversité. Une analyse plus approfondie serait nécessaire si Statistique Canada souhaitait intégrer ces données dans une demande de données administratives à l’avenir.

Par conséquent, la demande de renseignements mise à jour concerne l’ajout de renseignements nominaux (prénom, nom de famille et date de naissance) sur le personnel d’enseignement à temps plein uniquement. Ces informations seront couplées avec les données du recensement afin d’obtenir les caractéristiques liées à la diversité et d’estimer la représentation au sein du personnel d’enseignement.

Géographie

Suivez :

Inscrivez-vous à Mon StatCan pour obtenir des informations en temps réel.

En vedette

Produits

Produits d'information spatiale

Cartes interactives

Cartes thématiques

Cartes de référence

Produits d'information des attributs

Formation, concepts et classifications

Documentation et guides de référence

Infographies

Accédez à la section sur la géographie du Dictionnaire du recensement

Le Dictionnaire du recensement : Index pour Géographie fournit l'information sur toutes les étapes du Recensement de la population, y compris les concepts, les univers, les variables et les termes géographiques, ainsi que les renseignements historiques pour faciliter la comparaison des variables entre les années de recensement.

Recensement de l'agriculture

Le Recensement de l'agriculture offre un portrait statistique de l'industrie de l'agriculture canadienne ainsi que des exploitants agricoles et de leur famille.

GéoSuite

Avec GéoSuite, les utilisateurs peuvent récupérer et interroger des données, explorer les liens entre les régions géographiques, obtenir des informations sur ces régions et produire des données sous forme de tableaux

Balados

Balado Hé-coutez bien!

Suivez :

Inscrivez-vous à Mon StatCan pour obtenir des informations en temps réel.

Animatrice : Annik Lepage

Soyez à l'écoute du balado Hé-coutez bien! pour faire la connaissance des personnes derrière les données et découvrir les histoires qu'elles révèlent. Soyez des nôtres alors que nous rencontrons des experts de Statistique Canada ainsi que de partout au pays pour leur poser les questions qui comptent pour les Canadiens et entendre leur réponses.

Épisodes

Épisode 24 - Que faut-il faire pour sortir de l’itinérance?

Qu’est-ce qui aide quelqu’un à passer de l’itinérance à la vie en logement?

Nous examinons une nouvelle analyse des données de l’Enquête canadienne sur le logement pour aborder cette question. Lors d’une conversation avec Sylvie Corbin, directrice de la philanthropie à la Mission d’Ottawa et Jean-Philippe Deschamps-Laporte, directeur adjoint dans la division responsable des questions de revenus et de logements à Statistique Canada, nous nous demandons pourquoi l’itinérance (et les données sur l’itinérance!) est plus complexe qu’on ne le pense, quels sont les facteurs qui mènent le plus souvent à la récupération d’un logement et pourquoi il peut être difficile de conserver un logement même après l’avoir récupéré.

Épisode 23 - Cartographie du bonheur : Comment l'endroit où nous vivons influence notre bien-être

Vous n'êtes peut-être pas surpris d'apprendre que vos relations avec vos amis et votre famille influencent votre bien-être. Il en va de même pour votre santé et votre travail. Mais qu'en est-il du lieu où vous vivez ? Que vous viviez dans le centre-ville d'une grande ville, dans une ville de banlieue ou dans une communauté rurale, quel impact cela a-t-il sur votre satisfaction de vivre, votre solitude et votre sentiment d'appartenance ? Lauren Pinault, de StatCan, nous rejoint aujourd'hui au micro pour explorer comment les lieux où nous vivons influencent notre bien-être.

Épisode 22 - Votre entreprise peut-elle déjouer un pirate informatique?

De nouvelles données de l’Enquête canadienne sur la cybersécurité et le cybercrime ont été diffusées. Dans cet épisode, nous nous sommes entretenus avec Howard Bilodeau, économiste à Statistique Canada, qui a répondu à nos questions sur l’évolution de la cybersécurité pour les entreprises et sur ce que cela signifie pour chacun et chacune d’entre nous.

Épisode 21 - L’intelligence artificielle va-t-elle voler votre emploi?

L'intelligence artificielle est là et elle ne va pas disparaître. Des applications telles que ChatGPT nous permettent désormais d'effectuer des tâches complexes en cliquant sur un bouton.

À mesure que nous commençons à utiliser ces nouvelles versions de l'IA, nos emplois sont destinés à changer. À quoi ressemblera une journée de travail moyenne dans dix ans? Quels sont les emplois sur lesquels l'IA aura le plus d'impact? Et l'IA est-elle sur le point de remplacer complètement nos emplois?

Dans cet épisode, nous avons rencontré l'expert en IA Tahsin Mehdi, économiste à la division de l'analyse sociale et de la modélisation de Statistique Canada, pour répondre à nos questions sur la façon dont l'IA transformera notre vie professionnelle au Canada.

Épisode 20 - Les économistes tirent la sonnette d'alarme sur la productivité

La main-d'œuvre du Canada est l'une des plus scolarisées au monde, mais nous avons assisté à une réelle baisse de la productivité des travailleurs au cours des dernières années. Les données trimestrielles publiées par StatCan en juin 2024 confirment que les travailleurs canadiens continuent d'être moins performants que leurs voisins du Sud. Cette constatation ne surprend pas notre invitée Elizabeth Richards, économiste à StatCan. Les plus récents chiffres trimestriels confirment d'ailleurs la baisse continue de la productivité au Canada, que les économistes surveillent depuis des années.

Quels sont donc les facteurs qui ont une incidence sur la productivité des travailleurs? Et en quoi le fait que les Canadiens soient moins productifs est-il important? En fait, qu'est-ce que la productivité? Dans cet épisode, nous avons demandé à Elizabeth de nous aider à comprendre comment nous en sommes arrivés là et pourquoi les Canadiens devraient s'intéresser à cette question.

Épisode 19 - Pas facile d'être écolo!

Nous pouvons faire de notre mieux, mais il n'est pas toujours facile de savoir ce qui est le mieux pour l'environnement. Notre monde est fort complexe et être vert ne se résume pas à réduire, réutiliser et recycler, bien qu'il s'agisse d'un bon point de départ!

Pour reprendre les mots immortels de Kermit la grenouille, « ce n'est pas facile d'être vert ».

C'est le thème que nous explorons dans cet épisode, divisé en deux segments. Dans le premier segment, que nous avons réalisé à l'interne, nous discutons de la mesure dans laquelle notre monde numérique est réellement vert. Dans le second, qui est tiré du balado Simply Science, nous découvrons le monde fabuleux des forêts urbaines.

Épisode 18 - Décortiquer l'inflation alimentaire: pas si simple!

Avez-vous l'impression qu'il est un peu plus difficile de mettre du pain sur la table? Les dernières données indiquent que les prix des aliments se sont en grande partie stabilisés... Mais pourquoi avons-nous l'impression qu'il est de plus en plus coûteux de nourrir notre famille? Aujourd'hui, nous discutons de l'inflation alimentaire avec Annie De Champlain, de Statistique Canada.

Épisode 17 - Que font vos enfants en ligne? Le savez-vous vraiment?

StatCan a publié une nouvelle analyse de la culture en ligne dans laquelle grandissent nos enfants, et celle-ci est loin de représenter le meilleur des mondes possibles : mésinformation, intimidation, violence... et pire encore. Samuel Perreault se joint à nous pour analyser les résultats de cette étude.

Épisode 16 - Comment dit-on « revitalisation linguistique » en cri?

Dans cet épisode, nous nous entretenons avec Randy Morin et Belinda kakiyosēw Daniels, qui partagent leurs connaissances de la langue crie avec les apprenants du Nêhiyawak Language Experience, au sujet de la sagesse encodée dans les langues autochtones, ainsi que des possibilités offertes par ces langues et des obstacles auxquels elles sont confrontées.

Épisode 15 - Moins de mésinformation, plus de vérité, s'il vous plaît!

À l'ère des médias sociaux, de l'IA et de l'hypertrucage, il est primordial de savoir discerner les faits des faux renseignements. Aujourd'hui, nous n'avons plus nécessairement pour principale source d'information le bulletin de nouvelles télévisé de 18 h. Amis, famille, chercheurs, influenceurs, artistes, chefs d'antenne, annonceurs… Qui croire?

Épisode 14 - Ça c'est mon genre : un recensement qui ne mégenre pas

Dans cet épisode, nous explorons les questions sur le genre avec le drag king Cyril Cinder, et nous parlons du Recensement de 2021 avec Laurent Martel de StatCan.

Épisode 13 - À la recherche du 40 millionième Canadien!

Le Canada a franchi une étape importante le 16 juin 2023. Pour la première fois, 40 millions de personnes vivaient au Canada. Cela signifie que quelqu'un est le 40 millionième Canadien. Mais de qui s'agit-il?

Épisode 12 - Dans un film sur l'économie, l'inflation est-elle le méchant?

Guy Gellatly, conseiller économique en chef à Statistique Canada, se joint à nous pour démystifier l'IPC et répondre à nos questions au sujet de l'économie. Quel est le taux d'inflation idéal? Une inflation nulle, est-ce quelque chose qu'on devrait viser? Et qu'est-ce qu'une spirale déflationniste?

Épisode 11 - Oui aux maisons écologiques, non aux émissions

Andrew DeFazio, Conseiller du Bureau de changement climatique à SCHL, se joint à nous pour discuter comment adopter une stratégie climatique qui tient compte de nos habitations et adapter notre stratégie de logement au climat.

Épisode 10 - Pourquoi n'avons-nous pas encore mis fin à la pauvreté?

À une époque, Statistique Canada ne mesurait pas la pauvreté, pas exactement en tout cas. La pauvreté est complexe et personne ne s'entendait sur la manière de la définir. Par conséquent, même si StatCan mesurait bien le faible revenu et d'autres indicateurs de l'inégalité des revenus, il ne mesurait pas la pauvreté à proprement parler. Ce fut le cas jusqu'en 2018, lorsque la mesure du panier de consommation (MPC) est devenue le seuil de pauvreté officiel du Canada. Cela signifie que le gouvernement se sert maintenant de la MPC pour effectuer le suivi de ses cibles de réduction de la pauvreté.

Épisode 9 - Sylvia Ostry : Les leçons d'une légende

Nous soulignons le 50e anniversaire de la nomination de Sylvia Ostry au poste de statisticienne en chef. Dans cet épisode du balado « Hé-coutez bien », où vous entendez des entrevues avec ses fils Adam et Jonathan Ostry, nous sommes ravis de vous présenter cette femme remarquable et de vous donner huit conseils inspirés de sa vie.

Épisode 8 - Hé mec! Où est mon semi-conducteur?

Au cours des dernières années nous avons pu observer à de nombreuses reprises des interruptions de services, des fermetures et des retards. On peut toutefois se demander quelle est la véritable cause de ces perturbations, et en quoi consiste au juste la fameuse chaîne d'approvisionnement dont tout le monde parle?

Épisode 7 - Consultation santé? Visite branchée!

Les soins de santé virtuels étaient chose très rare avant la pandémie de COVID-19; par contre, dès que celle-ci s'est déclarée, en mars 2020, les Canadiens n'ont eu d'autre choix que de revoir la façon dont ils accèdent aux soins de santé. Le docteur Yanick Beaulieu, cardiologue-intensiviste, pionnier et innovateur dans le domaine des soins virtuels, se joint à nous pour mettre en lumière les éléments qui peuvent faire obstacle à la prestation de soins de santé virtuels, les changements survenus pendant la pandémie et les mesures prises pour faire des soins virtuels une réalité permanente plutôt qu'une mesure provisoire associée à la COVID-19.

Épisode 6 - Créés égaux

Dans cet épisode, nous avons voulu porter un regard critique sur la manière dont les préjugés qui nourrissent le racisme systémique peuvent avoir un effet même sur les éléments les plus neutres : nos données. Les données ont la réputation de refléter la réalité de la manière la plus factuelle possible, mais est-ce toujours le cas?

Épisode 5 - Pourquoi devriez-vous vous préoccuper de l'inflation?

Notre invité, Clément Yélou, un économiste de Statistique Canada, nous parle des raisons pour lesquelles vous devriez vous préoccuper de l'inflation et de ses répercussions sur différents groupes de population et sur le coût de la vie.

Épisode 4 - Les gagnants et les perdants de l'économie à la demande

Le quatrième épisode d'Hé-coutez bien! porte sur le marché florissant des petits boulots et de leur place dans un contexte d'emploi changeant de flexibilité et d'instabilité.

Épisode 3 - L'art de l'artisanat au Canada

Dans cet épisode, nous parlons de l'artisanat au Canada, de sa renaissance et de sa nécessité.

Épisode 2 - Au bord de l'effondrement : les répercussions de la COVID-19 sur les familles canadiennes

Dans cet épisode, nous explorons certaines des répercussions de la COVID-19 sur les familles canadiennes.

Épisode 1 - Parlons des obstacles, pas des incapacités : les limitations d'activités et la COVID-19

Ce premier épisode du balado Hé-coutez bien! comprend une discussion sincère sur le fait de vivre avec une incapacité dans le contexte de la pandémie de COVID-19. On discute des réalités des personnes ayant une incapacité, de leurs défis et de tous les changements que la pandémie a entraînés dans leur quotidien.

Semaine nationale de l'accessibilité 2021

De nouveaux obstacles et de nouvelles libertés : une conversation avec le champion des personnes handicapées à StatCan.

S'abonner à

Date de modification :: 2025-04-08