Projets en science des données

La science des données joue un rôle important à Statistique Canada. Dans l'ensemble de l'organisme, de nouvelles méthodes de science des données sont utilisées pour rendre nos projets plus efficaces et fournir de meilleurs renseignements sur les données aux Canadiens.

Projets par catégorie

Pour obtenir de plus amples renseignements sur les projets en science des données à Statistique Canada, veuillez communiquer avec le Centre de la science des données.

Traitement du langage naturel

Détection d'événements et indicateurs de sentiment

Statistique Canada est en train de développer un outil pour détecter des événements économiques précis en analysant des millions d'articles de presse. Cet outil utilise des algorithmes d'apprentissage automatique pour chercher et résumer l'information contenue dans les articles et organiser les données dans un tableau de bord informatif. Le temps autrefois consacré à la recherche peut maintenant être consacré à étudier les raisons pouvant expliquer ces changements économiques.

L'organisme explore aussi le développement d'indicateurs de sentiment pour mesurer les tendances économiques et leurs liens avec des variables économiques clés. Fondés sur des interprétations positives et négatives d'articles de presse portant sur l'économie, ces indicateurs peuvent permettre aux experts en la matière d'acquérir une meilleure connaissance des tendances économiques, selon l'industrie, et de contribuer à la publication d'indicateurs économiques en temps quasi réel.

Données de lecteurs optiques sur le commerce de détail

Statistique Canada publie la quantité totale des produits vendus, classés selon le Système de classification des produits de l'Amérique du Nord (SCPAN). De grandes bases de données de lecteur optique sont actuellement disponibles auprès des principaux détaillants et contiennent des millions d'enregistrements. Auparavant, un code du SCPAN était attribué aux produits au moyen d'un codage fondé sur un dictionnaire, combiné à du codage manuel au besoin, en fonction de leur description et d'autres indicateurs. Statistique Canada utilise un modèle de classification de données textuelles par apprentissage automatique permettant de regrouper, selon le SCPAN, l'ensemble des descriptions de produits présentes dans les données de lecteur optique et d'obtenir le montant des ventes cumulées selon la région. Ce modèle a permis d'obtenir un niveau accru d'automatisation, ainsi que des données sur le commerce de détail précises et détaillées, et de réduire le fardeau de réponse des principaux détaillants.

Classification des commentaires sur l'Enquête sur les inconduites sexuelles dans les Forces armées canadiennes

Les scientifiques des données de Statistique Canada ont créé un modèle d'apprentissage automatique visant à classer automatiquement les commentaires électroniques des répondants du Sondage sur les inconduites sexuelles dans les Forces armées canadiennes (SISFAC). Le SISFAC nécessitait une automatisation afin de classer les commentaires des répondants en cinq catégories : « récit personnel », « négatif », « positif », « conseil relatif au contenu » et « autre ». Le modèle d'apprentissage automatique a permis de coder 6 000 commentaires pour le premier cycle du sondage de 2018 et d'obtenir un taux de précision de 89 % pour les commentaires en français et en anglais. Cette méthode sera utilisée dans le cas d'autres enquêtes de Statistique Canada.

Classification des commentaires sur le Recensement de 2021

Statistique Canada a élaboré un algorithme d'apprentissage automatique pour classer 1,8 million de commentaires des répondants en français et en anglais provenant du Recensement de 2021. Cet algorithme classe rapidement et objectivement les commentaires dans différentes catégories. Le modèle s'inspire des commentaires formulés lors du Recensement de 2016 et lors du Test du recensement de 2019. Les commentaires des répondants sont utilisés pour appuyer la prise de décisions au sujet de la détermination du contenu pour le prochain recensement et pour surveiller des facteurs tels que le fardeau de réponse. Veuillez visiter la Classification des commentaires sur le Recensement de 2021 pour obtenir de plus amples renseignements sur ce projet.

Modélisation thématique dynamique de la Base canadienne de données des coroners et des médecins légistes (BCDCML)

Statistique Canada a conçu et déployé un système de modélisation thématique dynamique. Ce système utilise les données de la BCDCML pour détecter les nouveaux textes narratifs portant sur les causes de décès. L'objectif est de fournir aux analystes des tendances relatives des décès au fil du temps. Pour obtenir de plus amples renseignements, veuillez visiter la Modélisation thématique et modélisation thématique dynamique : Une revue technique.

Classification de texte du Système canadien de déclaration des exportations

L'Agence des services frontaliers du Canada (ASFC) et Statistique Canada ont récemment mis au point un nouvel outil de déclaration en ligne pour les exportateurs canadiens à destination de pays autres que les États-Unis, appelé le Système canadien de déclaration des exportations (SCDE). Le SCDE exige qu'un exportateur saisisse lui-même le code du Système harmonisé (SH) de ses marchandises, en plus d'une description textuelle supplémentaire pour fournir plus de renseignements destinés à l'ASFC. La Division de la science des données, en partenariat avec la Division du commerce et des comptes internationaux (DCCI), a élaboré un modèle d'apprentissage automatique à l'aide de FastText pour classer les descriptions supplémentaires des marchandises exportées selon les codes du SH, afin que la DCCI puisse les utiliser pour valider les codes autosaisis du SH fournis par les exportateurs. L'ajout de cette validation est motivé par le fait que l'analyse des données des systèmes précédents a révélé des incohérences entre la description du produit et le code choisi par l'exportateur. Avec la transition vers le SCDE, la production de rapports électroniques est devenue obligatoire et peut entraîner une augmentation des cas présentant de telles incohérences, ce qui explique la raison pour laquelle une solution automatisée d'examen est en cours d'élaboration.

Classification d'images

Classification des cultures en cours de saison

Surveiller la production des exploitations agricoles au Canada constitue un processus important, mais très coûteux. Les enquêtes et les inspections en personne requièrent beaucoup de ressources, et l'approche actuelle pour prédire le rendement des cultures prend beaucoup de temps. Pour ces raisons, Statistique Canada est en train de moderniser la classification des cultures en utilisant une approche de classification fondée sur les images. Un pipeline automatisé est utilisé pour télécharger et traiter l'imagerie satellitaire Landsat-8 disponible gratuitement, tout au long de la saison des récoltes.

Il est possible de prédire les types de cultures au moyen de l'imagerie satellitaire et de l'utilisation des réseaux neuronaux. Les nouvelles estimations du modèle sont ensuite utilisées pour mettre à jour une base de données, ce qui permet aux utilisateurs finaux d'obtenir les estimations les plus récentes, tout au long de la saison des récoltes. Les premiers résultats indiquent que cette méthode est beaucoup plus rapide et qu'elle permettra de réduire le fardeau de réponse des exploitants agricoles, surtout pendant les périodes très achalandées de l'année.

Détection géospatiale des mises en chantier grâce aux images satellites

La Société canadienne d'hypothèques et de logement effectue le suivi des mises en chantier et des projets de construction de bâtiments résidentiels partout au Canada, et les résultats qui en découlent sont utilisés par Statistique Canada pour étalonner les estimations de son programme d'investissement en construction de bâtiments. Statistique Canada a utilisé diverses méthodes de science des données pour détecter les travaux de construction à partir d'images satellites, comme l'augmentation des images pour diversifier et améliorer l'ensemble de données. Ces méthodes ont permis aux scientifiques des données de détecter l'aire de l'immeuble aux étapes de préfondation et de fondation. Le processus de préfondation consiste à créer des fondations et des dalles de béton pour soutenir les murs de fondation, y compris l'excavation. La fondation fait partie d'un système structurel qui soutient et ancre la superstructure d'un bâtiment. La construction et l'évaluation du modèle d'intelligence artificielle ont nécessité le traitement de plus de 1 400 km2 d'images à résolution de 50 cm, sur de nombreux mois, pour lesquels un pipeline de traitement hautement évolutif et efficace a été créé. Les algorithmes d'intelligence artificielle élaborés pourraient éventuellement mener à l'obtention de données plus précises et plus opportunes, tout en aidant à éliminer les lacunes existantes en matière de données pour le secteur non résidentiel et pour les collectivités petites ou éloignées, exclues de l'enquête actuelle.

Détection des serres agricoles grâce aux images aériennes

Le projet de serres a utilisé des données d'observation de la Terre pour détecter les serres et mesurer leur superficie totale au Canada, en plus d'offrir une validation de principe pour déterminer notre capacité de classer les serres en fonction de leurs produits cultivés à l'intérieur et du type de serres elles-mêmes (verre ou couverture en plastique). Afin de produire des estimations plus opportunes et de réduire les besoins de répondre à l'enquête, les scientifiques des données de Statistique Canada s'emploient à automatiser le processus d'identification à l'aide de l'apprentissage automatique, de sources de données administratives et d'autres technologies, comme l'imagerie par satellite et l'imagerie aérienne à haute résolution.

Extraction de PDF

Extraction des variables économiques des rapports financiers

Statistique Canada a utilisé la science des données pour extraire des renseignements à partir de documents en format PDF et d'autres documents, d'une manière plus rapide et efficace. Par exemple, Statistique Canada a mené des expériences avec l'ensemble de données historiques du Système électronique de données, d'analyse et de recherche (SEDAR), un système utilisé par les sociétés canadiennes cotées en bourse pour déposer des documents sur les valeurs mobilières auprès de diverses autorités des valeurs mobilières canadiennes.

Pour accroître l'efficacité de ce processus, les scientifiques des données de Statistique Canada ont développé un pipeline d'apprentissage automatique de pointe qui repère et extrait correctement les variables financières clés (p. ex. le total de l'actif) à partir du tableau approprié (p. ex. le bilan) dans les états financiers annuels d'une entreprise. L'algorithme utilisé pour l'extraction de tableaux appelé Spatial Layout-based Information and Content Extraction (SLICE [en anglais seulement]) a été élaboré au sein de Statistique Canada et est offert en source ouverte en vertu d'une licence MIT. SLICE est un algorithme de vision informatique unique qui utilise simultanément des informations textuelles, visuelles et de mise en page pour segmenter les pages dans une structure tabulaire. Le pipeline transforme donc une grande quantité de documents publics non structurés provenant du SEDAR en ensembles de données structurées, permettant ainsi l'automatisation de l'extraction de renseignements relatifs aux entreprises canadiennes. Cette approche réduit considérablement les heures d'efforts manuels consacrées à la détermination et à la saisie des renseignements requis et réduit la redondance des données au sein de l'organisation en fournissant une solution à entrée unique pour accéder à l'information.

Extraction de fichiers PDF numérisés à la Division de la statistique du secteur public

La Division de la statistique du secteur public (DSSP) de Statistique Canada reçoit les états financiers des gouvernements provinciaux et de leurs municipalités respectives sur une base trimestrielle et annuelle. Ces états sont sous format PDF numérisé et en format de texte. Ces documents stockent des renseignements précieux dans des tableaux. Chaque ligne du tableau contient des valeurs numériques qui doivent être extraites manuellement et stockées dans une base de données pour une analyse plus approfondie, mais ce processus manuel est long et sujet à des erreurs humaines. Les scientifiques des données de Statistique Canada ont élaboré une validation de principe qui consiste à extraire des données financières à partir des états financiers déclarés, à l'aide d'un algorithme d'apprentissage automatique interne, et à les afficher dans un format tabulaire qui peut être modifié par les analystes. De plus, les données sont codées automatiquement et les relevés des valeurs numériques de l'année précédente et de l'année en cours sont fournis. Lorsque le projet passera en production, il réduira la redondance des données au sein de l'organisation en fournissant une solution à entrée unique pour accéder à l'information, et, de plus, il permettra d'économiser des heures d'efforts manuels pour identifier et saisir les renseignements requis par les analystes de la DSSP.

Analyses prédictives

Prévisions immédiates des indicateurs économiques

De nombreuses initiatives de Statistique Canada visent à établir des estimations en temps quasi réel et à produire des indicateurs avancés pour bon nombre des principales séries de données de l'organisme. Dans le cadre du programme d'investissement en construction de bâtiments, les valeurs des permis de construction sont une série clé pour laquelle un indicateur précoce pourrait être produit au moyen de prévisions immédiates. Pour faciliter l'effort, un environnement infonuagique analytique a été créé. Il permet aux analystes de tirer parti des données externes en temps opportun et des modèles de séries chronologiques avancés. Une vaste base de données de séries chronologiques comportant des séries chronologiques économiques (tirées des programmes de Statistique Canada), des données ouvertes externes, des données de capteurs de température et des données sur le marché boursier a été créée. Cet environnement pourrait potentiellement ouvrir la voie à un système de prévision immédiate généralisé au sein de Statistique Canada. Une analyse exploratoire a été effectuée pour appliquer les modèles de prévisions immédiates, y compris ARIMA-X, PROPHET et l'algorithme d'apprentissage automatique XGBoost dans la prévision immédiate de plusieurs indicateurs économiques, y compris les valeurs mensuelles des permis de construction. Il a été constaté que ARIMA-X et PROPHET avaient un rendement similaire en termes d'erreur moyenne en pourcentage absolu et d'exactitude directionnelle moyenne, alors que le rendement de XGBoost avec des données ouvertes externes n'était pas aussi performant.

Prédictions du rendement des cultures

Statistique Canada a récemment terminé un projet de recherche pour la Série de rapports sur les grandes cultures (SRGC) portant sur l'utilisation de l'apprentissage automatique, plus particulièrement les techniques de régression supervisée, pour la prédiction du rendement des cultures en début de saison. L'objectif était d'étudier si cette approche pourrait être utilisée pour améliorer la précision de la méthode de prédiction du rendement des cultures existante, tout en réduisant le fardeau de réponse à l'enquête pour les exploitants agricoles très occupés. La principale contribution du projet de recherche consistait à adapter la validation de la fenêtre mobile progressive (VFMP) en tant que protocole de validation. La VFMP est un cas particulier de validation progressive, une famille de protocoles de validation conçus pour éviter la fuite de renseignements temporels pour l'apprentissage supervisé à partir de données de série chronologique. Notre adaptation de la VFMP a permis d'établir un protocole de validation personnalisé qui reflète de façon réaliste le contexte de production statistique de la SRGC. Veuillez visiter Utilisation de l'apprentissage automatique pour prédire le rendement des cultures pour plus de détails sur le côté technique de ce projet.

Prévisions d'occupation des hôpitaux

Les scientifiques des données de Statistique Canada contribuent à la lutte contre la COVID-19 en élaborant des prévisions à court terme sur l'occupation des hôpitaux, à partir de deux entrées quotidiennes tirées des données de l'hôpital d'Ottawa à titre de test. Les entrées représentent le nombre quotidien de nouvelles admissions à l'hôpital et le dénombrement des patients hospitalisés à minuit. Les prévisions d'admission sont déterminées à l'aide de deux modèles bayésiens hiérarchiques. La première entrée modélise le délai aléatoire entre l'événement non observé d'infection par la COVID-19 et l'admission à l'hôpital, pour le sous-groupe des personnes infectées qui seront hospitalisées en raison de la COVID-19. La deuxième entrée modélise le délai aléatoire entre l'admission à l'hôpital et le congé ou le décès.

Une série de 25 semaines consécutives de prévisions simulées fondées sur des données réelles a été effectuée pour évaluer l'efficacité du modèle de prévision. Les bandes crédibles qui en ont résulté, d'une part, englobaient systématiquement le nombre réel d'hospitalisations dans la semaine qui a suivi les limites respectives des données de formation et, d'autre part, étaient suffisamment étroites pour être informatives. Les résultats de ce projet suggèrent fortement la faisabilité de prévisions précises et informatives en matière d'hospitalisation au niveau de la municipalité, à condition que des données opportunes sur les admissions à l'hôpital et les congés et les décès soient disponibles.

Centres pandémiques à risque élevé

Les scientifiques des données de Statistique Canada ont créé un projet de recherche à l'aide d'un cadre général d'apprentissage automatique pour déterminer et prédire les régions sanitaires qui pourraient être considérées comme vulnérables ou à risque élevé d'augmentation des taux d'infection à la COVID-19. En déterminant ces régions, les autorités sanitaires fédérales et provinciales seraient en mesure de détourner des ressources de santé publique telles que l'équipement de protection individuelle, ou les travailleurs de première ligne affectés aux régions à faible risque, vers les régions à risque plus élevé. Cela permettrait également de contenir plus rapidement les cas dans les zones à risque plus élevé grâce à des mesures de suivi et de quarantaines des contacts. Cet effort a également contribué à la création d'un tableau de bord interactif qui pourrait permettre aux utilisateurs de surveiller les cas et les décès liés à la COVID-19 au niveau de la région sociosanitaire et de faire un choix parmi plusieurs modèles et approches de prédiction des risques.

Utilisation de la modélisation épidémiologique liée à la COVID-19 pour fournir des renseignements sur l'offre et la demande d'équipement de protection individuelle au Canada

Au début de la pandémie, on s'inquiétait de l'état de préparation en lien avec l'équipement de protection individuelle (EPI) au Canada et l'on se demandait s'il y avait suffisamment d'approvisionnement pour soutenir le secteur des soins de santé et d'autres secteurs de l'économie tout au long de la pandémie. En réponse à ce besoin émergent, Statistique Canada a adapté un modèle épidémiologique existant afin de permettre aux décideurs de mettre à l'épreuve l'offre d'EPI en fonction de divers scénarios épidémiologiques. Les projections produites à partir de ce modèle épidémiologique ont été utilisées par le modèle de l'offre et de la demande de l'EPI pour comparer les approvisionnements en stock et les approvisionnements entrants aux projections de la demande sur douze mois. Pour obtenir de plus amples renseignements, veuillez visiter la Modélisation de la dynamique du SRAS-CoV-2 pour prévoir la demande D'EPI.

Politique de distanciation physique optimale grâce à l'apprentissage par renforcement

Les scientifiques des données de Statistique Canada ont collaboré avec l'Agence de la santé publique du Canada pour élaborer un nouveau cadre de modélisation épidémiologique optimisant les interventions non pharmaceutiques à l'aide de l'apprentissage par renforcement. Ce modèle détermine la combinaison optimale de comportements à mettre en œuvre dans la population pour réduire la propagation d'une infection dans le cadre de simulations. Veuillez visiter le blog sur les Interventions non pharmaceutiques et apprentissage par renforcement pour plus de détails sur le côté technique de ce projet.

Recherche

Le premier projet d'apprentissage automatique quantique de Statistique Canada : une collaboration avec l'Université de Sherbrooke

L'informatique quantique — une nouvelle méthode de calcul qui repose sur les principes de la mécanique quantique pour stocker et traiter l'information — est très prometteuse en tant que solution pour les processus et algorithmes lourds en termes de calcul. De plus en plus, les gouvernements et les grandes entreprises s'efforcent d'évaluer la façon dont l'informatique quantique changera leurs activités dans un avenir proche.

Depuis juin 2021, Statistique Canada collabore avec l'Université de Sherbrooke pour explorer le potentiel de l'informatique quantique et cerner les occasions qu'offre cette nouvelle technologie dès les premières étapes de son développement. Ce projet d'une durée de six mois constitue la première collaboration entre Statistique Canada et l'Espace quantique, à l'Institut quantique (IQ) de l'Université de Sherbrooke. L'Espace quantique offre à ses membres un accès infonuagique à des systèmes informatiques quantiques sophistiqués, ainsi qu'à une communauté d'experts pour les assister dans leurs projets de recherche en informatique quantique.

Le projet de Statistique Canada permettra d'explorer différentes possibilités d'optimisation de ses processus d'apprentissage automatique et de classification de textes. Il permettra également d'étudier la façon dont l'informatique quantique pourrait être utilisée pour favoriser l'atteinte de son objectif de fournir des données et des renseignements de haute qualité à la population canadienne en s'appuyant sur cette technologie.

Chiffrement homomorphe

La sécurité des données demeure l'une des priorités les plus élevées de Statistique Canada. Nos scientifiques des données forment un classificateur de texte pour l'apprentissage automatique, de sorte que celui-ci utilise le chiffrement homomorphique pour protéger les données pendant qu'elles sont traitées. Les données sont protégées en deux points. Le premier point, situé à leur point d'ingestion, permet de traiter les fichiers de données à distance ou sur le nuage. Le deuxième point se situe à leurs points de diffusion – cette approche permet aux chercheurs externes accrédités dans les laboratoires virtuels d'avoir accès à plus de données de façon sécuritaire. L'utilisation du chiffrement homomorphique non seulement assure la protection des données, mais sert aussi de solution pour la sous-traitance du calcul. Veuillez visiter Une brève enquête sur les technologies liées à la protection de la vie privée pour obtenir de plus amples renseignements sur le chiffrement homomorphique et d'autres approches de protection de la vie privée.

Une nouvelle méthode d'estimation pour les échantillons non probabilistes

Les échantillons probabilistes permettent une estimation fiable des caractéristiques de la population et sont utilisés avec succès dans les statistiques depuis de nombreuses décennies. Toutefois, en raison de l'augmentation des coûts et de la baisse des taux de réponse, les chercheurs ont commencé à élaborer une théorie pour une estimation fiable fondée sur d'autres sources de données. Les échantillons non probabilistes, comme les panels volontaires sur le Web, sont souvent relativement faciles et peu coûteux à obtenir, mais peuvent subir un biais d'autosélection grave lorsque les techniques d'estimation traditionnelles ne peuvent pas être appliquées. Pour y remédier, les chercheurs de Statistique Canada ont élaboré nppCART, une nouvelle méthode d'estimation pour les échantillons non probabilistes. nppCART tente de corriger le biais d'autosélection en intégrant des renseignements additionnels provenant d'un échantillon probabiliste auxiliaire. nppCART est une variante de l'algorithme bien connu de l'arbre de classification et de régression et peut être considérée comme une méthode non paramétrique. Elle a été conçue dans l'espoir que sa nature non paramétrique pourrait être plus utile en présence de non-linéarité ou d'interactions complexes entre les variables prédictives que les techniques existantes d'estimation d'échantillons non probabilistes. Veuillez visiter le Congrès annuel de 2019 à Calgary pour les ressources sur ce projet.

Cadre

Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable

L'apprentissage automatique fait de plus en plus partie intégrante de nombreux projets à Statistique Canada. Les scientifiques des données cherchent à mettre en œuvre un cadre pour que les processus d'apprentissage automatique et les applications d'intelligence artificielle qui passent à la production utilisent ces techniques de manière responsable. Le cadre comprend une évaluation du projet au moyen d'une liste de vérification, suivie d'un examen par les pairs du projet. En guise de dernière étape, la méthodologie est présentée au Comité d'examen scientifique. L'objectif de ce projet est d'établir un processus de revue qui permet de s'assurer que des processus responsables d'apprentissage automatique sont mis en production tout en faisant la promotion de bonnes pratiques et de pratiques éthiques de la science des données. Ce cadre guidera également les scientifiques des données dans l'élaboration de nouveaux projets. Pour plus de renseignements, veuillez visiter la page Utilisation responsable de l'apprentissage automatique à Statistique Canada.