Charges de travail protégées dans le nuage public

Par : Reginald Maltais, Statistique Canada

Cet été, le besoin s'est accru de disposer de services flexibles auxquels on pourrait accéder en dehors des réseaux traditionnels et qu'on pourrait élargir rapidement, tout en maintenant la sécurité des renseignements confiés à la fonction publique. L'occasion pour la science des données de fournir des connaissances pertinentes afin d'aider les décideurs et la population en général n'a jamais été aussi grande. Les scientifiques des données doivent toutefois pouvoir s'assurer que les activités liées aux données et au travail se déroulent dans des environnements sécurisés. Le recours à l'infonuagique présente des avantages évidents pour les scientifiques des données, et l'évolution récente de la politique du gouvernement du Canada (GC) et les services d'infonuagique accessibles par l'intermédiaire de Services partagés Canada permettent d'offrir des avantages encore plus grands grâce à l'utilisation des services infonuagiques pour les charges de travail protégées.

Nouvelles directives relatives à l'infonuagique

Le GC a amorcé l'adoption d'une infrastructure infonuagique publique dès 2014. À l'époque, la politique sur l'utilisation de l'infonuagique manquait de clarté. On considérait comme très risqué de mettre des renseignements protégés dans le nuage, de sorte que seuls des projets en science des données reposant sur des données non classifiées pouvaient être réalisés.

En réponse à l'absence d'orientation claire sur l'utilisation du nuage public, la Stratégie d'adoption de l'informatique en nuage a été élaborée en 2016. Au même titre que l'Orientation sur l'utilisation sécurisée des services commerciaux d'informatique en nuage et l'Orientation relative à la résidence des données électroniques, toutes deux publiées en 2017, la manière d'utiliser l'infrastructure infonuagique publique pour les charges de travail non classifiées conformément à la politique du GC est devenue claire. À compter de 2018, le GC a adopté une politique axée essentiellement sur l'infonuagique et a commencé à accomplir le travail préparatoire en vue de l'adoption de services d'infonuagique publique pour les charges de travail protégées. Les ententes-cadres relatives aux services d'infonuagique de Services partagés Canada et la Directive sur les services et le numérique diffusée récemment fournissent les derniers éléments de l'orientation stratégique pour permettre aux ministères de passer aux charges de travail de catégorie Protégé B, intégrité moyenne et disponibilité moyenne (PBMM).

Maintenant, pour ne pas avoir recours à l'infrastructure infonuagique, une exemption doit être obtenue auprès du Comité d'examen de l'architecture intégrée du GC. Les obstacles à l'utilisation de l'infrastructure infonuagique et au traitement des données largement réparties ont été enlevés au niveau politique, et les équipes en science des données peuvent travailler en collaboration avec leurs services des technologies de l'information (TI) afin de tirer profit de l'infonuagique pour soutenir efficacement leurs charges de travail.

Résidence des données par rapport à souveraineté des données

Description - Carte des trajectoires de données Une carte indiquant deux trajectoires potentielles des données. Une visant à conserver les données à l'intérieur du pays et une permettant aux données de traverser une frontière internationale.

La résidence des données fait référence à l'emplacement physique ou géographique des renseignements numériques d'une organisation lorsqu'elles sont inactives. Il incombe au dirigeant principal de l'information (DPI) du ministère de veiller à ce que les données protégées B résident géographiquement au Canada pour que les données puissent ainsi bénéficier des protections offertes par les lois canadiennes. Cette responsabilité ne s'applique pas aux données qui sont en transit.

La souveraineté des données se rapporte aux autres pays qui souhaitent appliquer leurs lois aux données canadiennes, peu importe l'endroit où résident géographiquement les données. Elle s'applique à l'accès aux données qui sont en transit et inactives. La question de la souveraineté est une question de risque, et c'est pourquoi le livre blanc Souveraineté des données et nuage public a été produit.

Si l'on s'attend à ce que la grande majorité des données protégées demeurent au Canada, des dispositions prévoient les options à envisager lorsque ce n'est peut-être pas possible. Les DPI ont la responsabilité d'évaluer les options en fonction d'un ensemble de critères, les critères minimaux étant les suivants :

  • Réputation du ministère et du GC;
  • Aspects juridiques et ententes;
  • Valeur opérationnelle conférée par le service;
  • Disponibilité sur le marché;
  • Capacités techniques.

La distinction entre les données inactives et les données en transit est importante pour les charges de travail en science des données, car certains aspects des services des fournisseurs d'infonuagique peuvent se trouver en dehors de votre région de stockage de données privilégiée. Le fait de permettre la transmission des données de façon sécurisée entre les régions géographiques peut correspondre à la différence entre un service d'apprentissage automatique préconçu et la nécessité de concevoir votre propre système. La décision d'utiliser ou non ces types de services dépend des besoins du projet, qui doivent être évalués au cas par cas avec le propriétaire fonctionnel. La compréhension des flux de données et des risques associés à l'utilisation de différentes plateformes et de différents outils est une étape importante dans la mise en production des projets.

S'appuyer sur des bases solides et conformes

Dans le déploiement de l'infrastructure de TI traditionnelle, il peut être très long de répondre aux exigences de conformité organisationnelles. Cela a souvent eu pour effet d'entraîner des retards dans la mise en place des systèmes, en ralentissant la cadence des unités opérationnelles. Les exigences de conformité varient et évoluent aussi au fil du temps, ce qui rend les choses encore plus difficiles pour les scientifiques des données. Leur suivi doit être assuré par un professionnel attitré. Le développement et le maintien d'un environnement contrôlé exigent des investissements continus à plusieurs niveaux de l'infrastructure de TI. L'adoption de l'infrastructure infonuagique publique permet au GC d'hériter de la mise en œuvre par le fournisseur de contrôles de sécurité et de conformité généraux, ce qui contribue à assurer des normes élevées de protection des renseignements personnels et de sécurité des données.

Les fournisseurs d'infonuagique publique offrent aussi souvent des services de sécurité intégrés, lesquels permettent l'automatisation de certains aspects de la surveillance et de la sécurité par l'unité pertinente au sein de votre organisme. Cela diminue non seulement l'effort nécessaire pour configurer certains aspects de l'infrastructure de sécurité, mais appuie aussi l'organisme dans sa réaction rapide aux événements, ce qui réduit le risque global. En adoptant plusieurs couches de sécurité indépendantes, la force d'impulsion et l'efficacité d'une éventuelle attaque sont réduites, et l'effort nécessaire pour lancer une attaque réussie devient difficile et coûteux. La mise sur pied d'une telle infrastructure permet aussi aux scientifiques des données de travailler en étroite collaboration avec les partenaires des TI et de la sécurité, tout en permettant à chacun de s'attarder à son champ d'expertise, et contribue à réduire le délai global nécessaire pour mettre les produits en production.

Le modèle de sécurité partagée

Description - Science des données Un nuage tenu par deux mains représentant un fournisseur de services infonuagiques et des équipes de support informatique départementales.

L'utilisation de l'infrastructure infonuagique publique fait intervenir le concept de modèle de sécurité partagée, dans lequel le fournisseur d'infonuagique est responsable de la sécurité du nuage et le ministère est responsable de la sécurité dans le nuage. Cela signifie que le fournisseur d'infonuagique s'assurera que ses installations et ses services sont sécurisés jusqu'à ce que les ministères commencent à utiliser et à configurer les services fournis. Les aspects précis des services qui relèvent de la responsabilité du fournisseur ou du ministère dépendent de la manière dont le ministère utilise les services.

Un ensemble préliminaire de contrôles de base est présenté dans les Mesures de sécurité du nuage du GC, lesquels permettent d'assurer que les environnements informatiques en nuage sont protégés à la réception d'une activation aux termes de l'entente-cadre relative aux services d'infonuagique du GC. Des travaux sont aussi actuellement en cours pour automatiser la mise en œuvre des mesures de sécurité auprès de différents fournisseurs d'infonuagique, ce qui permet d'assurer l'uniformité et le succès de la mise en œuvre dans un délai rapide de prestation des services. Tandis que l'ensemble des mesures de sécurité de base ont été mises en place et qu'une nouvelle infrastructure configurée automatiquement a été déployée, les scientifiques des données peuvent travailler en collaboration avec leurs partenaires des TI afin de mettre à profit des configurations courantes leur permettant de déployer leurs charges de travail plus rapidement tout en garantissant au client que ses données sont sécurisées.

Un peu comme l'utilisation responsable de l'infrastructure infonuagique exige un changement dans la manière dont l'architecture des applications est mise en œuvre, un changement dans la mise en œuvre des mesures de sécurité est également nécessaire. L'ensemble des exigences de base est le même, mais les fournisseurs d'infonuagique peuvent dévoiler la personne à l'origine du changement et l'endroit à partir duquel le changement a été effectué. Cela permet aux scientifiques des données de se consacrer au déploiement de modèles à rendement élevé, tandis que le personnel de la sécurité peut détecter les erreurs de configuration et la non-conformité et réagir rapidement pour éviter que les risques se matérialisent.

Vision de la sécurité infonuagique pour le secteur public canadien

Le Centre canadien pour la cybersécurité (CCC) offre un moyen de surveiller toutes les activités liées à l'infonuagique chez différents fournisseurs, en contribuant à prévenir les attaques qui ont été lancées. Il agit comme un mécanisme de soutien pour le Centre des opérations de sécurité, en permettant de déceler les événements avant qu'ils ne deviennent des problèmes d'envergure. Par l'intermédiaire d'évaluations de fournisseurs, de documents relatifs à la sécurité et de capteurs infonuagiques, le CCC fournit un autre mécanisme de sécurité et aide les praticiens de la sécurité et les scientifiques des données à faire la démonstration à leur ministère qu'ils gèrent les risques associés à l'utilisation de l'infrastructure infonuagique publique.

Une approche pangouvernementale

Le CCC peut agir à titre de catalyseur de la cybersécurité non seulement pour le GC, mais pour l'ensemble des organisations canadiennes. De même, les Mesures de sécurité du nuage du GC fournissent un ensemble de pratiques exemplaires pour quiconque déploie des charges de travail dans l'infrastructure infonuagique publique. Ces dernières vont de pair avec le travail accompli par Services partagés Canada dans le cadre du Service de courtage infonuagique du GC afin que les fournisseurs d'infonuagique publique obtiennent une certification pour les charges de travail de catégorie PBMM. L'ensemble des politiques, des pratiques et des protections décrites représente les bases solides à partir desquelles les ministères, ou les organisations canadiennes voulant assurer la protection des renseignements personnels des Canadiens, peuvent établir des services fiables et sécurisés. Ensemble, ces dernières permettent le déploiement de charges de travail en science des données axées sur l'offre de services au moyen de données protégées à un niveau de risque raisonnable.

Étant donné l'évolution récente de la politique sur l'infonuagique, c'est une période emballante pour réaliser des travaux en science des données au GC. Les occasions d'acquérir de nouvelles connaissances et d'offrir des avantages aux Canadiens atteignent en ce moment un sommet sans précédent. Vous pouvez commencer à mettre vos charges de travail dans le nuage public en communiquant avec vos partenaires des TI et en découvrant comment vous pouvez tirer le meilleur parti de votre entente-cadre relative aux services d'infonuagique. Si votre ministère n'est pas prêt à tirer profit des services d'infonuagique, communiquez avec l'équipe de l'Analyse des données en tant que service (ADS) de Statistique Canada pour savoir si la plateforme d'ADS pourrait vous être utile.

Date de modification :

Utiliser la science des données et les outils infonuagiques pour évaluer les répercussions économiques de la COVID-19

Par : Razieh Pourhasan, Statistique Canada

Alors que les effets de la COVID-19 sur l’économie continuent de se faire ressentir à un rythme effréné, il est plus important que jamais pour les Canadiens et les entreprises de disposer de renseignements fiables pour comprendre ces changements. Une équipe de scientifiques des données et d’analystes de Statistique Canada travaille fort pour répondre à ce besoin d’information en automatisant l’extraction des données textuelles de sources variées et l’analyse de ces données en temps quasi réel. Ces sources comprennent le système InfoMedia du gouvernement du Canada, des sites Web d’entreprises et éventuellement des comptes Twitter et LinkedIn d’entreprises. Cependant, l’inclusion des médias sociaux dépendra de l’obtention des permissions nécessaires. Le projet est axé sur les répercussions économiques d’événements sociaux ou politiques d’importance, comme la pandémie de COVID-19, sur la vie des Canadiens.

La propagation rapide du virus et l’impact de la pandémie ont créé la nécessité d’obtenir des données rapidement et de haute qualité à un rythme sans précédent pour informer les Canadiens et appuyer la prise de décisions. Les événements reliés à la COVID-19 ont complètement changé la façon dont le travail est mené et ont établi des attentes différentes dans une nouvelle réalité numérique. La rapidité est plus importante que jamais et Statistique Canada utilise des outils reliés à la science des données pour réagir rapidement à l’évolution de la situation et mieux comprendre les répercussions sur notre pays et notre économie.

Pour produire différents types de produits analytiques à l’intention des décideurs et des Canadiens, les analystes s’intéressent à différents types de renseignements. Par exemple, les analystes qui réalisent des analyses sur la COVID-19 cherchent à relever des nouvelles pertinentes pour répondre à des questions comme celles qui suivent :

  • Quelles sont les entreprises les plus concernées ou touchées par la pandémie?
  • Ces entreprises ont-elles fermé des succursales?
  • Ces entreprises participent-elles à la production d’équipement de protection individuelle?
  • Combien de pertes d’emploi ont été signalées?

Le projet comporte deux phases selon la source d’extraction et la permission donnée pour le moissonnage du Web. Au cours de la première phase, l’extraction se limite au système InfoMedia du gouvernement du Canada et aux sites de nouvelles de quelques entreprises. Au cours de la deuxième phase, l’extraction inclura éventuellement un plus grand nombre d’entreprises canadiennes ainsi que des données issues de Twitter et de LinkedIn, à la condition d’obtenir l’approbation d’accéder à ces sources de données pour pouvoir les utiliser.

Répondre aux besoins des analystes

Afin de mieux répondre aux divers besoins des analystes dans leur effort pour fournir des renseignements actuels aux Canadiens, l’équipe de la science des données optimise la méthode d’extraction et les analyses en temps réel dans le but d’inclure le plus de renseignements possible de différentes sources. L’équipe établit le déroulement de ses travaux en utilisant une infrastructure robuste qui est accessible sur la plateforme de Statistique Canada depuis le nuage Azure de Microsoft. Ensuite, Kubeflow est utilisé pour créer des carnets Jupyter en scripts python, Elasticsearch (ES) est utilisé pour l’absorption et l’intégration des données, et des tableaux de bord Kibana sont utilisés pour concevoir des tableaux de bord et des représentations visuelles afin de présenter les résultats aux analystes.

Description - nuage Azure

Diagramme montrant les icônes du nuage Azur, Kubeflow, Elasticsearch et Kibana.

  • Les étapes de Kubeflow sont : moissonnage du Web, Selenium et Python; prétraitement des données textuelles, Pandas, Re et NLTK; apprentissage automatique, modélisation de sujets et sélection de variables.
  • Les étapes d’Elasticsearch sont : Ingestion des données; Recherche de mots, moteur de recherche Elasticsearch; Analyse des données.
  • Les étapes de Kibana sont : Tableau de bord; Visualisation personnalisée, Vega.

L’étape suivante consiste à créer un pipeline Kubeflow pour extraire automatiquement des données textuelles en procédant au moissonnage des sites de nouvelles des entreprises à l’aide de Selenium et de modules Python, pour effectuer le prétraitement et le nettoyage des données au moyen de Pandas, de Regular Expression et de Natural Language Toolkit, et enfin, pour absorber les données extraites dans ES aux fins d’analyse. Les scientifiques des données réalisent ensuite l’analyse exploratoire des données, ce qui peut être aussi simple que le compte de mots ou la recherche de mots clés à l’aide du moteur de recherche ES ou aussi complexe qu’un algorithme d’apprentissage automatique comme dans le cas de la modélisation de sujets pour le regroupement de documents appliquée au moyen du code Python intégré.

Les résultats des analyses sont par la suite visualisés dans le tableau de bord Kibana au moyen de diagrammes à barres ou à secteurs, de nuages de mots, de nuages de points ou de graphiques combinatoires personnalisés à l’aide de l’interface Vega dans Kibana. Ces tableaux de bord représentent les produits finaux qui sont présentés aux analystes, soit en leur fournissant un lien URL auquel ils peuvent accéder par l’intermédiaire de leur compte infonuagique, soit en définissant un avis par courriel afin qu’ils puissent recevoir les produits souhaités dans leur boîte de réception.

Regard vers l’avenir

À l’heure actuelle, le projet est axé sur les données d’entreprise, mais il pourrait être élargi pour englober d’autres sources d’information tirées du Web. Il pourrait aussi être adapté pour inclure différentes unités d’analyse, comme les produits, l’emploi, les données financières, les comportements sociaux et les comportements influant sur la santé, les sentiments, etc.

Un analyste consacre généralement de 5 à 30 heures par mois pour effectuer des recherches sur le Web, trouver des renseignements utiles, les extraire et les compiler. Ce projet pourrait réduire cette durée de trois fois ou même plus, ce qui en fait une option très efficace pour les analystes.

À l’aide de l’extraction de données automatisée, de l’application d’algorithmes d’apprentissage automatique et du modèle de prestation infonuagique, il est en général plus facile de réaliser des analyses en temps réel et de fournir rapidement les résultats aux décideurs. Les entreprises canadiennes et les Canadiens profitent de tous de ces renseignements actuels, tandis que notre société cherche à mieux comprendre les répercussions de la COVID-19 sur notre économie et notre société.

Membres de l’équipe

Scientifiques des données : Chatana Mandava, Razieh Pourhasan, Christian Ritter.

Analystes : Tracey Capuano, Lisa Fleury, David Glanville, François Lavoie, Joanne Moreau, Anthony Peluso.

Date de modification :

Un étudiant coop explore la puissance des mégadonnées

Par : Kathrin Knorr, Université Simon Fraser

Note de la rédaction : Ce qui suit est une version révisée d’un article paru dans la série The Co-op Close-up (en anglais seulement) de l’université Simon-Fraser (SFU). L'article a été modifié et traduit par le Réseau de la science des données pour la fonction publique fédérale, et reproduit ici avec l'autorisation de SFU.

L’article présente Mihir Gajjar, un étudiant coop travaillant à la Division de la science des données de Statistique Canada. Il a obtenu un baccalauréat en technologies de l’information et de communication à l’Université d’Ahmedabad, en Inde. Il a récemment complété le programme de maîtrise professionnelle en informatique à SFU. L’article mentionne également Meredith Thomas, son ancienne superviseure à Statistique Canada.

SFU : Peux-tu nous parler de Statistique Canada? Comment c'est d'y travailler?

Mihir Gajjar : Je travaille pour l'extraordinaire Division de la science des données de Statistique Canada. Des scientifiques des données y collaborent avec des analystes spécialisés, des méthodologistes et des informaticiens, dans le but d'élaborer des stratégies en matière de traitement des mégadonnées, d'apprentissage automatique et d'intelligence artificielle.

Je trouve que la culture professionnelle à Statistique Canada présente plusieurs points forts, comme les réunions quotidiennes de type « scrum » (mêlée) avec le superviseur et les membres de l'équipe, au cours desquelles on établit les tâches prioritaires de la journée et on discute d'autres questions importantes. J'aime également la méthode de développement agile, adoptée sur la plupart des projets de façon à ce que chaque projet ait un cycle de vie de quatre mois avant d'être prêt pour le déploiement. Nous avons également des séminaires techniques hebdomadaires sur l'apprentissage automatique où nous étudions les progrès de ce domaine et où nous analysons des articles de recherche pertinents.

SFU : Peux-tu nous en dire un peu plus sur le ou les projets auxquels tu travailles en tant qu'étudiant coop?

Mihir Gajjar, étudiant à l'Université Simon Fraser (programme de maîtrise en informatique) et étudiant coop à la Division de la science des données.

Photo: D. Taiwo.

Mihir Gajjar : À Statistique Canada, les analystes passent beaucoup de temps à rechercher des renseignements sur les entreprises. La quantité de nouvelles augmentant de façon exponentielle, il devient difficile de suivre manuellement toutes les informations publiées. Le projet auquel je travaille vise à automatiser les tâches qui servent à détecter les événements présentant un intérêt dans les articles de presse et à en extraire les attributs.

Par exemple, les événements présentant un intérêt qui sont liés aux entreprises peuvent comprendre les fusions et acquisitions, les événements qui se produisent sur les marchés des actions et les ouvertures de succursales, les attributs de ces événements pouvant être des éléments comme leurs dates et leurs emplacements. Au bout du compte, mon travail permet aux analystes économiques de passer moins de temps à rechercher des données et de se consacrer plus longuement à leurs analyses. Ce travail multidisciplinaire est réalisé en collaboration par différentes équipes, notamment des gestionnaires de portefeuille et de comptes, des méthodologistes et d'autres scientifiques des données.

Les principales tâches techniques comprennent la recherche de similitudes entre les articles, à des fins de classement, de suppression des doublons et de synthèse des contenus. L'objectif consiste à fournir aux spécialistes un tableau de bord, afin de faciliter la détection et le suivi des événements recherchés sur une période déterminée.

Les données de nos modèles consistent en 1,5 million d'articles de presse provenant de la plate-forme Dow Jones Data News and Analytics et d'InfoMedia, un système gouvernemental partagé. On a utilisé l'analyse exploratoire des données et le prétraitement de texte de base pour former divers modèles d'apprentissage automatique.

SFU : Comment le programme « Big Data » de la SFU t'a-t-il préparé pour ton poste d'étudiant coop?

Mihir Gajjar : Le programme « Big Data » de la SFU m'a fourni des bases théoriques, ainsi qu'une expérience pratique, grâce à des conférences et à un environnement d'apprentissage en mode « projet ». Des sujets comme l'apprentissage automatique m'ont aidé à acquérir de solides bases théoriques, tandis que des travaux pratiques et des projets de groupe m'ont permis de mettre en œuvre les concepts appris et d'essayer de nouveaux outils et de nouvelles technologies.

Outre de solides connaissances techniques, le programme m'a doté de compétences essentielles, telles que le travail en équipe, la communication et le partage d'idées avec d'autres personnes, les présentations, la réflexion critique, la rédaction technique et la gestion du temps.

SFU : Quels sont les principaux enseignements que tu retiendras de cette expérience d'étudiant coop?

Mihir Gajjar : Grâce au projet auquel j'ai travaillé, j'ai beaucoup appris sur les aspects pratiques du travail de scientifique des données. Le projet a notamment consisté à extraire des données à l'aide d'une interface de programmation d'applications d'une entreprise externe, ce qui m'a amené à rencontrer son équipe de développement sur une base hebdomadaire. Cela m'a aidé à adopter un mode de réflexion analytique et à concevoir des questions, ce qui contribue à une meilleure compréhension de la qualité et de la profondeur des données. J'ai également découvert l'importance de bien cerner les besoins de l'utilisateur afin d'élaborer un produit qui réponde à ses exigences.

Grâce à mon travail à Statistique Canada, j'ai pu participer à des projets réels de science des données et j'ai appris comment élaborer et mettre en œuvre un plan technique pour atteindre les objectifs souhaités. Cette première expérience professionnelle en tant que scientifique des données m'a permis d'améliorer mes compétences et d'être plus confiant quant à mes capacités à occuper des fonctions de ce type au cours de ma carrière.

SFU : Que pensent les employeurs de nos étudiants?

Meredith Thomas, chef, Division de la science des données : Toujours disposé à découvrir de nouvelles approches technologiques et disposant de capacités à travailler aussi bien seul qu'en équipe, Mihir s'est avéré parfaitement adapté à notre environnement de travail. Dans le cadre de son travail, ici à Statistique Canada, Mihir continue, en partenariat avec un scientifique des données principal, à se perfectionner, passant, avec un égal enthousiasme et sans se disperser, de projets de traitement du langage naturel à des projets de traitement d'images. Il est maintenant un membre estimé de notre équipe.

Date de modification :

La plateforme infonuagique d'analyse avancée liée à la COVID-19

Par : Allie MacIsaac, Statistique Canada

Alors que les Canadiens étaient de plus en plus préoccupés par les répercussions de la COVID-19 sur notre société et sur notre économie en mars 2020, Statistique Canada a commencé à recueillir des renseignements cruciaux pour soutenir les citoyens et les activités essentielles du gouvernement durant cette période sans précédent.

Parallèlement, les analystes, les chercheurs et les scientifiques des données de l'ensemble du gouvernement du Canada se sont heurtés à un autre problème urgent : comment pourraient-ils fournir, de manière rapide et sécuritaire, des renseignements indispensables à la population canadienne, tout en travaillant à distance et en ayant un accès limité à leurs outils et à leur infrastructure informatique habituels?

Modernisation accélérée

Alors que le besoin de capacités analytiques devenait de plus en plus urgent, une équipe de spécialistes de Statistique Canada s'est réunie pour accélérer l'Analyse des données en tant que service (ADS) et explorer des solutions de données ouvertes. L'objectif était de doter les scientifiques des données de l'environnement de travail dont ils ont besoin pour mener une analyse plus approfondie et offrir un aperçu des répercussions de la COVID-19 au Canada.

Le résultat est une plateforme infonuagique d'analyse avancée liée à la COVID-19 : un espace collaboratif virtuel conçu pour la science des données qui permet d'intégrer des données provenant de sources fiables de Statistique Canada, d'extraire des renseignements et de les présenter dans une plateforme centrale qui comprend des options de présentation et de diffusion robustes.

Non seulement cette solution répond aux besoins des scientifiques des données, mais elle fait également progresser la modernisation de l'organisme national de statistique en aidant à atteindre les objectifs stratégiques de la Stratégie de données de Statistique Canada (y compris en mettant davantage l'accent sur la science des données) à un rythme accéléré.

Une équipe spéciale multidisciplinaire qui a créé un environnement de science des données « de rêve »

La plateforme d'analyse est le résultat d'une collaboration entre la Division de la science des données de Statistique Canada, l'équipe informatique d'ADS, l'équipe d'infonuagique et des partenaires de Microsoft.

Chaque groupe avait un rôle important à jouer. L'équipe d'infonuagique a jeté les bases du travail, en fournissant une base conteneurisée robuste à l'aide de Kubernetes et de l'infrastructure sous-jacente Azure comme infrastructure en tant que service. L'équipe d'ADS a travaillé sur l'intégration des composantes de service, y compris le portail, à l'aide des services sous-jacents. L'équipe de la science des données a travaillé avec les autres équipes pour déterminer les logiciels libres à installer et pour définir les pipelines et les flux de données. En comptant sur des spécialistes de la science des données qui travaillent de concert avec des spécialistes de l'infonuagique et des plateformes, l'équipe a pu fournir une plateforme évolutive et accessible qui répond aux besoins en matière de science des données. Le résultat est un environnement doté d'une variété d'outils avancés permettant le traitement des images satellitaires ainsi que le traitement du langage naturel et l'automatisation.

En éliminant les obstacles internes et externes, l'équipe a pu créer un utilitaire cohérent en quelques semaines, tout en travaillant en sécurité depuis la maison. Cela a été rendu possible grâce à une approche axée sur l'utilisateur pour moderniser l'expérience des utilisateurs de données et mieux répondre à leurs besoins en pleine évolution, tout en leur fournissant une aide complète en matière de science des données.

« La plateforme a eu une incidence positive considérable sur notre façon de travailler. Nous sommes en mesure d'obtenir de meilleurs résultats, de travailler de manière agile et de voir les avantages de la modernisation en action », explique Sarah MacKinnon, directrice adjointe de la Division de l'exécution de projets de technologie de l'information à Statistique Canada.

À l'intérieur de l'ensemble d'utilitaires, vous trouverez une plateforme à la fine pointe de la technologie, un « environnement de science des données de rêve », précise Sevgui Erman, directrice de la Division de la science des données à Statistique Canada. « Cet environnement répond aux besoins de calcul à grande capacité des scientifiques de données tout en comblant nos besoins en matière d'environnements de travail et d'outils collaboratifs. L'ensemble d'utilitaires est muni d'outils d'intégration continue et de développement continu qui permettent des pipelines de données extensibles et faciles à reproduire, ainsi que des capacités avancées de gestion de données et de modèles. »

« Vous pouvez aussi élaborer vos flux de travail à l'aide de GitHub Actions et de Kubeflow Pipelines. Comme il comporte des modèles pour la formation, la validation, le prétraitement et le service de modèle de transfert d'état représentationnel (REST), et des intégrations à des plateformes en tant qu'offres de service comme Databricks ou les lacs de données gérées, l'espace d'analyse avancée vous donne la liberté d'utiliser les outils de votre choix, et il vous donne une couche unifiée à partir de laquelle les utiliser », ajoute Blair Drummond, analyste à la Division de la science des données de Statistique Canada et membre de l'équipe spéciale.

Coup d'œil à l'intérieur de l'ensemble d'utilitaires

L'équipe a rassemblé les meilleurs outils de source libre disponibles pour créer un ensemble d'utilitaires permettant aux utilisateurs d'accéder à distance à des données chargées par Statistique Canada, en mettant l'accent sur la COVID-19. Cet environnement puissant repose sur une suite complète d'outils de la science et de l'analyse des données, notamment :

  • Jupyter Notebooks pour les langages de programmation R et Python
  • Poste de travail à distance Linux
  • Power BI
  • QGIS
  • R Shiny
  • Pachyderm (traçabilité et pipelines des données)
  • Kubeflow Pipelines
  • MLflow pour le suivi des modèles et les applications Web personnalisées
  • Solutions de stockage partageables en libre-service

La plateforme comprend aussi des canaux de discussion de soutien servant à guider les utilisateurs et à obtenir leur rétroaction.

De cette manière, les utilisateurs de données sont mieux outillés pour analyser les répercussions de la COVID-19 et échanger leurs observations de manière sécuritaire et confidentielle.

Pourquoi utilise-t-on les logiciels libres? Comme l'explique monsieur Drummond, « les outils logiciels libres donnent aux utilisateurs plus de flexibilité et d'autonomie à l'égard de leur propre travail. Ils sont accessibles et misent sur l'approche participative, ce qui signifie que les utilisateurs peuvent également obtenir du soutien et de l'aide pour l'analyse ». De plus, les résultats sont reproductibles par leurs collègues d'autres ministères. Il s'agit donc d'une approche qui intègre des logiciels libres et qui soutient la collaboration entre les scientifiques de données, à l'avantage de tous les utilisateurs.

La plateforme en action

En tirant parti des ressources en termes de fonctionnalités de la plateforme, les scientifiques de données de Statistique Canada ont travaillé sans relâche lors de la mise en service de la plateforme.

Un exemple est le travail effectué par Kenneth Chu, méthodologiste principal à la Division de la science des données de Statistique Canada, qui a été l'un des premiers à adopter la nouvelle plateforme et à tester ses capacités en effectuant une analyse statistique massive, mise en parallèle qui, autrement, n'aurait pas été possible au moyen de l'infrastructure informatique actuellement en place.

Monsieur Chu a ajusté un modèle bayésien hiérarchique (aux séries chronologiques provinciales des dénombrements des décès attribuables à la COVID-19) qui estimait les effets des mesures de distanciation physique sur la transmissibilité de la COVID-19. Il y avait, cependant, certains paramètres d'entrée importants mais inconnus, à savoir les taux provinciaux de létalité réels par la COVID-19 (le taux étant défini comme la probabilité conditionnelle de mourir de la COVID-19 étant donné qu'une personne en est infectée). Leurs estimations, qui sont simples en théorie, sont simplement les ratios provinciaux du nombre de décès attribuables à la COVID-19 au nombre réel d'infections par la COVID-19. Malheureusement, l'absence presque totale de connaissances sur cette dernière valeur, en particulier pendant la phase initiale de la pandémie, a rendu les estimations des taux de létalité réels très incertaines.

L'analyse de sensibilité parallélisée consistait simplement à exécuter indépendamment l'analyse bayésienne un nombre suffisamment important de fois (200, pour être précis), chaque fois en sélectionnant aléatoirement les taux de létalité provinciaux parmi la gamme complète des valeurs plausibles. Chaque exécution indépendante nécessitait environ huit heures et était effectuée à l'aide de deux cœurs de calcul. L'analyse de sensibilité complète, exécutée sur ADS, a donc nécessité au total 3 200 heures de traitement informatique, ce qui aurait été impossible au moyen de l'infrastructure préexistante.

La capacité d'exécuter des flux de travail distribués et massivement mis en parallèle contribue à l'infrastructure de mégadonnées de Statistique Canada. En outre, une telle capacité de calcul permet également l'utilisation de nombreuses méthodes statistiques sans distribution (p. ex. celles fondées sur le rééchantillonnage, sur la permutation), qui, bien qu'elles exigent des capacités énormes de calcul, complètent les techniques analytiques complexes modernes de l'apprentissage automatique ou des statistiques bayésiennes.

Dans l'ensemble, les capacités informatiques accrues appuient la mission de l'organisme qui consiste à fournir des renseignements actuels et essentiels aux Canadiens qui doivent faire face aux défis sans précédent que pose la pandémie de COVID-19.

Une approche sécuritaire et progressive

Actuellement, la plateforme d'analyse liée à la COVID-19 est accessible aux employés de Statistique Canada et aux autres ministères du gouvernement du Canada ayant établi des partenariats en matière de données de recherche avec l'organisme. Si vous êtes un scientifique des données qui est intéressé par cette plateforme, veuillez communiquer avec nous pour participer et découvrir la plateforme en envoyant un courriel à statcan.analyticalplatform-platformeanalytique.statcan@statcan.gc.ca.

Cette plateforme s'inscrit dans l'approche progressive de Statistique Canada visant à accorder l'accès à la plateforme de façon sécuritaire. Pour la première phase, l'accès à la plateforme était limité aux employés internes de Statistique Canada travaillant avec des données accessibles au public seulement. La deuxième phase comprenait l'accès à des données non classifiées (données accessibles au public seulement) et l'accès à la plateforme a été rendu disponible à certains employés du gouvernement du Canada sur invitation. À la troisième phase, le portail présentera des données de type Protégé B, et une combinaison d'ensembles de données publiques et d'autres ensembles de données seront utilisés. On fera la promotion de l'accès à cette plateforme à l'extérieur de l'organisme sur le site Web de Statistique Canada. À chaque phase, les mesures de protection nécessaires, y compris des évaluations régulières de la sécurité, devront être mises en œuvre pour assurer le maintien d'un environnement sécurisé en tout temps.

Alors que ce projet continue de progresser, Statistique Canada se réjouit à l'idée de collaborer avec la communauté de la science des données et de continuer à fournir des renseignements d'importance cruciale à tous les Canadiens.

Équipe du projet et collaborateurs :

Christian Ritter, Statistique Canada; Blair Drummond, Statistique Canada

Date de modification :

Réseau de la science des données pour la fonction publique fédérale (RSDFPF)

Les renseignement contenus dans ces articles sont fournis « tel quel » et Statistique Canada n'offre aucune garantie explicite ou implicite, ce qui comprend, sans s'y limiter, les garanties de qualité marchande et d'adaptation à un usage particulier. En aucun cas Statistique Canada ne sera tenu responsable des dommages directs, particuliers, indirects, consécutifs ou autres, quelle qu'en soit la cause.

Articles récents

Des données aux décisions : Visualisations et modélisation d'apprentissage automatique des données de propriétés locatives

Sujets abordés dans cet article : Traitement et ingénierie des données Vision par ordinateur

Selon le recensement de 2021, il y avait 5 millions de ménages locataires au Canada, ce qui signifie qu'environ un tiers des ménages canadiens sont locataires. Une grande partie de cette activité de location se fait toutefois dans le secteur privé, ce qui entraîne des données limitées et incohérentes. Pour combler ces lacunes dans les connaissances, NorQuest College a acquis, traité, analysé et représenté visuellement les annonces immobilières de la partie prenante, le Community Data Program, pour l'Ontario.

Continuer la lecture: Des données aux décisions : Visualisations et modélisation d'apprentissage automatique des données de propriétés locatives


Adoption d'une pratique de MLOps générale pour les applications de production de l'apprentissage automatique dans l'Indice des prix à la consommation canadien

Sujets abordés dans cet article : Traitement et ingénierie des données Analyse et production de texte Éthique et apprentissage automatique responsable

L'utilisation responsable de l'apprentissage automatique (AA) dans les statistiques officielles requiert divers processus pour veiller à ce que l'AA soit élaboré de manière fiable et axé sur les mesures, et qu'il soit directement lié à la satisfaction des besoins en matière de traitement d'un programme statistique précis. Ces processus peuvent être opérationnalisés dans un cadre connu sous le nom d'opérations d'apprentissage automatique (ML Operations ou MLOps). Se concentrant sur le cas d'utilisation de l'Indice des prix à la consommation (IPC) canadien, le présent article donne un aperçu de la manière dont divers processus de MLOps peuvent être créés pour garantir que les modèles d'AA qui classent des produits uniques dans les catégories du système de classification de l'IPC respectent des pratiques exemplaires en matière d'assurance de la qualité, de transparence, de gouvernance et de provenance, assurant ainsi la résolution du problème de détérioration du modèle et la fiabilité des statistiques de prix calculées à partir de données administratives. L'article décrit également comment le cadre des MLOps pourrait être mis en œuvre en offrant une vue d'ensemble d'un modèle de maturité, et se concentre sur plusieurs composantes clés importantes pour les statistiques de prix.

Continuer la lecture: Adoption d'une pratique de MLOps générale pour les applications de production de l'apprentissage automatique dans l'Indice des prix à la consommation canadien


Détection des renseignements identificatoires personnels dans les données non structurées à l'aide de Microsoft Presidio

Sujets abordés dans cet article : Éthique et utilisation responsable de l'apprentissage automatique

À l'ère numérique, les organisations recueillent et stockent de grandes quantités de données sur leurs clients, leurs employés et leurs partenaires. Ces données contiennent souvent des renseignements identificatoires personnels (RIP). Avec la multiplication des violations de données et des cyberattaques, la protection des RIP est devenue une préoccupation majeure pour les entreprises et les organismes gouvernementaux. Dans le présent article, Statistique Canada présente en détail Microsoft Presidio et la façon dont cet outil aide les organisations au Canada à se conformer aux lois en matière de protection de la vie privée.

Continuer la lecture: Détection des renseignements identificatoires personnels dans les données non structurées à l'aide de Microsoft Presidio


Autres articles récents

Parcourir les articles par sujet

Vision par ordinateur
Traitement et ingénierie des données
Analyses prédictives
Analyse et génération de texte
Éthique et utilisation responsable de l'apprentissage automatique
Autre

Participants de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Vos échantillons au travail

Les biobanques contribuent aux avancements en matière de santé des générations actuelles et futures. Les résumés des études ayant reçu l'approbation pour utiliser les échantillons entreposés sont publiés dans la section Projets sur la page Web de la biobanque de l'ECMS, afin que les répondants soient informés de la façon dont leurs échantillons seront utilisés. Occasionnellement, un petit nombre d'échantillons sera utilisé aux fins de contrôle de la qualité.

Confidentialité et protection des renseignements personnels

Des chercheurs appartenant à des établissements reconnus peuvent soumettre des demandes d'accès aux échantillons de la biobanque pour des projets de recherche scientifique. Lorsqu'une demande de projet de recherche est reçue à Statistique Canada :

Pour retirer ses échantillons de la biobanque

Si vous souhaitez retirer vos échantillons pour un projet d'étude en particulier ou pour toute étude future, vous devez rédiger une demande et l'envoyer à Statistique Canada par courriel à statcan.ccahs-ecsac.statcan@statcan.gc.ca. S'il vous plait, y inclure votre nom et prénom, la date approximative de votre participation à l'enquête, votre adresse au moment de votre participation ainsi que votre date de naissance. Ces informations seront utilisées seulement pour s'assurer que les bons échantillons biologiques soient retirés et détruits.

Pour nous joindre

Si vous avez des idées ou suggestions concernant le projet ou encore des questions concernant l'utilisation d'échantillons biologiques dans la recherche sur la santé, n'hésitez pas à nous contacter :

Date de modification :

Enquête canadienne sur la santé et les anticorps contre la COVID-19

Aperçu

L'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC) est une enquête conçue pour aider à évaluer l'étendue de l'état de santé associé à la pandémie de COVID-19, comme les infections actives au COVID-19 et la prévalence des anticorps au COVID-19 parmi un échantillon représentatif de Canadiens. L'enquête fournit aussi une plateforme pour explorer les enjeux de santé publique émergents, notamment l'impact de la COVID-19 sur la santé et le bien-être social.

En savoir plus à propos de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Échantillons

L'ECSAC entrepose, suite à leur consentement, les échantillons de gouttes de sang séché et de la salive des participants âgés de 18 ans et plus. Des échantillons supplémentaires provenant de l'Enquête canadienne sur les mesures de la santé (ECMS) sont disponibles sur la page Web de la biobanque de l'ECMS.

Recherche

L'ECSAC est mise en valeur par la représentativité nationale, provinciale et territoriale de sa cohorte, ainsi que par la possibilité d'agréger les résultats obtenus auprès des échantillons de sang séché avec des données du contenu de l'ECSAC comprenant, parmi d'autres, des questions portants sur leurs symptômes et l'état de la COVID-19 chez les participants, leur risque de la contracter, leurs facteurs de risque, leurs changements de comportement en matière de santé liés à la COVID-19 ou leur évaluation de santé.

Pour plus d'information à propos de la recherche, veuillez consultez la page Web pour les chercheurs et l'Enquête canadienne sur les mesures de la santé (ECMS)

Participants

En consentant à l'entreposage de leurs gouttes de sang séché et de la salive pour des études futures sur la santé, les participants contribuent à l'avancement des connaissances et des soins de santé. Nous assurons l'excellence scientifique, tout en protégeant la confidentialité de nos répondants.

Plus d'information pour les participants

Pour obtenir plus de renseignements au sujet de votre résultat de test d'anticorps, veuillez consultez le site Web suivant.

Résultats – Foire aux questions

Si vous vous sentez stressé en raison de  l'ECSAC ou de la pandémie de COVID-19 en général, veuillez consulter le lien suivant pour obtenir une liste de conseils et de ressources pour vous aider à prendre soin de votre santé mentale et physique en ces temps stressants.

Santé mentale et physique pendant la pandémie de COVID-19

Projets

Projets actuels et récents de la biobanque.

En savoir plus sur nos projets

Pour nous joindre

Pour toute question sur l'ECSAC : statcan.ccahs-ecsac.statcan@statcan.gc.ca

Pour toute autre question sur la biobanque : statcan.chms-biobank-ecms-biobanque.statcan@canada.ca

Date de modification :

Centre de la science des données

Centre de la science des données

En cette ère du numérique en croissance rapide, les organismes statistiques doivent trouver des moyens innovants pour exploiter la puissance des données. Statistique Canada adopte les possibilités que la science des données lui offre pour mieux répondre aux besoins d'information des Canadiens.

Science des données à Statistique Canada

Science des données à Statistique Canada

Statistique Canada est l'un des leaders dans l'adoption par le gouvernement du Canada de la science des données et de l'intelligence artificielle. Découvrez les avantages de la science des données et comment ils sont utilisés au sein de l’organisme statistique national du Canada.

Réseau de la science des données pour la fonction publique fédérale

Réseau de la science des données pour la fonction publique fédérale

Rejoignez une communauté de passionnés de la science des données pour tout savoir sur la science des données dans la fonction publique, collaborer sur des projets, partager des informations sur les derniers outils, et bien plus encore.

Mission : renforcer les capacités en science des données

Mission : renforcer les capacités en science des données

Découvrez la mission de Statistique Canada qui consiste à développer la capacité en matière de science des données au sein du gouvernement du Canada et au-delà.

Expertise en science des données

Expertise en science des données

Découvrez les différents domaines d'expertise des scientifiques des données de Statistique Canada qui sont des chefs de file de la recherche et du développement de pointe.

Projets en science des données

Projets en science des données

Découvrez certains des projets innovants de l'organisme qui sont alimentés par la science des données en utilisant le traitement du langage naturel, les images satellites, les réseaux neuronaux et d'autres techniques de pointe.

Ressources en science des données

Ressources en science des données

Apprenez-en davantage sur la science des données avec ces ressources utiles.

Programme de placement en sciences des données

Programme de placement en sciences des données

Statistique Canada accroît la capacité en sciences des données à l'échelle du gouvernement du Canada. Apprenez-en plus sur le programme de placement en sciences des données et comment devenir un scientifique des données.

Communiquez avec nous

Communiquez avec le Centre de la science des données pour obtenir de plus amples renseignements sur la science des données à Statistique Canada.

Science des données à Statistique Canada

Au moment où le monde qui nous entoure continue d'évoluer et de changer rapidement dans l'ère numérique, l'importance des données et de leur utilisation est cruciale.

La science des données est un domaine en pleine évolution qui permet d'exploiter le pouvoir des données; elle donne aux gouvernements les moyens d'accroître leur efficacité et leur efficience au service des citoyens. Le rôle des organismes statistiques nationaux ne cessant d'évoluer et de s'étendre, ceux-ci doivent s'adapter et adopter les nouvelles technologies tout en développant leur sens de l'innovation pour subvenir aux besoins d'information de la société.

Statistique Canada est l'un des chefs de file du gouvernement du Canada dans la mise en place de la science des données et de l'intelligence artificielle. En adoptant une approche collaborative de la science des données, l'organisme repousse les limites de la modernisation et exploite la puissance des nouvelles approches et des nouvelles technologies pour mieux servir les Canadiens.

Qu'est-ce que l'intelligence artificielle?

L'intelligence artificielle est un domaine de l'informatique consacré à la résolution de problèmes cognitifs communément associés à l'intelligence humaine, comme l'apprentissage, la résolution de problèmes, la perception visuelle et la reconnaissance de la parole et des formes.

Science des données à l'appui de la réponse à la COVID-19

La science des données permet aux organismes statistiques de réagir rapidement aux changements économiques et sociaux. Au Canada, la puissance de la science des données est utilisée par Statistique Canada à l'appui de la réponse à la COVID-19.

L'organisme a collaboré avec Santé Canada pour représenter l'information sur l'offre et la demande des équipements de protection individuelle (EPI). Avant de pouvoir visualiser les données, il a été nécessaire de les extraire et de les intégrer. Des données provenant de nombreuses sources étaient obtenues chaque jour (différents gouvernements provinciaux ou territoriaux, d'autres ministères fédéraux et des entreprises du secteur privé qui avaient accepté de nous aider à trouver les EPI), dans de nombreux formats différents (p. ex. des documents Word, des fichiers Excel ou des documents en format PDF), et nécessitaient une quantité importante de travail manuel pour créer des rapports normalisés.

Pour améliorer ce processus, un algorithme d'analyse des données a été créé par les scientifiques des données de Statistique Canada pour diviser celles-ci en différents types de données. L'apprentissage automatique a été utilisé pour repérer les nombres et les dates dans le texte. Les données ainsi structurées ont ensuite été présentées dans un tableau de bord Power BI qui a été partagé avec d'autres ministères afin de répondre à leurs besoins en matière d'information et de mieux comprendre l'offre et la demande d'EPI au Canada.

Pour obtenir plus de renseignements au sujet de la réponse de Statistique Canada à la COVID-19, consultez ce portail : La COVID-19 sous l'angle des données.

Engagement en faveur du respect de la vie privée et de la sécurité

Alors que Statistique Canada continue à mettre en œuvre de nouvelles technologies et des innovations, l'engagement de l'organisme à protéger la vie privée et la sécurité reste la priorité absolue. L'organisme a mis en place des mesures rigoureuses pour préserver la confidentialité et la vie privée à l'ère numérique moderne.

La quantité de données que nous recueillons et utilisons et la puissance des informations qu'elles génèrent augmentent rapidement. Nous savons que les données sont vulnérables tout au long de leur cycle de vie : au repos, en transit et pendant le calcul ou le traitement. Alors que les mécanismes de sécurité pour la protection des données au repos (p. ex. la cryptographie symétrique à clé secrète) et pour celles qui sont en transit (p. ex. la sécurité TLS [Transport Layer Security]) sont bien étudiés, des technologies liées à la protection de la vie privée ont émergé ces dernières années pour assurer la protection des données tout en permettant leur traitement, notamment dans les analyses statistiques.

Le terme générique « technologies liées à la protection de la vie privée » (ou techniques de calcul pour préserver la vie privée) englobe un large éventail de méthodes qui promettent de protéger les données en les recueillant, en les traitant et en diffusant leurs résultats. Ces méthodes sont le chiffrement homomorphe, le calcul sécurisé multi-parties, la confidentialité différentielle, les environnements d'exécution fiables et les preuves à divulgation nulle de connaissance. L'utilisation de ces technologies existantes et émergentes de protection de la vie privée est étudiée en permanence par les scientifiques des données de Statistique Canada afin de répondre aux besoins de protection des données de nature hautement délicate. Cela permettra également de trouver d'autres options de stockage pour permettre le traitement sécurisé à distance de données cryptées, de tirer profit des possibilités de calcul multi-parties tout en permettant de tirer des conclusions à partir de données distribuées et inaccessibles.

Pour obtenir plus de renseignements au sujet des moyens mis en œuvre par Statistique Canada pour protéger les données, consultez le Centre de confiance de Statistique Canada.

Consultez les projets en science des données de Statistique Canada pour voir la science des données en action!

À propos du Réseau de la science des données pour la fonction publique fédérale

À la recherche d'un espace dynamique pour collaborer et en apprendre davantage sur la science des données? Joignez-vous au nouveau Réseau de la science des données pour la fonction publique fédérale (propulsé par l'intendance de StatCan) en vous abonnant à notre nouveau bulletin! Notre vision est de créer une communauté dynamique de passionnés de la science des données et d'offrir un espace de communication permettant aux membres de collaborer et d'en apprendre davantage sur la science des données.

Réseau de la science des données pour la fonction publique fédérale (propulsé par l'intendance de StatCan)

Le Réseau de la science des données pour la fonction publique fédérale est une nouvelle communauté de la science des données qui facilitera le renforcement des capacités en science des données et le partage des méthodes connexes à l'échelle du gouvernement du Canada, permettant à l'ensemble de la fonction publique de tirer parti de l'utilisation de l'automatisation et de nouvelles sources de données.

Les utilisateurs du Réseau partagent des renseignements sur la formation, les pratiques exemplaires, les projets d'avant-garde et bien plus.

Statistique Canada, en sa qualité d'organisme national de statistique et source de renseignements digne de confiance, est heureux de jouer un rôle d'intendance. Depuis plus de 100 ans, l'organisme évolue sans cesse pour répondre aux besoins en information des Canadiens et il continuera de mettre son expertise à profit dans l'exploration des plus récents développements en science des données et en algorithmes.

Pourquoi devriez-vous vous joindre au Réseau?

L'adhésion au Réseau présente de nombreux avantages, notamment la possibilité de :

  • collaborer avec des scientifiques des données de partout au Canada pour découvrir les plus récents conseils et astuces;
  • participer à des discussions dynamiques à propos des percées et des défis en science des données;
  • vous renseigner à propos des projets collaboratifs en science des données et y participer;
  • partager des renseignements à propos des formations, des pratiques exemplaires et bien plus!

Quels sont les avantages du Réseau pour les Canadiens?

Le Réseau ne profite pas seulement aux scientifiques des données — il profite à tous les Canadiens.

Un fondement solide en science des données au gouvernement du Canada signifie que les services et les ressources sont optimisés, grâce à l'utilisation d'outils et de méthodes à la fine pointe de la technologie. Ainsi, les ministères et organismes sont en mesure de mieux répondre aux besoins en renseignements des Canadiens, les responsables des politiques peuvent prendre des décisions éclairées fondées sur des données fiables et de grande qualité, et les données sont mieux utilisées, en tant qu'actif stratégique, dans l'intérêt du public.

La mission générale du Réseau est de renforcer les capacités en science des données dans l'ensemble du gouvernement du Canada et au-delà.

Quels sont les avantages du Réseau pour les autres ministères et organismes?

Statistique Canada tire parti de la science des données en combinant le meilleur des statistiques traditionnelles, de l'intelligence artificielle et de l'apprentissage automatique dans le but de :

  • fournir aux Canadiens des produits d'une plus grande actualité, plus rapidement;
  • réduire le fardeau de réponse des ménages et des entreprises;
  • produire des statistiques plus exactes et détaillées;
  • améliorer la protection des renseignements personnels et de la confidentialité;
  • fournir des services d'intégration des données;
  • contribuer à une approche à l'égard du travail à la fois agile et axée sur l'utilisateur;
  • mieux répondre à l'évolution des besoins en données des utilisateurs, d'une manière entrepreneuriale.

Le Réseau renforcera les capacités en science des données dans les ministères et organismes du gouvernement, en offrant ces avantages à plus grande échelle.

En plus de mettre des ressources en commun, le Réseau donne aux ministères et organismes participants un moyen de partager les connaissances et de renforcer les capacités en science des données. Du partage des données aux pratiques exemplaires, une approche communautaire permet d'accroître l'efficacité des programmes, et de réduire le temps passé à surmonter des obstacles.

Le Réseau offre aussi des possibilités de partage des coûts, mutuellement avantageux, pour aider les ministères et organismes à répondre aux besoins des Canadiens comme le précisent leurs stratégies de données respectives.

Qui peut adhérer?

Le Réseau de la science des données pour la fonction publique fédérale est ouvert à quiconque s'intéresse à la science des données, y compris les employés du gouvernement du Canada, le milieu universitaire et les membres d'autres organisations. Tous les niveaux d'expertise sont les bienvenus.

Le Réseau ne s'adresse pas uniquement aux scientifiques des données! Si vous êtes gestionnaire de scientifiques des données, c'est pour vous l'occasion idéale d'obtenir de précieux renseignements concernant l'embauche et le maintien en poste de scientifiques des données, et la manière de les aider dans l'exercice de leurs fonctions.

Rôle de StatCan au sein du Réseau

Statistique Canada dirige la création du Réseau de la science des données pour la fonction publique fédérale. En tant que chef de file des méthodes d'analyse des données, Statistique Canada possède les connaissances, l'expertise et la vision pour donner vie au Réseau, et est heureux d'assurer l'intendance du Réseau. En tant que source de renseignements de confiance pour le pays et les Canadiens, l'organisme continuera de mettre son expertise à profit dans de nouveaux domaines comme l'intelligence artificielle et l'apprentissage automatique, dans l'intérêt des Canadiens.

L'organisme intègre ce qu'il y a de plus nouveau en méthodes, processus, technologies et normes de la science des données à son expertise analytique de longue date pour fournir aux Canadiens et aux responsables des politiques de meilleures perspectives sociales et économiques.

Améliorer l'utilisation des statistiques dans l'ensemble du gouvernement du Canada est au cœur du mandat de Statistique Canada. Grâce à une utilisation optimale des données, combinée à la responsabilisation algorithmique, à l'utilisation éthique et responsable des méthodes (comme l'inférence valide, les biais, l'équité, la reproductibilité) et à la promotion de normes et de pratiques rigoureuses, une meilleure prise de décisions peut être assurée.

Statistique Canada se réjouit de collaborer avec ses partenaires tout au long du développement du Réseau.

Créer une communauté de la science des données ensemble

Statistique Canada invite et encourage la participation de tous les ministères et organismes du gouvernement du Canada et autres partenaires intéressés au Réseau de la science des données pour la fonction publique fédérale.

Les participants peuvent tous profiter des possibilités de collaboration, du partage des données et des ressources et de discussions à propos de tous les aspects de la science des données.

Abonnez-vous à notre bulletin pour en savoir plus, ou communiquez avec nous pour obtenir plus de renseignements.

Ressources

Découvrez-en plus sur la science des données grâce à ces ressources utiles.

Nous contacter

Pour obtenir plus de renseignements, communiquez avec nous à l'adresse statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.