Utilisation de l'apprentissage automatique pour prédire le rendement des cultures

Par : Kenneth Chu, Statistique Canada

La Division de la science des données (DScD) de Statistique Canada a récemment terminé un projet de recherche pour la Série de rapports sur les grandes cultures (SRGC, ou Enquête sur les grandes cultures, EGC) Note de bas de page 1 portant sur l'utilisation des techniques d'apprentissage automatique (plus précisément, les techniques de régression supervisée) afin de prédire le rendement des cultures en début de saison.

L'objectif du projet était d'étudier si les techniques d'apprentissage automatique pouvaient être utilisées pour améliorer la précision de la méthode actuelle de prédiction du rendement des cultures (appelée la méthode de référence).

Deux grands défis se posaient : (1) comment intégrer toute technique de prédiction (apprentissage automatique ou autre) à l'environnement de production des EGC selon une méthodologie solide, et (2) comment évaluer toute méthode de prédiction de façon utile dans le contexte de production des EGC.

Pour le point (1), le protocole de validation de la fenêtre mobile progressive Note de bas de page 2 (initialement conçu pour un apprentissage supervisé à partir de données de série chronologique) a été adapté pour éviter la fuite de renseignements temporels. Pour le point (2), l'équipe a choisi de procéder à une vérification en examinant la série réelle d'erreurs de prédiction obtenue dans le cas d'un déploiement sur des cycles de production passés.

Motivation

Traditionnellement, la SRGC publie des estimations annuelles du rendement des cultures à la fin de chaque année de référence (peu après les récoltes). De plus, les prédictions du rendement des cultures pour l'année complète sont diffusées plusieurs fois au cours de l'année de référence. On communique avec les exploitants agricoles en mars, juin, juillet, septembre et novembre aux fins de collecte des données, leur imposant un lourd fardeau de réponse.

En 2019, pour la province du Manitoba, une méthode fondée sur un modèle (essentiellement une sélection de variables par la méthode LASSO [en anglais Least Absolute Shrinkage and Selection Operator] suivie d'une régression linéaire robuste) a été proposée pour générer les prédictions de juillet à partir d'observations satellites longitudinales des niveaux de végétation locaux ainsi que des mesures météorologiques régionales. La question sur la prédiction du rendement des récoltes a pu être retirée du questionnaire de l'EGC de juillet pour le Manitoba, ce qui a réduit le fardeau de réponse.

Technique de régression de base : XGBoost et apprenants de base linéaires

Plusieurs techniques de prédiction ont été examinées, notamment les forêts d'arbres décisionnels, les machines à vecteur de support, les modèles linéaires généralisés elastic-net standardisés et les perceptrons multicouches. Des considérations relatives à l'exactitude et au temps de calcul nous ont menés à concentrer notre attention sur XGBoost Note de bas de page 3, combiné aux apprenants de base linéaires.

Validation de la fenêtre mobile progressive pour éviter les fuites de renseignements temporels

La principale contribution de ce projet de recherche est l'adaptation de la validation de la fenêtre mobile progressive (RWFV) Note de bas de page 2 comme protocole d'ajustement d'hyperparamètres. La validation RWFV est un cas particulier de validation progressive Note de bas de page 2; il s'agit d'une famille de protocoles de validation conçus pour éviter la fuite de renseignements temporels pour un apprentissage supervisé fondé sur des données de série chronologique.

Supposons que vous formiez un modèle de prédiction en vue d'un déploiement pour le cycle de production de 2021. L'illustration suivante présente un schéma de validation de la fenêtre mobile progressive, selon une fenêtre d'entraînement de cinq ans et une fenêtre de validation de trois ans.

Description - Figure 1 Exemple d'un système de validation par fenêtre mobile progressive. Cette figure représente, à titre d'exemple, un système de validation à fenêtre mobile progressive avec une fenêtre de formation de cinq ans et une fenêtre de validation de trois ans. Un modèle de validation de ce type est utilisé pour déterminer la configuration optimale des hyperparamètres à utiliser lors de la formation du modèle de prédiction réel qui sera déployé en production.

La case bleue au bout du schéma représente le cycle de production de 2021 et les cinq cases blanches à sa gauche correspondent à la fenêtre d'entraînement de cinq ans qui est utilisée. Cela signifie que les données d'entraînement pour le cycle de production de 2021 seront celles portant sur les cinq années la précédant strictement et immédiatement (2016 à 2020). Pour la validation, ou l'ajustement d'hyperparamètres, pour le cycle de production de 2021, les trois cases noires au-dessus de la case bleue correspondent à notre choix d'une fenêtre de validation de trois ans.

Le protocole RWFV est utilisé pour choisir la configuration optimale à partir de l'espace de recherche d'hyperparamètres, comme suit :

  • fixer temporairement une configuration candidate arbitraire d'hyperparamètres provenant de l'espace de recherche;
  • utiliser cette configuration pour former un modèle pour l'année de validation de 2020 à l'aide de données provenant des cinq années de 2015 à 2019;
  • utiliser ce modèle formé obtenu pour fournir des prédictions pour l'année de validation de 2020; calculer en conséquence les erreurs de prédiction au niveau de la parcelle pour 2020;
  • agréger les erreurs de prédiction au niveau de la parcelle jusqu'à obtenir une mesure de rendement numérique unique appropriée;
  • répéter la procédure pour les deux autres années de validation (2018 et 2019).

En calculant la moyenne des mesures de rendement pour les années de validation 2018, 2019 et 2020, le résultat obtenu est une mesure de rendement numérique unique ou une erreur de validation pour la configuration temporairement fixée d'hyperparamètres.

Cela doit ensuite être répété pour toutes les configurations candidates d'hyperparamètres de l'espace de recherche d'hyperparamètres. La configuration optimisée à réellement déployer en production est celle qui fournit la meilleure mesure de rendement agrégée. Il s'agit de la validation de la fenêtre mobile progressive ou plus précisément notre adaptation de cette méthode au contexte de la prédiction de rendement des cultures.

Il convient de noter que le protocole susmentionné respecte la contrainte opérationnelle selon laquelle, pour le cycle de production de 2021, le modèle de prédiction formé doit avoir été formé et validé en fonction de données provenant d'années strictement précédentes; en d'autres termes, le protocole évite la fuite de renseignements temporels.

Mise à l'essai adaptée à la production par série d'erreurs de prédiction de cycles de production virtuels

Pour évaluer (de la façon la plus pertinente dans le contexte de production des EGC) le rendement de la stratégie de prédiction susmentionnée fondée sur XGBoost (linéaire) et RWFV, les scientifiques des données ont calculé la série d'erreurs de prédiction obtenue si la stratégie avait réellement été déployée pour des cycles de production passés. En d'autres termes, ces erreurs de prédiction de cycles de production passés virtuels ont été considérées comme des estimations de l'erreur de généralisation dans le contexte de la production statistique des EGC.

L'illustration suivante représente la série d'erreurs de prédiction des cycles de production virtuels.

Description - Figure 2 Série d'erreurs de prédiction des cycles de production virtuels. Les cycles de production virtuels sont exécutés pour les années de référence passées, comme décrit dans la figure 1. Comme les données de rendement réel des cultures sont déjà connues pour les cycles de production passés, il est possible de calculer les erreurs de prévision réelles si la stratégie de prévision proposée avait été effectivement déployée pour les cycles de production passés (représentés par des cases oranges). La série d'erreurs de prévision qui en résulte pour les cycles de production passés est utilisée pour évaluer la précision et la stabilité de la stratégie de prévision du rendement des cultures proposée.

Il s'agit alors de répéter, pour chaque cycle de production virtuel (représenté par une case orange), ce qui vient d'être décrit pour la case bleue. La différence est maintenant la suivante : pour la case bleue (c.-à-d. le cycle de production actuel), il N'EST PAS encore possible de calculer les erreurs de production ou de prédiction au moment de la prédiction du rendement des cultures (en juillet), puisque la saison de croissance n'est pas terminée. Cependant, il est possible de le faire pour les cycles de production virtuels passés (les cases orange).

Ces erreurs de prédiction pour des cycles de production virtuels passés peuvent être illustrées dans le graphique suivant :

Description - Figure 3 Comparaison graphique de la stratégie de prédiction XGBoost(Linear)/RWFV avec le modèle de référence. La ligne rouge représente la série d'erreurs de production simulées de la stratégie de base, tandis que la ligne orange représente la stratégie XGBoost(Linear)/RWFV. Cette dernière stratégie présente des erreurs de prédiction toujours plus faibles sur des cycles de production passés virtuels consécutifs.

La ligne rouge représente les erreurs de prédiction du modèle de référence, alors que la ligne orange, celles de la stratégie XGBoost/RWFV. Les lignes grises représentent les erreurs de prédiction pour chaque configuration candidate d'hyperparamètres de notre grille de recherche choisie (qui comprend 196 configurations).

La stratégie de prédiction XGBoost/RWFV a enregistré des erreurs de prédiction moindres que la méthode de référence, de façon constante sur des essais de production historiques consécutifs.

La stratégie proposée est actuellement en phase finale d'essai de préproduction, pour être appliquée conjointement par des spécialistes de domaine et les méthodologistes du programme agricole.

Importance de l'évaluation des protocoles

L'équipe a choisi de ne pas utiliser de méthode de validation habituelle, comme la validation test ou la validation croisée, ni une estimation générique d'erreur de généralisation, comme une erreur de prédiction sur un ensemble de données d'essai mis de côté au préalable.

Ces décisions sont fondées sur notre détermination à proposer un protocole de validation et un choix d'estimations d'erreurs de généralisation (respectivement, RWFV et séries d'erreurs de prédiction de cycles de production virtuels) qui soient bien plus pertinents et adéquats pour le contexte de production des EGC.

Les méthodologistes et praticiens en apprentissage automatique sont encouragés à évaluer attentivement si les protocoles de validation ou mesures d'évaluation génériques sont effectivement adaptés à leur cas d'utilisation et, dans le cas contraire, à rechercher d'autres options plus pertinentes et utiles pour le contexte donné. Pour de plus amples renseignements au sujet de ce projet, veuillez envoyer un courriel à statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.

Date de modification :

Contrôle de version avec Git pour les professionnels de l’analyse

Par : Collin Brown, Statistique Canada

Le déroulement des opérations en analyse et science des données est plus complexe que jamais : un plus grand nombre de données doivent être analysées, le prix des ressources informatiques continue à diminuer et on assiste à un afflux de disponibilité de logiciels libres.

Pour ces raisons ainsi que d'autres, un nombre significatif de professionnels de l'analyse sans formation en informatique classique se sont tournés vers la programmation. Ces progrès ont permis aux professionnels de l'analyse d'étendre la portée de leur travail, d'accomplir de nouvelles tâches et d'utiliser ces outils pour en améliorer la valeur.

Toutefois, cette rapide adoption de la programmation par des professionnels de l'analyse a introduit de nouvelles complexités et en a exacerbé d'anciennes. Dans le déroulement des opérations de l'informatique classique (comme le développement de logiciels), de nombreux outils et techniques ont rigoureusement été développés au cours des décennies pour s'adapter à cette complexité.

À mesure qu'un plus grand nombre de professionnels de l'analyse intègrent la programmation et l'utilisation de logiciels libres à leur travail, l'adoption de certaines pratiques exemplaires de l'informatique peut également leur être particulièrement bénéfique en leur permettant de gérer les analyses et le déroulement d'opérations complexes.

Quand les professionnels de l'analyse devraient-ils utiliser des outils et techniques pour gérer la complexité? Prenons l'exemple de l'enjeu du contrôle de version d'un code source. En particulier, comment plusieurs professionnels de l'analyse peuvent-ils travailler sur un même code de base sans entrer en conflit et comment peuvent-ils rapidement revenir à des versions antérieures du code?

Utilisation de Git pour le contrôle de version

Même sans connaître les détails de Git, le scénario suivant démontrera les avantages d'un tel outil.

Imaginez qu'une petite équipe de professionnels de l'analyse utilise Git (en anglais uniquement) (puissant outil généralement utilisé en génie logiciel) et GCCode (instance interne de GitLab (en anglais uniquement) du gouvernement du Canada).

Les trois professionnels de l'analyse (Jane, Jean et Janice) créent un rapport mensuel faisant intervenir la production de statistiques descriptives et l'estimation de certains paramètres de modèle. Le code qu'ils utilisent pour mettre en œuvre cette analyse est rédigé en Python et les ensembles de données sur lesquels ils effectuent leur analyse sont enregistrés à un emplacement de fichiers partagés auquel ils ont tous accès. Ils doivent produire le rapport le jour où le nouvel ensemble de données est reçu et, ensuite, l'envoyer à leur gestion supérieure pour examen.

L'équipe utilise GCCode pour gérer de manière centrale leur code source et la documentation rédigée en gitlab flavoured markdown (article en anglais). Ils utilisent une version simplifiée d'un modèle de ramification git efficace (article en anglais) pour éviter les conflits lorsqu'ils acheminent individuellement le code vers le répertoire. L'équipe utilise une approche d'examen interne pour les propositions de révision (PR); ce qui signifie qu'une personne autre que celle ayant soumis la PR doit examiner et approuver les modifications apportées dans la PR.

Ce mois-ci est particulier; sans grand préavis, le superviseur informe l'équipe d'un changement de format dans lequel l'un des ensembles de données est reçu. Ce changement de format est important et nécessite des modifications importantes au code de base de l'équipe. En particulier, une fois les modifications apportées, le code prendra en charge le prétraitement des données au nouveau format, mais ne prendra plus en charge l'ancien format.

Les trois employés se répartissent rapidement les responsabilités pour intégrer les modifications nécessaires au code de base :

  • Jane rédigera le nouveau code nécessaire pour prendre en charge le nouveau format de données;
  • Jean rédigera les tests automatisés qui vérifieront la justesse du code de Jane;
  • Janice mettra à jour la documentation pour décrire les changements du format des données.

L'équipe a employé de bonnes pratiques de contrôle de version; la branche principale de leur répertoire central sur GCCode est à jour et applique correctement l'analyse nécessaire pour produire les rapports des mois précédents.

Jane, Jean et Janice commencent par l'extraction à partir de leur répertoire sur GCCode pour s'assurer que chacun de leur répertoire local est à jour. Une fois cette étape effectuée, ils extraient chacun une nouvelle branche de la branche principale. Du fait de la taille réduite de l'équipe, ils choisissent d'omettre la majeure partie des données supplémentaires présentées dans l'article un modèle de ramification efficace (article en anglais) et extraient uniquement leurs propres branches directement de la branche principale.

Description - Figure 1 Exemple de trois employés interagissant avec un répertoire Git. Il y a une boîte en haut du diagramme représentant un répertoire distant. En dessous, il y a trois boîtes côte à côte représentant les répertoires locaux de chacun des trois employés. Pour chaque boîte, il y a une figure montrant la branche de l'employé provenant de la branche principale, qui est représentée par une série de cercles, où chaque cercle est une sauvergarde sur la branche de l'employé. Les flèches pointant vers et depuis les répertoires locaux et distants montrent que les employés envoient et retirent des informations sur le répertoire distant pour que leurs modifications soient synchronisées avec celui-ci. Enfin, le répertoire distant comporte une figure montrant les trois branches d'employés hors de la branche principale réunies dans un seul diagramme, ce qui indique que le travail des trois employés se déroule en parallèle et que le travail de chaque employé n'entre pas en conflit avec celui des autres.

Les trois employés travaillent à leur poste de travail local, validant leurs modifications au fur et à mesure tout en suivant de bonnes pratiques de validation (article en anglais). À la fin de la journée de travail, ils archivent leurs branches sur le répertoire distant. Le répertoire distant comprend alors trois nouvelles branches présentant chacune plusieurs sauvegardes différentes de la branche principale. Chacun désigne l'un des deux autres membres de l'équipe comme pair devant procéder à l'examen et, le lendemain, l'équipe approuve les changements et fusionne la branche de chaque membre à la principale.

Description - Figure 2 Exemple de trois branches qui fusionnent à nouveau dans la branche principale par le biais d'une proposition de révision. Il y a un cercle représentant la sauvegarde la plus récente de la branche principale au moment où chacune des branches des trois employés est créée à partir de la branche principale. Il y a maintenant trois branches sur lesquelles chaque employé a travaillé en parallèle pour mettre en œuvre son flux de travail, sans entrer en conflit avec le travail des autres. Chaque branche a plusieurs cercles consécutifs représentant les sauvegardes effectuées. À droite de la figure, les trois branches parallèles convergent vers un deuxième cercle représentant le point de départ de la nouvelle branche principale après la fusion des trois branches des employés.

Le jour où le rapport doit être généré, ils exécutent le nouveau code, génèrent le rapport avec succès et l'envoient à leur haute direction en ayant utilisé les nouvelles données.

Plus tard ce jour-là, ils reçoivent une demande urgente de reproduire les rapports des trois mois précédents à des fins de vérification. Du fait du changement de code pour prendre en charge le nouveau format de données, le code actuel n'est plus compatible avec les ensembles de données antérieurs.

Git à la rescousse!

Heureusement, l'équipe utilise Git pour gérer son code de base. Parce que l'équipe utilise Git, elle peut effectuer une extraction selon la sauvegarde précédant l'application des changements et retourner temporairement le dossier de travail à l'état précédant changements. Maintenant que le dossier a été modifié, l'équipe peut produire rétroactivement les trois rapports à partir des données des trois mois précédents. Enfin, elle peut ensuite procéder à une extraction selon la sauvegarde la plus récente de la branche principale, pour pouvoir utiliser le nouveau code de base maintenant adapté au changement de format.

Même si la situation décrite ci-dessus correspond à un déroulement d'opérations d'analyse, l'équipe a pu utiliser Git pour éviter une situation qui aurait, sans cela, été très gênante et chronophage.

En savoir davantage sur Git

Votre travail tirerait-il profit de l'utilisation des pratiques décrites ci-dessus? Vous ne connaissez pas Git? Voici quelques ressources pour vous lancer :

  • La première partie du tutoriel en anglais Fonctionnement de Git (en anglais uniquement) d'IBM fournit un modèle abstrait du fonctionnement de Git et présente bon nombre des termes techniques relatifs à Git et leur lien avec ce modèle.
  • L'article en anglais un modèle de ramification efficace (en anglais uniquement) fournit un guide sur la façon de réaliser des travaux de programmation en collaboration, à l'aide d'un modèle ramifié et d'un cadre de travail pouvant être ajusté à des besoins particuliers.
  • Le Manuel de Git fournit un examen très détaillé du processus de fonctionnement de Git. Il est divisé en sections, permettant ainsi de passer en revue les portions les plus pertinentes pour votre cas d'utilisation.

Quelles sont les étapes suivantes?

Appliquer le contrôle de version à un code source n'est qu'une des nombreuses pratiques inspirées de l'informatique pouvant être appliquées au déroulement des opérations de l'analyse et de la science des données.

Outre le versionnage du code source, de nombreux professionnels de la science des données et de l'analyse peuvent tirer profit du versionnage des données (voir l'article en anglais Contrôle de version de données pour une application de ce concept) ou du versionnage de modèles (p. ex. voir l'article en anglais Versionnage de modèle MLFlow).

Outre le versionnage, les professionnels en analyse peuvent avoir recours à de nombreuses autres pratiques informatiques comme des essais automatisés (article en anglais), respecter des normes de codage (p. ex. l'article en anglais guide de style PEP 8 de Python) et des outils de gestion d'environnements et de progiciels (p. ex. l'article en anglais pip et environnements virtuels dans Python).

Ces ressources sont d'excellentes sources pour commencer à explorer la façon dont des pratiques informatiques de gestion de la complexité peuvent être utilisées pour améliorer le déroulement des opérations d'analyse et de science des données!

Date de modification :

Charges de travail protégées dans le nuage public

Par : Reginald Maltais, Statistique Canada

Cet été, le besoin s'est accru de disposer de services flexibles auxquels on pourrait accéder en dehors des réseaux traditionnels et qu'on pourrait élargir rapidement, tout en maintenant la sécurité des renseignements confiés à la fonction publique. L'occasion pour la science des données de fournir des connaissances pertinentes afin d'aider les décideurs et la population en général n'a jamais été aussi grande. Les scientifiques des données doivent toutefois pouvoir s'assurer que les activités liées aux données et au travail se déroulent dans des environnements sécurisés. Le recours à l'infonuagique présente des avantages évidents pour les scientifiques des données, et l'évolution récente de la politique du gouvernement du Canada (GC) et les services d'infonuagique accessibles par l'intermédiaire de Services partagés Canada permettent d'offrir des avantages encore plus grands grâce à l'utilisation des services infonuagiques pour les charges de travail protégées.

Nouvelles directives relatives à l'infonuagique

Le GC a amorcé l'adoption d'une infrastructure infonuagique publique dès 2014. À l'époque, la politique sur l'utilisation de l'infonuagique manquait de clarté. On considérait comme très risqué de mettre des renseignements protégés dans le nuage, de sorte que seuls des projets en science des données reposant sur des données non classifiées pouvaient être réalisés.

En réponse à l'absence d'orientation claire sur l'utilisation du nuage public, la Stratégie d'adoption de l'informatique en nuage a été élaborée en 2016. Au même titre que l'Orientation sur l'utilisation sécurisée des services commerciaux d'informatique en nuage et l'Orientation relative à la résidence des données électroniques, toutes deux publiées en 2017, la manière d'utiliser l'infrastructure infonuagique publique pour les charges de travail non classifiées conformément à la politique du GC est devenue claire. À compter de 2018, le GC a adopté une politique axée essentiellement sur l'infonuagique et a commencé à accomplir le travail préparatoire en vue de l'adoption de services d'infonuagique publique pour les charges de travail protégées. Les ententes-cadres relatives aux services d'infonuagique de Services partagés Canada et la Directive sur les services et le numérique diffusée récemment fournissent les derniers éléments de l'orientation stratégique pour permettre aux ministères de passer aux charges de travail de catégorie Protégé B, intégrité moyenne et disponibilité moyenne (PBMM).

Maintenant, pour ne pas avoir recours à l'infrastructure infonuagique, une exemption doit être obtenue auprès du Comité d'examen de l'architecture intégrée du GC. Les obstacles à l'utilisation de l'infrastructure infonuagique et au traitement des données largement réparties ont été enlevés au niveau politique, et les équipes en science des données peuvent travailler en collaboration avec leurs services des technologies de l'information (TI) afin de tirer profit de l'infonuagique pour soutenir efficacement leurs charges de travail.

Résidence des données par rapport à souveraineté des données

Description - Carte des trajectoires de données Une carte indiquant deux trajectoires potentielles des données. Une visant à conserver les données à l'intérieur du pays et une permettant aux données de traverser une frontière internationale.

La résidence des données fait référence à l'emplacement physique ou géographique des renseignements numériques d'une organisation lorsqu'elles sont inactives. Il incombe au dirigeant principal de l'information (DPI) du ministère de veiller à ce que les données protégées B résident géographiquement au Canada pour que les données puissent ainsi bénéficier des protections offertes par les lois canadiennes. Cette responsabilité ne s'applique pas aux données qui sont en transit.

La souveraineté des données se rapporte aux autres pays qui souhaitent appliquer leurs lois aux données canadiennes, peu importe l'endroit où résident géographiquement les données. Elle s'applique à l'accès aux données qui sont en transit et inactives. La question de la souveraineté est une question de risque, et c'est pourquoi le livre blanc Souveraineté des données et nuage public a été produit.

Si l'on s'attend à ce que la grande majorité des données protégées demeurent au Canada, des dispositions prévoient les options à envisager lorsque ce n'est peut-être pas possible. Les DPI ont la responsabilité d'évaluer les options en fonction d'un ensemble de critères, les critères minimaux étant les suivants :

  • Réputation du ministère et du GC;
  • Aspects juridiques et ententes;
  • Valeur opérationnelle conférée par le service;
  • Disponibilité sur le marché;
  • Capacités techniques.

La distinction entre les données inactives et les données en transit est importante pour les charges de travail en science des données, car certains aspects des services des fournisseurs d'infonuagique peuvent se trouver en dehors de votre région de stockage de données privilégiée. Le fait de permettre la transmission des données de façon sécurisée entre les régions géographiques peut correspondre à la différence entre un service d'apprentissage automatique préconçu et la nécessité de concevoir votre propre système. La décision d'utiliser ou non ces types de services dépend des besoins du projet, qui doivent être évalués au cas par cas avec le propriétaire fonctionnel. La compréhension des flux de données et des risques associés à l'utilisation de différentes plateformes et de différents outils est une étape importante dans la mise en production des projets.

S'appuyer sur des bases solides et conformes

Dans le déploiement de l'infrastructure de TI traditionnelle, il peut être très long de répondre aux exigences de conformité organisationnelles. Cela a souvent eu pour effet d'entraîner des retards dans la mise en place des systèmes, en ralentissant la cadence des unités opérationnelles. Les exigences de conformité varient et évoluent aussi au fil du temps, ce qui rend les choses encore plus difficiles pour les scientifiques des données. Leur suivi doit être assuré par un professionnel attitré. Le développement et le maintien d'un environnement contrôlé exigent des investissements continus à plusieurs niveaux de l'infrastructure de TI. L'adoption de l'infrastructure infonuagique publique permet au GC d'hériter de la mise en œuvre par le fournisseur de contrôles de sécurité et de conformité généraux, ce qui contribue à assurer des normes élevées de protection des renseignements personnels et de sécurité des données.

Les fournisseurs d'infonuagique publique offrent aussi souvent des services de sécurité intégrés, lesquels permettent l'automatisation de certains aspects de la surveillance et de la sécurité par l'unité pertinente au sein de votre organisme. Cela diminue non seulement l'effort nécessaire pour configurer certains aspects de l'infrastructure de sécurité, mais appuie aussi l'organisme dans sa réaction rapide aux événements, ce qui réduit le risque global. En adoptant plusieurs couches de sécurité indépendantes, la force d'impulsion et l'efficacité d'une éventuelle attaque sont réduites, et l'effort nécessaire pour lancer une attaque réussie devient difficile et coûteux. La mise sur pied d'une telle infrastructure permet aussi aux scientifiques des données de travailler en étroite collaboration avec les partenaires des TI et de la sécurité, tout en permettant à chacun de s'attarder à son champ d'expertise, et contribue à réduire le délai global nécessaire pour mettre les produits en production.

Le modèle de sécurité partagée

Description - Science des données Un nuage tenu par deux mains représentant un fournisseur de services infonuagiques et des équipes de support informatique départementales.

L'utilisation de l'infrastructure infonuagique publique fait intervenir le concept de modèle de sécurité partagée, dans lequel le fournisseur d'infonuagique est responsable de la sécurité du nuage et le ministère est responsable de la sécurité dans le nuage. Cela signifie que le fournisseur d'infonuagique s'assurera que ses installations et ses services sont sécurisés jusqu'à ce que les ministères commencent à utiliser et à configurer les services fournis. Les aspects précis des services qui relèvent de la responsabilité du fournisseur ou du ministère dépendent de la manière dont le ministère utilise les services.

Un ensemble préliminaire de contrôles de base est présenté dans les Mesures de sécurité du nuage du GC, lesquels permettent d'assurer que les environnements informatiques en nuage sont protégés à la réception d'une activation aux termes de l'entente-cadre relative aux services d'infonuagique du GC. Des travaux sont aussi actuellement en cours pour automatiser la mise en œuvre des mesures de sécurité auprès de différents fournisseurs d'infonuagique, ce qui permet d'assurer l'uniformité et le succès de la mise en œuvre dans un délai rapide de prestation des services. Tandis que l'ensemble des mesures de sécurité de base ont été mises en place et qu'une nouvelle infrastructure configurée automatiquement a été déployée, les scientifiques des données peuvent travailler en collaboration avec leurs partenaires des TI afin de mettre à profit des configurations courantes leur permettant de déployer leurs charges de travail plus rapidement tout en garantissant au client que ses données sont sécurisées.

Un peu comme l'utilisation responsable de l'infrastructure infonuagique exige un changement dans la manière dont l'architecture des applications est mise en œuvre, un changement dans la mise en œuvre des mesures de sécurité est également nécessaire. L'ensemble des exigences de base est le même, mais les fournisseurs d'infonuagique peuvent dévoiler la personne à l'origine du changement et l'endroit à partir duquel le changement a été effectué. Cela permet aux scientifiques des données de se consacrer au déploiement de modèles à rendement élevé, tandis que le personnel de la sécurité peut détecter les erreurs de configuration et la non-conformité et réagir rapidement pour éviter que les risques se matérialisent.

Vision de la sécurité infonuagique pour le secteur public canadien

Le Centre canadien pour la cybersécurité (CCC) offre un moyen de surveiller toutes les activités liées à l'infonuagique chez différents fournisseurs, en contribuant à prévenir les attaques qui ont été lancées. Il agit comme un mécanisme de soutien pour le Centre des opérations de sécurité, en permettant de déceler les événements avant qu'ils ne deviennent des problèmes d'envergure. Par l'intermédiaire d'évaluations de fournisseurs, de documents relatifs à la sécurité et de capteurs infonuagiques, le CCC fournit un autre mécanisme de sécurité et aide les praticiens de la sécurité et les scientifiques des données à faire la démonstration à leur ministère qu'ils gèrent les risques associés à l'utilisation de l'infrastructure infonuagique publique.

Une approche pangouvernementale

Le CCC peut agir à titre de catalyseur de la cybersécurité non seulement pour le GC, mais pour l'ensemble des organisations canadiennes. De même, les Mesures de sécurité du nuage du GC fournissent un ensemble de pratiques exemplaires pour quiconque déploie des charges de travail dans l'infrastructure infonuagique publique. Ces dernières vont de pair avec le travail accompli par Services partagés Canada dans le cadre du Service de courtage infonuagique du GC afin que les fournisseurs d'infonuagique publique obtiennent une certification pour les charges de travail de catégorie PBMM. L'ensemble des politiques, des pratiques et des protections décrites représente les bases solides à partir desquelles les ministères, ou les organisations canadiennes voulant assurer la protection des renseignements personnels des Canadiens, peuvent établir des services fiables et sécurisés. Ensemble, ces dernières permettent le déploiement de charges de travail en science des données axées sur l'offre de services au moyen de données protégées à un niveau de risque raisonnable.

Étant donné l'évolution récente de la politique sur l'infonuagique, c'est une période emballante pour réaliser des travaux en science des données au GC. Les occasions d'acquérir de nouvelles connaissances et d'offrir des avantages aux Canadiens atteignent en ce moment un sommet sans précédent. Vous pouvez commencer à mettre vos charges de travail dans le nuage public en communiquant avec vos partenaires des TI et en découvrant comment vous pouvez tirer le meilleur parti de votre entente-cadre relative aux services d'infonuagique. Si votre ministère n'est pas prêt à tirer profit des services d'infonuagique, communiquez avec l'équipe de l'Analyse des données en tant que service (ADS) de Statistique Canada pour savoir si la plateforme d'ADS pourrait vous être utile.

Date de modification :

Utiliser la science des données et les outils infonuagiques pour évaluer les répercussions économiques de la COVID-19

Par : Razieh Pourhasan, Statistique Canada

Alors que les effets de la COVID-19 sur l’économie continuent de se faire ressentir à un rythme effréné, il est plus important que jamais pour les Canadiens et les entreprises de disposer de renseignements fiables pour comprendre ces changements. Une équipe de scientifiques des données et d’analystes de Statistique Canada travaille fort pour répondre à ce besoin d’information en automatisant l’extraction des données textuelles de sources variées et l’analyse de ces données en temps quasi réel. Ces sources comprennent le système InfoMedia du gouvernement du Canada, des sites Web d’entreprises et éventuellement des comptes Twitter et LinkedIn d’entreprises. Cependant, l’inclusion des médias sociaux dépendra de l’obtention des permissions nécessaires. Le projet est axé sur les répercussions économiques d’événements sociaux ou politiques d’importance, comme la pandémie de COVID-19, sur la vie des Canadiens.

La propagation rapide du virus et l’impact de la pandémie ont créé la nécessité d’obtenir des données rapidement et de haute qualité à un rythme sans précédent pour informer les Canadiens et appuyer la prise de décisions. Les événements reliés à la COVID-19 ont complètement changé la façon dont le travail est mené et ont établi des attentes différentes dans une nouvelle réalité numérique. La rapidité est plus importante que jamais et Statistique Canada utilise des outils reliés à la science des données pour réagir rapidement à l’évolution de la situation et mieux comprendre les répercussions sur notre pays et notre économie.

Pour produire différents types de produits analytiques à l’intention des décideurs et des Canadiens, les analystes s’intéressent à différents types de renseignements. Par exemple, les analystes qui réalisent des analyses sur la COVID-19 cherchent à relever des nouvelles pertinentes pour répondre à des questions comme celles qui suivent :

  • Quelles sont les entreprises les plus concernées ou touchées par la pandémie?
  • Ces entreprises ont-elles fermé des succursales?
  • Ces entreprises participent-elles à la production d’équipement de protection individuelle?
  • Combien de pertes d’emploi ont été signalées?

Le projet comporte deux phases selon la source d’extraction et la permission donnée pour le moissonnage du Web. Au cours de la première phase, l’extraction se limite au système InfoMedia du gouvernement du Canada et aux sites de nouvelles de quelques entreprises. Au cours de la deuxième phase, l’extraction inclura éventuellement un plus grand nombre d’entreprises canadiennes ainsi que des données issues de Twitter et de LinkedIn, à la condition d’obtenir l’approbation d’accéder à ces sources de données pour pouvoir les utiliser.

Répondre aux besoins des analystes

Afin de mieux répondre aux divers besoins des analystes dans leur effort pour fournir des renseignements actuels aux Canadiens, l’équipe de la science des données optimise la méthode d’extraction et les analyses en temps réel dans le but d’inclure le plus de renseignements possible de différentes sources. L’équipe établit le déroulement de ses travaux en utilisant une infrastructure robuste qui est accessible sur la plateforme de Statistique Canada depuis le nuage Azure de Microsoft. Ensuite, Kubeflow est utilisé pour créer des carnets Jupyter en scripts python, Elasticsearch (ES) est utilisé pour l’absorption et l’intégration des données, et des tableaux de bord Kibana sont utilisés pour concevoir des tableaux de bord et des représentations visuelles afin de présenter les résultats aux analystes.

Description - nuage Azure

Diagramme montrant les icônes du nuage Azur, Kubeflow, Elasticsearch et Kibana.

  • Les étapes de Kubeflow sont : moissonnage du Web, Selenium et Python; prétraitement des données textuelles, Pandas, Re et NLTK; apprentissage automatique, modélisation de sujets et sélection de variables.
  • Les étapes d’Elasticsearch sont : Ingestion des données; Recherche de mots, moteur de recherche Elasticsearch; Analyse des données.
  • Les étapes de Kibana sont : Tableau de bord; Visualisation personnalisée, Vega.

L’étape suivante consiste à créer un pipeline Kubeflow pour extraire automatiquement des données textuelles en procédant au moissonnage des sites de nouvelles des entreprises à l’aide de Selenium et de modules Python, pour effectuer le prétraitement et le nettoyage des données au moyen de Pandas, de Regular Expression et de Natural Language Toolkit, et enfin, pour absorber les données extraites dans ES aux fins d’analyse. Les scientifiques des données réalisent ensuite l’analyse exploratoire des données, ce qui peut être aussi simple que le compte de mots ou la recherche de mots clés à l’aide du moteur de recherche ES ou aussi complexe qu’un algorithme d’apprentissage automatique comme dans le cas de la modélisation de sujets pour le regroupement de documents appliquée au moyen du code Python intégré.

Les résultats des analyses sont par la suite visualisés dans le tableau de bord Kibana au moyen de diagrammes à barres ou à secteurs, de nuages de mots, de nuages de points ou de graphiques combinatoires personnalisés à l’aide de l’interface Vega dans Kibana. Ces tableaux de bord représentent les produits finaux qui sont présentés aux analystes, soit en leur fournissant un lien URL auquel ils peuvent accéder par l’intermédiaire de leur compte infonuagique, soit en définissant un avis par courriel afin qu’ils puissent recevoir les produits souhaités dans leur boîte de réception.

Regard vers l’avenir

À l’heure actuelle, le projet est axé sur les données d’entreprise, mais il pourrait être élargi pour englober d’autres sources d’information tirées du Web. Il pourrait aussi être adapté pour inclure différentes unités d’analyse, comme les produits, l’emploi, les données financières, les comportements sociaux et les comportements influant sur la santé, les sentiments, etc.

Un analyste consacre généralement de 5 à 30 heures par mois pour effectuer des recherches sur le Web, trouver des renseignements utiles, les extraire et les compiler. Ce projet pourrait réduire cette durée de trois fois ou même plus, ce qui en fait une option très efficace pour les analystes.

À l’aide de l’extraction de données automatisée, de l’application d’algorithmes d’apprentissage automatique et du modèle de prestation infonuagique, il est en général plus facile de réaliser des analyses en temps réel et de fournir rapidement les résultats aux décideurs. Les entreprises canadiennes et les Canadiens profitent de tous de ces renseignements actuels, tandis que notre société cherche à mieux comprendre les répercussions de la COVID-19 sur notre économie et notre société.

Membres de l’équipe

Scientifiques des données : Chatana Mandava, Razieh Pourhasan, Christian Ritter.

Analystes : Tracey Capuano, Lisa Fleury, David Glanville, François Lavoie, Joanne Moreau, Anthony Peluso.

Date de modification :

Un étudiant coop explore la puissance des mégadonnées

Par : Kathrin Knorr, Université Simon Fraser

Note de la rédaction : Ce qui suit est une version révisée d’un article paru dans la série The Co-op Close-up (en anglais seulement) de l’université Simon-Fraser (SFU). L'article a été modifié et traduit par le Réseau de la science des données pour la fonction publique fédérale, et reproduit ici avec l'autorisation de SFU.

L’article présente Mihir Gajjar, un étudiant coop travaillant à la Division de la science des données de Statistique Canada. Il a obtenu un baccalauréat en technologies de l’information et de communication à l’Université d’Ahmedabad, en Inde. Il a récemment complété le programme de maîtrise professionnelle en informatique à SFU. L’article mentionne également Meredith Thomas, son ancienne superviseure à Statistique Canada.

SFU : Peux-tu nous parler de Statistique Canada? Comment c'est d'y travailler?

Mihir Gajjar : Je travaille pour l'extraordinaire Division de la science des données de Statistique Canada. Des scientifiques des données y collaborent avec des analystes spécialisés, des méthodologistes et des informaticiens, dans le but d'élaborer des stratégies en matière de traitement des mégadonnées, d'apprentissage automatique et d'intelligence artificielle.

Je trouve que la culture professionnelle à Statistique Canada présente plusieurs points forts, comme les réunions quotidiennes de type « scrum » (mêlée) avec le superviseur et les membres de l'équipe, au cours desquelles on établit les tâches prioritaires de la journée et on discute d'autres questions importantes. J'aime également la méthode de développement agile, adoptée sur la plupart des projets de façon à ce que chaque projet ait un cycle de vie de quatre mois avant d'être prêt pour le déploiement. Nous avons également des séminaires techniques hebdomadaires sur l'apprentissage automatique où nous étudions les progrès de ce domaine et où nous analysons des articles de recherche pertinents.

SFU : Peux-tu nous en dire un peu plus sur le ou les projets auxquels tu travailles en tant qu'étudiant coop?

Mihir Gajjar, étudiant à l'Université Simon Fraser (programme de maîtrise en informatique) et étudiant coop à la Division de la science des données.

Photo: D. Taiwo.

Mihir Gajjar : À Statistique Canada, les analystes passent beaucoup de temps à rechercher des renseignements sur les entreprises. La quantité de nouvelles augmentant de façon exponentielle, il devient difficile de suivre manuellement toutes les informations publiées. Le projet auquel je travaille vise à automatiser les tâches qui servent à détecter les événements présentant un intérêt dans les articles de presse et à en extraire les attributs.

Par exemple, les événements présentant un intérêt qui sont liés aux entreprises peuvent comprendre les fusions et acquisitions, les événements qui se produisent sur les marchés des actions et les ouvertures de succursales, les attributs de ces événements pouvant être des éléments comme leurs dates et leurs emplacements. Au bout du compte, mon travail permet aux analystes économiques de passer moins de temps à rechercher des données et de se consacrer plus longuement à leurs analyses. Ce travail multidisciplinaire est réalisé en collaboration par différentes équipes, notamment des gestionnaires de portefeuille et de comptes, des méthodologistes et d'autres scientifiques des données.

Les principales tâches techniques comprennent la recherche de similitudes entre les articles, à des fins de classement, de suppression des doublons et de synthèse des contenus. L'objectif consiste à fournir aux spécialistes un tableau de bord, afin de faciliter la détection et le suivi des événements recherchés sur une période déterminée.

Les données de nos modèles consistent en 1,5 million d'articles de presse provenant de la plate-forme Dow Jones Data News and Analytics et d'InfoMedia, un système gouvernemental partagé. On a utilisé l'analyse exploratoire des données et le prétraitement de texte de base pour former divers modèles d'apprentissage automatique.

SFU : Comment le programme « Big Data » de la SFU t'a-t-il préparé pour ton poste d'étudiant coop?

Mihir Gajjar : Le programme « Big Data » de la SFU m'a fourni des bases théoriques, ainsi qu'une expérience pratique, grâce à des conférences et à un environnement d'apprentissage en mode « projet ». Des sujets comme l'apprentissage automatique m'ont aidé à acquérir de solides bases théoriques, tandis que des travaux pratiques et des projets de groupe m'ont permis de mettre en œuvre les concepts appris et d'essayer de nouveaux outils et de nouvelles technologies.

Outre de solides connaissances techniques, le programme m'a doté de compétences essentielles, telles que le travail en équipe, la communication et le partage d'idées avec d'autres personnes, les présentations, la réflexion critique, la rédaction technique et la gestion du temps.

SFU : Quels sont les principaux enseignements que tu retiendras de cette expérience d'étudiant coop?

Mihir Gajjar : Grâce au projet auquel j'ai travaillé, j'ai beaucoup appris sur les aspects pratiques du travail de scientifique des données. Le projet a notamment consisté à extraire des données à l'aide d'une interface de programmation d'applications d'une entreprise externe, ce qui m'a amené à rencontrer son équipe de développement sur une base hebdomadaire. Cela m'a aidé à adopter un mode de réflexion analytique et à concevoir des questions, ce qui contribue à une meilleure compréhension de la qualité et de la profondeur des données. J'ai également découvert l'importance de bien cerner les besoins de l'utilisateur afin d'élaborer un produit qui réponde à ses exigences.

Grâce à mon travail à Statistique Canada, j'ai pu participer à des projets réels de science des données et j'ai appris comment élaborer et mettre en œuvre un plan technique pour atteindre les objectifs souhaités. Cette première expérience professionnelle en tant que scientifique des données m'a permis d'améliorer mes compétences et d'être plus confiant quant à mes capacités à occuper des fonctions de ce type au cours de ma carrière.

SFU : Que pensent les employeurs de nos étudiants?

Meredith Thomas, chef, Division de la science des données : Toujours disposé à découvrir de nouvelles approches technologiques et disposant de capacités à travailler aussi bien seul qu'en équipe, Mihir s'est avéré parfaitement adapté à notre environnement de travail. Dans le cadre de son travail, ici à Statistique Canada, Mihir continue, en partenariat avec un scientifique des données principal, à se perfectionner, passant, avec un égal enthousiasme et sans se disperser, de projets de traitement du langage naturel à des projets de traitement d'images. Il est maintenant un membre estimé de notre équipe.

Date de modification :

La plateforme infonuagique d'analyse avancée liée à la COVID-19

Par : Allie MacIsaac, Statistique Canada

Alors que les Canadiens étaient de plus en plus préoccupés par les répercussions de la COVID-19 sur notre société et sur notre économie en mars 2020, Statistique Canada a commencé à recueillir des renseignements cruciaux pour soutenir les citoyens et les activités essentielles du gouvernement durant cette période sans précédent.

Parallèlement, les analystes, les chercheurs et les scientifiques des données de l'ensemble du gouvernement du Canada se sont heurtés à un autre problème urgent : comment pourraient-ils fournir, de manière rapide et sécuritaire, des renseignements indispensables à la population canadienne, tout en travaillant à distance et en ayant un accès limité à leurs outils et à leur infrastructure informatique habituels?

Modernisation accélérée

Alors que le besoin de capacités analytiques devenait de plus en plus urgent, une équipe de spécialistes de Statistique Canada s'est réunie pour accélérer l'Analyse des données en tant que service (ADS) et explorer des solutions de données ouvertes. L'objectif était de doter les scientifiques des données de l'environnement de travail dont ils ont besoin pour mener une analyse plus approfondie et offrir un aperçu des répercussions de la COVID-19 au Canada.

Le résultat est une plateforme infonuagique d'analyse avancée liée à la COVID-19 : un espace collaboratif virtuel conçu pour la science des données qui permet d'intégrer des données provenant de sources fiables de Statistique Canada, d'extraire des renseignements et de les présenter dans une plateforme centrale qui comprend des options de présentation et de diffusion robustes.

Non seulement cette solution répond aux besoins des scientifiques des données, mais elle fait également progresser la modernisation de l'organisme national de statistique en aidant à atteindre les objectifs stratégiques de la Stratégie de données de Statistique Canada (y compris en mettant davantage l'accent sur la science des données) à un rythme accéléré.

Une équipe spéciale multidisciplinaire qui a créé un environnement de science des données « de rêve »

La plateforme d'analyse est le résultat d'une collaboration entre la Division de la science des données de Statistique Canada, l'équipe informatique d'ADS, l'équipe d'infonuagique et des partenaires de Microsoft.

Chaque groupe avait un rôle important à jouer. L'équipe d'infonuagique a jeté les bases du travail, en fournissant une base conteneurisée robuste à l'aide de Kubernetes et de l'infrastructure sous-jacente Azure comme infrastructure en tant que service. L'équipe d'ADS a travaillé sur l'intégration des composantes de service, y compris le portail, à l'aide des services sous-jacents. L'équipe de la science des données a travaillé avec les autres équipes pour déterminer les logiciels libres à installer et pour définir les pipelines et les flux de données. En comptant sur des spécialistes de la science des données qui travaillent de concert avec des spécialistes de l'infonuagique et des plateformes, l'équipe a pu fournir une plateforme évolutive et accessible qui répond aux besoins en matière de science des données. Le résultat est un environnement doté d'une variété d'outils avancés permettant le traitement des images satellitaires ainsi que le traitement du langage naturel et l'automatisation.

En éliminant les obstacles internes et externes, l'équipe a pu créer un utilitaire cohérent en quelques semaines, tout en travaillant en sécurité depuis la maison. Cela a été rendu possible grâce à une approche axée sur l'utilisateur pour moderniser l'expérience des utilisateurs de données et mieux répondre à leurs besoins en pleine évolution, tout en leur fournissant une aide complète en matière de science des données.

« La plateforme a eu une incidence positive considérable sur notre façon de travailler. Nous sommes en mesure d'obtenir de meilleurs résultats, de travailler de manière agile et de voir les avantages de la modernisation en action », explique Sarah MacKinnon, directrice adjointe de la Division de l'exécution de projets de technologie de l'information à Statistique Canada.

À l'intérieur de l'ensemble d'utilitaires, vous trouverez une plateforme à la fine pointe de la technologie, un « environnement de science des données de rêve », précise Sevgui Erman, directrice de la Division de la science des données à Statistique Canada. « Cet environnement répond aux besoins de calcul à grande capacité des scientifiques de données tout en comblant nos besoins en matière d'environnements de travail et d'outils collaboratifs. L'ensemble d'utilitaires est muni d'outils d'intégration continue et de développement continu qui permettent des pipelines de données extensibles et faciles à reproduire, ainsi que des capacités avancées de gestion de données et de modèles. »

« Vous pouvez aussi élaborer vos flux de travail à l'aide de GitHub Actions et de Kubeflow Pipelines. Comme il comporte des modèles pour la formation, la validation, le prétraitement et le service de modèle de transfert d'état représentationnel (REST), et des intégrations à des plateformes en tant qu'offres de service comme Databricks ou les lacs de données gérées, l'espace d'analyse avancée vous donne la liberté d'utiliser les outils de votre choix, et il vous donne une couche unifiée à partir de laquelle les utiliser », ajoute Blair Drummond, analyste à la Division de la science des données de Statistique Canada et membre de l'équipe spéciale.

Coup d'œil à l'intérieur de l'ensemble d'utilitaires

L'équipe a rassemblé les meilleurs outils de source libre disponibles pour créer un ensemble d'utilitaires permettant aux utilisateurs d'accéder à distance à des données chargées par Statistique Canada, en mettant l'accent sur la COVID-19. Cet environnement puissant repose sur une suite complète d'outils de la science et de l'analyse des données, notamment :

  • Jupyter Notebooks pour les langages de programmation R et Python
  • Poste de travail à distance Linux
  • Power BI
  • QGIS
  • R Shiny
  • Pachyderm (traçabilité et pipelines des données)
  • Kubeflow Pipelines
  • MLflow pour le suivi des modèles et les applications Web personnalisées
  • Solutions de stockage partageables en libre-service

La plateforme comprend aussi des canaux de discussion de soutien servant à guider les utilisateurs et à obtenir leur rétroaction.

De cette manière, les utilisateurs de données sont mieux outillés pour analyser les répercussions de la COVID-19 et échanger leurs observations de manière sécuritaire et confidentielle.

Pourquoi utilise-t-on les logiciels libres? Comme l'explique monsieur Drummond, « les outils logiciels libres donnent aux utilisateurs plus de flexibilité et d'autonomie à l'égard de leur propre travail. Ils sont accessibles et misent sur l'approche participative, ce qui signifie que les utilisateurs peuvent également obtenir du soutien et de l'aide pour l'analyse ». De plus, les résultats sont reproductibles par leurs collègues d'autres ministères. Il s'agit donc d'une approche qui intègre des logiciels libres et qui soutient la collaboration entre les scientifiques de données, à l'avantage de tous les utilisateurs.

La plateforme en action

En tirant parti des ressources en termes de fonctionnalités de la plateforme, les scientifiques de données de Statistique Canada ont travaillé sans relâche lors de la mise en service de la plateforme.

Un exemple est le travail effectué par Kenneth Chu, méthodologiste principal à la Division de la science des données de Statistique Canada, qui a été l'un des premiers à adopter la nouvelle plateforme et à tester ses capacités en effectuant une analyse statistique massive, mise en parallèle qui, autrement, n'aurait pas été possible au moyen de l'infrastructure informatique actuellement en place.

Monsieur Chu a ajusté un modèle bayésien hiérarchique (aux séries chronologiques provinciales des dénombrements des décès attribuables à la COVID-19) qui estimait les effets des mesures de distanciation physique sur la transmissibilité de la COVID-19. Il y avait, cependant, certains paramètres d'entrée importants mais inconnus, à savoir les taux provinciaux de létalité réels par la COVID-19 (le taux étant défini comme la probabilité conditionnelle de mourir de la COVID-19 étant donné qu'une personne en est infectée). Leurs estimations, qui sont simples en théorie, sont simplement les ratios provinciaux du nombre de décès attribuables à la COVID-19 au nombre réel d'infections par la COVID-19. Malheureusement, l'absence presque totale de connaissances sur cette dernière valeur, en particulier pendant la phase initiale de la pandémie, a rendu les estimations des taux de létalité réels très incertaines.

L'analyse de sensibilité parallélisée consistait simplement à exécuter indépendamment l'analyse bayésienne un nombre suffisamment important de fois (200, pour être précis), chaque fois en sélectionnant aléatoirement les taux de létalité provinciaux parmi la gamme complète des valeurs plausibles. Chaque exécution indépendante nécessitait environ huit heures et était effectuée à l'aide de deux cœurs de calcul. L'analyse de sensibilité complète, exécutée sur ADS, a donc nécessité au total 3 200 heures de traitement informatique, ce qui aurait été impossible au moyen de l'infrastructure préexistante.

La capacité d'exécuter des flux de travail distribués et massivement mis en parallèle contribue à l'infrastructure de mégadonnées de Statistique Canada. En outre, une telle capacité de calcul permet également l'utilisation de nombreuses méthodes statistiques sans distribution (p. ex. celles fondées sur le rééchantillonnage, sur la permutation), qui, bien qu'elles exigent des capacités énormes de calcul, complètent les techniques analytiques complexes modernes de l'apprentissage automatique ou des statistiques bayésiennes.

Dans l'ensemble, les capacités informatiques accrues appuient la mission de l'organisme qui consiste à fournir des renseignements actuels et essentiels aux Canadiens qui doivent faire face aux défis sans précédent que pose la pandémie de COVID-19.

Une approche sécuritaire et progressive

Actuellement, la plateforme d'analyse liée à la COVID-19 est accessible aux employés de Statistique Canada et aux autres ministères du gouvernement du Canada ayant établi des partenariats en matière de données de recherche avec l'organisme. Si vous êtes un scientifique des données qui est intéressé par cette plateforme, veuillez communiquer avec nous pour participer et découvrir la plateforme en envoyant un courriel à statcan.analyticalplatform-platformeanalytique.statcan@statcan.gc.ca.

Cette plateforme s'inscrit dans l'approche progressive de Statistique Canada visant à accorder l'accès à la plateforme de façon sécuritaire. Pour la première phase, l'accès à la plateforme était limité aux employés internes de Statistique Canada travaillant avec des données accessibles au public seulement. La deuxième phase comprenait l'accès à des données non classifiées (données accessibles au public seulement) et l'accès à la plateforme a été rendu disponible à certains employés du gouvernement du Canada sur invitation. À la troisième phase, le portail présentera des données de type Protégé B, et une combinaison d'ensembles de données publiques et d'autres ensembles de données seront utilisés. On fera la promotion de l'accès à cette plateforme à l'extérieur de l'organisme sur le site Web de Statistique Canada. À chaque phase, les mesures de protection nécessaires, y compris des évaluations régulières de la sécurité, devront être mises en œuvre pour assurer le maintien d'un environnement sécurisé en tout temps.

Alors que ce projet continue de progresser, Statistique Canada se réjouit à l'idée de collaborer avec la communauté de la science des données et de continuer à fournir des renseignements d'importance cruciale à tous les Canadiens.

Équipe du projet et collaborateurs :

Christian Ritter, Statistique Canada; Blair Drummond, Statistique Canada

Date de modification :

Réseau de la science des données pour la fonction publique fédérale (RSDFPF)

Les renseignement contenus dans ces articles sont fournis « tel quel » et Statistique Canada n'offre aucune garantie explicite ou implicite, ce qui comprend, sans s'y limiter, les garanties de qualité marchande et d'adaptation à un usage particulier. En aucun cas Statistique Canada ne sera tenu responsable des dommages directs, particuliers, indirects, consécutifs ou autres, quelle qu'en soit la cause.

Articles récents

Des données aux décisions : Visualisations et modélisation d'apprentissage automatique des données de propriétés locatives

Sujets abordés dans cet article : Traitement et ingénierie des données Vision par ordinateur

Selon le recensement de 2021, il y avait 5 millions de ménages locataires au Canada, ce qui signifie qu'environ un tiers des ménages canadiens sont locataires. Une grande partie de cette activité de location se fait toutefois dans le secteur privé, ce qui entraîne des données limitées et incohérentes. Pour combler ces lacunes dans les connaissances, NorQuest College a acquis, traité, analysé et représenté visuellement les annonces immobilières de la partie prenante, le Community Data Program, pour l'Ontario.

Continuer la lecture: Des données aux décisions : Visualisations et modélisation d'apprentissage automatique des données de propriétés locatives


Adoption d'une pratique de MLOps générale pour les applications de production de l'apprentissage automatique dans l'Indice des prix à la consommation canadien

Sujets abordés dans cet article : Traitement et ingénierie des données Analyse et production de texte Éthique et apprentissage automatique responsable

L'utilisation responsable de l'apprentissage automatique (AA) dans les statistiques officielles requiert divers processus pour veiller à ce que l'AA soit élaboré de manière fiable et axé sur les mesures, et qu'il soit directement lié à la satisfaction des besoins en matière de traitement d'un programme statistique précis. Ces processus peuvent être opérationnalisés dans un cadre connu sous le nom d'opérations d'apprentissage automatique (ML Operations ou MLOps). Se concentrant sur le cas d'utilisation de l'Indice des prix à la consommation (IPC) canadien, le présent article donne un aperçu de la manière dont divers processus de MLOps peuvent être créés pour garantir que les modèles d'AA qui classent des produits uniques dans les catégories du système de classification de l'IPC respectent des pratiques exemplaires en matière d'assurance de la qualité, de transparence, de gouvernance et de provenance, assurant ainsi la résolution du problème de détérioration du modèle et la fiabilité des statistiques de prix calculées à partir de données administratives. L'article décrit également comment le cadre des MLOps pourrait être mis en œuvre en offrant une vue d'ensemble d'un modèle de maturité, et se concentre sur plusieurs composantes clés importantes pour les statistiques de prix.

Continuer la lecture: Adoption d'une pratique de MLOps générale pour les applications de production de l'apprentissage automatique dans l'Indice des prix à la consommation canadien


Détection des renseignements identificatoires personnels dans les données non structurées à l'aide de Microsoft Presidio

Sujets abordés dans cet article : Éthique et utilisation responsable de l'apprentissage automatique

À l'ère numérique, les organisations recueillent et stockent de grandes quantités de données sur leurs clients, leurs employés et leurs partenaires. Ces données contiennent souvent des renseignements identificatoires personnels (RIP). Avec la multiplication des violations de données et des cyberattaques, la protection des RIP est devenue une préoccupation majeure pour les entreprises et les organismes gouvernementaux. Dans le présent article, Statistique Canada présente en détail Microsoft Presidio et la façon dont cet outil aide les organisations au Canada à se conformer aux lois en matière de protection de la vie privée.

Continuer la lecture: Détection des renseignements identificatoires personnels dans les données non structurées à l'aide de Microsoft Presidio


Autres articles récents

Parcourir les articles par sujet

Vision par ordinateur
Traitement et ingénierie des données
Analyses prédictives
Analyse et génération de texte
Éthique et utilisation responsable de l'apprentissage automatique
Autre

Participants de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Vos échantillons au travail

Les biobanques contribuent aux avancements en matière de santé des générations actuelles et futures. Les résumés des études ayant reçu l'approbation pour utiliser les échantillons entreposés sont publiés dans la section Projets sur la page Web de la biobanque de l'ECMS, afin que les répondants soient informés de la façon dont leurs échantillons seront utilisés. Occasionnellement, un petit nombre d'échantillons sera utilisé aux fins de contrôle de la qualité.

Confidentialité et protection des renseignements personnels

Des chercheurs appartenant à des établissements reconnus peuvent soumettre des demandes d'accès aux échantillons de la biobanque pour des projets de recherche scientifique. Lorsqu'une demande de projet de recherche est reçue à Statistique Canada :

Pour retirer ses échantillons de la biobanque

Si vous souhaitez retirer vos échantillons pour un projet d'étude en particulier ou pour toute étude future, vous devez rédiger une demande et l'envoyer à Statistique Canada par courriel à statcan.ccahs-ecsac.statcan@statcan.gc.ca. S'il vous plait, y inclure votre nom et prénom, la date approximative de votre participation à l'enquête, votre adresse au moment de votre participation ainsi que votre date de naissance. Ces informations seront utilisées seulement pour s'assurer que les bons échantillons biologiques soient retirés et détruits.

Pour nous joindre

Si vous avez des idées ou suggestions concernant le projet ou encore des questions concernant l'utilisation d'échantillons biologiques dans la recherche sur la santé, n'hésitez pas à nous contacter :

Date de modification :

Enquête canadienne sur la santé et les anticorps contre la COVID-19

Aperçu

L'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC) est une enquête conçue pour aider à évaluer l'étendue de l'état de santé associé à la pandémie de COVID-19, comme les infections actives au COVID-19 et la prévalence des anticorps au COVID-19 parmi un échantillon représentatif de Canadiens. L'enquête fournit aussi une plateforme pour explorer les enjeux de santé publique émergents, notamment l'impact de la COVID-19 sur la santé et le bien-être social.

En savoir plus à propos de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Échantillons

L'ECSAC entrepose, suite à leur consentement, les échantillons de gouttes de sang séché et de la salive des participants âgés de 18 ans et plus. Des échantillons supplémentaires provenant de l'Enquête canadienne sur les mesures de la santé (ECMS) sont disponibles sur la page Web de la biobanque de l'ECMS.

Recherche

L'ECSAC est mise en valeur par la représentativité nationale, provinciale et territoriale de sa cohorte, ainsi que par la possibilité d'agréger les résultats obtenus auprès des échantillons de sang séché avec des données du contenu de l'ECSAC comprenant, parmi d'autres, des questions portants sur leurs symptômes et l'état de la COVID-19 chez les participants, leur risque de la contracter, leurs facteurs de risque, leurs changements de comportement en matière de santé liés à la COVID-19 ou leur évaluation de santé.

Pour plus d'information à propos de la recherche, veuillez consultez la page Web pour les chercheurs et l'Enquête canadienne sur les mesures de la santé (ECMS)

Participants

En consentant à l'entreposage de leurs gouttes de sang séché et de la salive pour des études futures sur la santé, les participants contribuent à l'avancement des connaissances et des soins de santé. Nous assurons l'excellence scientifique, tout en protégeant la confidentialité de nos répondants.

Plus d'information pour les participants

Pour obtenir plus de renseignements au sujet de votre résultat de test d'anticorps, veuillez consultez le site Web suivant.

Résultats – Foire aux questions

Si vous vous sentez stressé en raison de  l'ECSAC ou de la pandémie de COVID-19 en général, veuillez consulter le lien suivant pour obtenir une liste de conseils et de ressources pour vous aider à prendre soin de votre santé mentale et physique en ces temps stressants.

Santé mentale et physique pendant la pandémie de COVID-19

Projets

Projets actuels et récents de la biobanque.

En savoir plus sur nos projets

Pour nous joindre

Pour toute question sur l'ECSAC : statcan.ccahs-ecsac.statcan@statcan.gc.ca

Pour toute autre question sur la biobanque : statcan.chms-biobank-ecms-biobanque.statcan@canada.ca

Date de modification :

Centre de la science des données

Centre de la science des données

En cette ère du numérique en croissance rapide, les organismes statistiques doivent trouver des moyens innovants pour exploiter la puissance des données. Statistique Canada adopte les possibilités que la science des données lui offre pour mieux répondre aux besoins d'information des Canadiens.

Science des données à Statistique Canada

Science des données à Statistique Canada

Statistique Canada est l'un des leaders dans l'adoption par le gouvernement du Canada de la science des données et de l'intelligence artificielle. Découvrez les avantages de la science des données et comment ils sont utilisés au sein de l’organisme statistique national du Canada.

Réseau de la science des données pour la fonction publique fédérale

Réseau de la science des données pour la fonction publique fédérale

Rejoignez une communauté de passionnés de la science des données pour tout savoir sur la science des données dans la fonction publique, collaborer sur des projets, partager des informations sur les derniers outils, et bien plus encore.

Mission : renforcer les capacités en science des données

Mission : renforcer les capacités en science des données

Découvrez la mission de Statistique Canada qui consiste à développer la capacité en matière de science des données au sein du gouvernement du Canada et au-delà.

Expertise en science des données

Expertise en science des données

Découvrez les différents domaines d'expertise des scientifiques des données de Statistique Canada qui sont des chefs de file de la recherche et du développement de pointe.

Projets en science des données

Projets en science des données

Découvrez certains des projets innovants de l'organisme qui sont alimentés par la science des données en utilisant le traitement du langage naturel, les images satellites, les réseaux neuronaux et d'autres techniques de pointe.

Ressources en science des données

Ressources en science des données

Apprenez-en davantage sur la science des données avec ces ressources utiles.

Programme de placement en sciences des données

Programme de placement en sciences des données

Statistique Canada accroît la capacité en sciences des données à l'échelle du gouvernement du Canada. Apprenez-en plus sur le programme de placement en sciences des données et comment devenir un scientifique des données.

Communiquez avec nous

Communiquez avec le Centre de la science des données pour obtenir de plus amples renseignements sur la science des données à Statistique Canada.