Intelligence documentaire : l'art de l'extraction d'information à partir des PDF

Auteur : Anurag Bejju, Statistique Canada

Les documents PDF (Portable Document Format) sont l'un des formats de fichier les plus populaires et les plus utilisés. Tandis que le monde évolue rapidement vers une économie numérique, les PDF sont devenus une solution écologique au papier, permettant aux créateurs de diffuser, d'imprimer et de visualiser facilement un fichier dans sa mise en page prévue sur de multiples plateformes. Ils contiennent une foule de renseignements importants pour les organisations, les entreprises et les institutions, dans un format qui reflète le papier qu'ils ont remplacé.

Bien que les PDF constituent un moyen fiable de formater et de stocker des données, il n'est pas toujours facile d'en extraire les données. Statistique Canada a tiré parti de la puissance des technologies d'intelligence artificielle responsables et de l'application de solutions de science des données pour rechercher et élaborer des solutions permettant d'extraire de précieux renseignements de sources non structurées comme les PDF et les images numérisées. L'application de ces solutions permet de réduire les coûts et garantit que les renseignements sont fournis aux Canadiens de manière plus opportune, plus précise et plus sécurisée. En obtenant, puis en extrayant des données à partir de documents PDF, nous pouvons concevoir des moyens de générer des statistiques significatives de haute qualité en temps opportun. Cela permet de gagner un temps considérable dans la saisie des données et permet aux chercheurs de consacrer leur temps à des analyses plus importantes.

Qu'est-ce que l'intelligence documentaire?

Travailler avec des documents non structurés est complexe et peut entraîner un gaspillage de ressources précieuses. De nombreux services financiers, organismes gouvernementaux et autres grandes entreprises travaillent avec des documents imprimés et électroniques qui doivent être transformés et stockés dans un format de données consultable et interrogeable (p. ex. JSON ou CSV). Le processus d'extraction et de transformation des données à partir des PDF est souvent effectué manuellement et peut demander beaucoup de ressources, car les membres doivent copier des parties de renseignements pertinents et les formater dans une structure tabulaire. Ce processus peut être lourd, entraîner des erreurs et provoquer des retards. Même avec de multiples ressources pour la récupération des données, il faut parfois des jours ou des semaines pour obtenir des renseignements concrets.

En réponse à ces défis, les entreprises technologiques créent des outils d'automatisation qui permettent de saisir, d'extraire et de traiter les données à partir de divers formats de documents. Les technologies d'intelligence artificielle, telles que le traitement automatique du langage naturel, la vision par ordinateur, l'apprentissage profond et l'apprentissage automatique, créent des solutions en libre accès qui transforment les renseignements non structurés et semi-structurés en données exploitables. Ces technologies d'intelligence documentaire sont appelées traitement intelligent des documents.

Quels sont les avantages du traitement intelligent des documents?

Le traitement intelligent des documents présente six avantages essentiels :

  1. Temps : Il faut moins de temps pour traiter et créer des sources de données structurées.
  2. Argent : Il permet de réaliser des économies en réduisant le travail d'extraction manuelle.
  3. Efficacité : Il supprime les tâches répétitives en milieu de travail et accroît la productivité.
  4. Fiabilité : Il augmente la précision des renseignements extraits et réduit les erreurs humaines.
  5. Évolutivité : Il offre la possibilité de faire évoluer un grand volume de documents à un coût relativement faible.
  6. Polyvalence : Il traite les documents structurés, semi-structurés et non structurés dans la plupart des formats.

Types de documents PDF

Les trois types de documents PDF les plus courants sont les suivants :

  1. PDF structurés : La mise en page et la structure sous-jacentes de ces documents restent fixes dans l'ensemble des données. En créant des segments, puis en leur apposant des étiquettes appropriées, on construit des pipelines d'automatisation pour extraire et structurer les valeurs dans un format tabulaire. Ces modèles peuvent être reproduits pour des formulaires présentant des dispositions similaires.
  2. PDF textuels non structurés : Si vous pouvez cliquer et glisser pour sélectionner du texte dans une visionneuse PDF, votre document PDF est un document textuel. Extraire du texte libre de ces documents peut être assez simple, mais le faire en tenant compte de la mise en page ou du contexte peut être extrêmement difficile. La base de données Système électronique de données, d'analyse et de recherche (SEDAR) utilisée par Statistique Canada (qui sera expliquée plus en détail plus bas dans l'article) contient des millions de PDF textuels non structurés qui nécessitent des techniques avancées de traitement intelligent des documents afin de créer des ensembles de données structurés.
  3. PDF non structurés numérisés : Les documents PDF numérisés contiennent des renseignements de formes et de tailles multiples. Des étapes supplémentaires permettent de localiser les composants du texte et d'effectuer une reconnaissance optique des caractères pour extraire le texte. Une fois que le PDF est converti en texte et que l'emplacement du texte est spécifié, vous pouvez déployer des méthodes semblables à celles utilisées pour les PDF textuels pour extraire des renseignements. Les dernières recherches dans ce domaine seront abordées dans les prochains articles de cette série.

Bibliothèques de source libre disponibles pour l'extraction de PDF

Progiciel 1 : PyPDF2

PyPDF2 (le contenu de cette page est en anglais) est une boîte à outils PDF entièrement en langage Python provenant du projet PyPDF. Elle peut extraire des données de fichiers PDF ou manipuler des fichiers PDF existants pour produire un nouveau fichier. Cela permet au développeur de recueillir, diviser, transformer et fusionner des PDF ainsi que d'extraire les métadonnées associées au PDF. Comme le montre l'image, la précision de l'extraction du texte est inférieure à celle des autres logiciels, et vous ne pouvez pas extraire d'images, de cadres de délimitation, de graphiques ou d'autres supports de ces documents. Il s'agit d'un bon outil si le seul objectif est d'extraire du texte libre indépendamment de sa mise en page.

Extrait de code


import PyPDF2

with open(pdf_path, "rb") as f:
    reader = PyPDF2.PdfFileReader(f)
    page = reader.getPage(1)
    output = page.extractText()
	

Exemple de PDF

Progiciel 1 : PyPDF2 - Exemple de PDF

Sorties

Progiciel 1 : PyPDF2 - Sorties
Description - PyPDF2 Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et d'une colonne de notes à droite. La boîte de sortie affichant l'extraction du texte a le bon texte, mais elle est indépendante de la mise en page originale ou des détails délimitant les sous-titres et le texte normal.

Progiciel 2 : PyMuPDF

PyMuPDF (le contenu de cette page est en anglais) est une liaison Python pour MuPDF, soit une visionneuse, un moteur de rendu et une boîte à outils légers pour les documents PDF, les fichiers XPS et les livres numériques, qui est développée et mise à jour par Artifex Software inc. Il permet au développeur d'obtenir des fonctionnalités beaucoup plus avancées basées sur la mise en page, avec une capacité de rendu et une vitesse de traitement élevée. Les programmeurs ont accès à de nombreuses fonctions importantes de MuPDF à partir d'un environnement Python. Comme PDFMiner (décrit sous Progiciel 3), ce progiciel ne fournit que des renseignements sur la mise en page, et le développeur doit construire des processus pour les structurer et les formater.

Extrait de code


import fitz
import pandas as pd

doc = fitz.open(good_pdf_path)
page = doc[4]
_, _, p_width, p_height = page.MediaBox
text = page.getText("blocks")
output = pd.DataFrame(text, columns=["block_xMin", "block_yMin", "block_xMax", "block_yMax", "block_text", "block_id", "page" ])

Exemple de PDF

Progiciel 2 : PyMuPDF - Exemple de PDF

Sorties

Progiciel 2 : PyMuPDF - Sorties
Description - PyMuPDF Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et d'une colonne de date à droite. La boîte de sortie montrant l'extraction des données a la bonne mise en page, mais le texte est constitué de formules prêtes à être formatées par l'utilisateur.

Progiciel 3 : PDFMiner

Le progiciel PDFMiner (le contenu de cette page est en anglais) vous permet d'analyser tous les objets d'un document PDF en objets Python et d'analyser, de regrouper et d'extraire du texte ou des images de manière lisible par un humain. Il prend également en charge des langues comme le chinois, le japonais et le coréen ainsi que l'écriture verticale. Comme le montre l'image, vous pouvez obtenir des renseignements tels que le cadre de délimitation exact de chaque élément de texte sous forme de chaîne, ainsi que d'autres renseignements sur la mise en page (polices, etc.). Bien que ce progiciel puisse être excellent pour localiser des éléments dans le document, le développeur doit construire des processus pour le structurer et le formater.

Extrait de code


from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure
import pandas as pd
output = []
def parse_layout(layout):
    """Function to recursively parse the layout tree."""

    for lt_obj in layout:

        if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
            output.append([lt_obj.__class__.__name__, lt_obj.bbox, lt_obj.get_text()])
        elif isinstance(lt_obj, LTFigure):
            parse_layout(lt_obj)  # Recursive

with open(pdf_path, "rb") as f:
    parser = PDFParser(f)
    doc = PDFDocument(parser)
    page = list(PDFPage.create_pages(doc))[1]  # Page Number
    rsrcmgr = PDFResourceManager()
    device = PDFPageAggregator(rsrcmgr, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    interpreter.process_page(page)
    layout = device.get_result()
    _, _, width, height = page.mediabox
    parse_layout(layout)

output = pd.DataFrame(output, columns=["bbox_type", "coords", "token"])
output[["word_xMin", "word_yMin", "word_xMax", "word_yMax"]] =  output["coords"].to_list()

Exemple de PDF

Progiciel 3 : PDFMiner - Exemple de PDF

Sorties

Progiciel 3 : PDFMiner - Sorties
Description - PDFMiner Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a un texte et une mise en page similaires, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne, ainsi que la police et d'autres renseignements de mise en page. L'utilisateur doit tout de même créer des processus déterminant la structure pour remplir le tableau.

Progiciel 4 : Tabula-py

Tabula-py (le contenu de cette page est en anglais) est une simple enveloppe Python de tabula-java, qui peut lire un tableau à partir de PDF et le convertir en format DataFrame de pandas. Il vous permet également de le convertir en fichier CSV, TSV et JSON et d'utiliser des fonctionnalités avancées comme la grille, qui fonctionne bien pour les lignes séparant les cellules du tableau. Il peut être difficile d'extraire et de détecter correctement le contenu des tableaux pour les PDF plus complexes.

Extrait de code


import tabula
import pandas as pd

output = tabula.read_pdf(pdf_path, lattice=False, pages=4)[0]

Exemple de PDF

Progiciel 4 : Tabula-py - Exemple de PDF

Sorties

Progiciel 4 : Tabula-py - Sorties
Description - Tabula-py Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a une mise en page similaire, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne, ainsi que la police et d'autres renseignements de mise en page.

Progiciel 5 : Camelot

Tout comme Tabula-py, Camelot (le contenu de cette page est en anglais) est également une bibliothèque Python qui peut vous aider à extraire les tableaux des documents PDF. Il s'agit du progiciel le plus efficace et le plus avancé, qui vous permet de contrôler le processus d'extraction des tableaux. Il fournit également des mesures de précision et d'espacement des blancs pour le contrôle de la qualité, ainsi que des méthodes de segmentation des pages pour améliorer l'extraction.

Extrait de code


import camelot
tables = camelot.read_pdf(good_pdf_path)
output = tables[0].df

Exemple de PDF

Progiciel 5 : Camelot - Exemple de PDF

Sorties

Progiciel 5 : Camelot - Sorties
Description - Camelot Exemple de PDF et Sorties

Une image d'un exemple de PDF avec une structure tabulaire composée d'une en-tête, d'un sous-titre, de rubriques et de colonnes de date à droite. La boîte de sortie montrant l'extraction des données a une mise en page similaire du texte, avec le cadre de délimitation exact pour chaque élément de texte sous forme de chaîne.

Utilisation du traitement intelligent des documents dans le projet SEDAR

Statistique Canada a acquis l'ensemble de données historiques du système de classement SEDAR. Les spécialistes des données disposent ainsi d'une source de données de rechange qui leur permet d'obtenir des renseignements précieux et de fournir des renseignements en temps opportun. SEDAR est un système utilisé par les sociétés canadiennes cotées en bourse pour déposer des documents relatifs aux valeurs mobilières (tels que des états financiers, des rapports annuels et des notices annuelles) auprès de diverses commissions canadiennes des valeurs mobilières. Les employés de Statistique Canada utilisent la base de données SEDAR pour la recherche, la confrontation des données, la validation, le processus de mise à jour de la base de sondage, et plus encore. Toutefois, l'extraction de données à partir des documents relatifs aux titres publics se fait manuellement et prend beaucoup de temps.

Pour gagner en efficacité, l'équipe des sciences des données a mis au point un pipeline d'intelligence documentaire basé sur l'intelligence artificielle qui détermine et extrait correctement les variables financières clés des bons tableaux d'un document PDF. Cela a permis de transformer une grande quantité de documents publics non structurés provenant de SEDAR en ensembles de données structurées. Cette transformation permet l'automatisation et l'extraction de renseignements économiques relatifs aux entreprises canadiennes.

La première partie du processus d'automatisation consiste à déterminer les pages requises dans le document PDF, ce qui est fait à l'aide d'une méthodologie élaborée à Statistique Canada. Une sous-section du document comprenant une forte densité de tableaux est d'abord établie. Cette sous-section de pages est ensuite traitée afin d'extraire les caractéristiques principales, qui sont utilisées par un modèle de classification par apprentissage automatique formé pour déterminer les bonnes pages. La deuxième partie du processus d'automatisation porte sur l'extraction des tableaux. Les pages déterminées à la première étape servent d'entrée pour un algorithme d'extraction de tableaux élaboré à l'interne appelé algorithme Spatial Layout based Information and Content Extraction (SLICE)(le contenu de cette page est en anglais), qui extrait tous les renseignements dans un tableau en format numérique. Les données sont présentées dans une application Web interactive et peuvent être téléchargées en format CSV.

Ce processus robuste automatise le processus d'extraction des variables financières pour un maximum de 70 000 PDF par an en quasi temps réel. Cela permet de réduire considérablement le nombre d'heures passées à déceler et à saisir manuellement les renseignements requis et de réduire la redondance des données.

Souhaitez-vous en savoir plus sur l'intelligence documentaire?

Les outils à code source ouvert fonctionnent pour les processus simples d'extraction de PDF, mais ne sont pas adaptés aux sources complexes, non structurées et variables de documents PDF. Dans les prochains articles, nous aborderons les dernières recherches en matière d'apprentissage automatique et d'intelligence artificielle dans le domaine de l'intelligence documentaire. Nous parlerons encore également de SLICE, le nouvel algorithme de vision par ordinateur conçu et développé par Statistique Canada que nous avons mentionné auparavant. Cet algorithme a la capacité d'utiliser simultanément des renseignements textuels, visuels et de mise en page pour segmenter plusieurs points de données dans une structure tabulaire. Cette solution modulaire fonctionne avec des tableaux non structurés et effectue l'extraction de variables financières à partir d'une variété de documents PDF.

Date de modification :

Créer des visualisations de données convaincantes

Par : Alden Chen, Statistique Canada

Introduction

La visualisation des données est un élément clé de nombreux projets de science des données. Pour certains intervenants, notamment les spécialistes du domaine et les cadres qui ne sont pas nécessairement des experts techniques, il s'agit de la principale voie par laquelle ils voient, comprennent et interagissent avec les projets de données. Par conséquent, il est important que les visualisations communiquent des renseignements aussi clairement que possible. Trop souvent, les visualisations sont entravées par certains défauts courants qui les rendent difficiles à interpréter ou, pire encore, sont trompeuses. Cet article passe en revue trois pièges courants de la visualisation que les communicateurs de données et les consommateurs de données devraient comprendre, ainsi que quelques suggestions pratiques pour les contourner.

Distorsion et perception

La qualité la plus importante d'une visualisation efficace est qu'elle représente fidèlement les données sous-jacentes. Il y a distorsion lorsque les données présentées ne peuvent être perçues avec précision. Le degré de distorsion de la visualisation est directement lié à la facilité de perception de l'information présentée. Lors de la conception de visualisations, il est important de se souvenir que des encodages visuels différents sont perçus différemment, ce qui peut mener à des résultats déformés et mal interprétés.

En 1957, le psychologue Stanley Smith Stevens, dans son ouvrage intitulé On the psychophysical law (le contenu de cette page est en anglais) a démontré l'existence d'une relation empirique, généralement non linéaire, entre l'ampleur physique et l'ampleur perçue d'un certain stimulus. Il a dégagé une relation de la formule ψ(I)=kIa, où I représente l'intensité physique du stimulus et ψ(I) représente la sensation perçue (Stevens, 1957). La variable la plus importante ici est a, l'exposant qui relie la perception du stimulus à la magnitude physique réelle du stimulus (k est une constante de proportionnalité pour adapter les unités). Notre perception varie en fonction de la manière dont les données sont encodées. Lors de l'expérience d'un codage avec a inférieur à un, l'ampleur du stimulus a tendance à être sous-estimée. Lors de l'expérience d'un codage avec a supérieur à un, l'ampleur du stimulus a tendance à être surestimée.

Figure 1 : La loi de puissance de Stevens

Figure 1 : La loi de puissance de Stevens
Description - Figure 1

Un graphique illustrant la loi de puissance de Stevens (1957). Le graphique montre comment six codages différents sont perçus avec l'intensité physique sur l'axe du x et la sensation perçue sur l'axe du y. Les formes variées des courbes illustrent la façon dont les différents codages sont perçus. La longueur est l'encodage le plus précis et est tracée le long de la ligne à 45 degrés. Les courbes représentant l'activité électrique et la saturation des couleurs, des codages qui tendent à exagérer les effets dans les données, se situent principalement au-dessus de la ligne de 45 degrés. Les trois autres codages indiqués – zone, profondeur et luminosité – ont tendance à sous-estimer l'effet réel et ils sont affichés sous la ligne de 45 degrés.

Aujourd'hui, cette relation connue sous le nom de la loi de puissance de Stevens est l'un des résultats les plus connus de la psychophysique et il est important de la comprendre pour la visualisation des données. La figure 1 illustre certains des encodages visuels testés par Stevens, ainsi que l'activité électrique à titre de référence. Certains codages, comme la saturation des couleurs, mènent à une surestimation de l'effet, tandis que d'autres codages, comme la zone, mènent à une sous-estimation de l'effet réel. Lorsque l'on utilise ces codages pour représenter des données, l'incapacité à percevoir les véritables données ou effets mènent à une distorsion. Il faut noter que si la capacité à percevoir la plupart des codages est non linéaire, la capacité à percevoir la longueur est linéaire.

Prenons l'exemple suivant, qui code les mêmes données en utilisant la zone et la longueur. Il est beaucoup plus difficile de discerner à quel point 96 est supérieur à 32 en regardant les cercles de la figure 2 qu'en regardant le diagramme à barres de la figure 3. De plus, il est presque indiscernable que l'aire du cercle 100 est plus grande que l'aire du cercle 96, alors qu'il est clair que 100 est plus grand que 96 quand on regarde la longueur des barres. La différence entre 100 et 96 est déformée lors de l'encodage de l'information en utilisant la zone.

Figure 2 : Graphique à cercles

Figure 2 : Graphique à cercles
Description - Figure 2

Un exemple d'un graphique montrant trois cercles. Un petit cercle avec le chiffre 32, un cercle plus grand avec le chiffre 96 et un cercle légèrement plus grand avec le chiffre 100.

Figure 3 : Graphique à barres

Figure 3 : Graphique à barres
Description - Figure 3

Un exemple d'un graphique montrant trois barres qui diminuent en longueur : 100, 96, et 32.

Les deux graphiques codent les mêmes données. Le premier graphique utilise la surface de chaque cercle pour coder les données, tandis que le second graphique utilise la longueur de chaque barre. Deux des cercles ont une surface presque indiscernable, alors qu'il est clair que les deux barres correspondantes sont de longueur différente.

Les visualisations de données utilisent souvent des encodages qui déforment les données, comme les cartes thermiques (saturation des couleurs, a = 1.7) et les diagrammes circulaires (surface, a = 0.7). Il est important de reconnaître les distorsions et d'examiner les chiffres réels qui sous-tendent la visualisation avant de porter des jugements hâtifs. Lorsque vous réalisez des visualisations et choisissez des encodages visuels, il est utile de comprendre la théorie de la perception visuelle. Ce sont souvent les visuels les plus simples qui sont les plus efficaces. Prenons le classement des encodages visuels du tableau 1 comme point de départ (Mackinlay, 1986). Mackinlay a formulé des recommandations sur l'encodage des différents types de données : données quantitatives, ordinales et nominales. L'efficacité des codages dépend du type de données. Par exemple, la couleur n'est pas un codage efficace pour les données quantitatives; en revanche, elle est très efficace pour les données nominales. Il est bon de coder les renseignements les plus importants en utilisant le codage le plus efficace et le moins déformé.

Tableau 1 : Le classement d'encodages visuels de Mackinlay pour différents types de données, classés du plus efficace au moins efficace.

Tableau 1 : Le classement d'encodages visuels de Mackinlay pour différents types de données, classés du plus efficace au moins efficace.
Données quantitatives Données ordinales Données nominales
Position Position Position
Longueur Densité Nuance des couleurs
Angle Saturation des couleurs Texture
Pente Nuance des couleurs Connexion
Zone Texture Contour
Volume Connexion Densité
Densité Contour Saturation des couleurs
Saturation des couleurs Longueur Forme
Nuance des couleurs Angle Longueur
Texture Pente Angle
Connexion Zone Pente
Contour Volume Zone
Forme Forme Volume

Occlusion et surreprésentation

L'occlusion dans la visualisation des données se produit lorsque deux points de données se chevauchent, partiellement ou entièrement. Par exemple, deux points peuvent être directement superposés, ce qui ne permet pas au lecteur de savoir qu'il y a en fait plusieurs points de données. Par conséquent, il devient difficile de voir toute l'étendue des données présentées, et l'effet des points occultés ne peut être vu.

La surreprésentation, c'est-à-dire l'affichage de trop de données, est une cause fréquente d'occlusion. Cela peut se produire dans le but d'afficher le plus de données possible afin de donner au public une image entière. Prenons les figures 4 à 7, qui illustrent l'occlusion causée par la surreprésentation et présentent quelques solutions potentielles. Chacun de ces graphiques affiche le même ensemble de 10 000 points. Dans la figure 4, la répartition des points ne peut pas vraiment être vue à cause de l'occlusion. Il y a tellement de points qui se chevauchent que tout ce que l'on peut voir est une grande masse de points couvrant presque tout le quadrant inférieur gauche du graphique. Les graphiques suivants montrent quelques options possibles pour aider à réduire l'occlusion.

Les points de la figure 5 sont légèrement plus petits et plus transparents. En modifiant la transparence (souvent représentée par α) le public peut mieux voir la répartition et les points occultés, bien que de nombreux points soient encore occultés près de l'origine.

Dans la figure 6, aucun point n'est représenté. Il y a plutôt un tracé de contours montrant la distribution des points, où les points sont fortement concentrés autour d'une petite région près de l'origine. Souvent, lorsqu'on traite de grands ensembles de données, tels que ceux générés par les simulations, les points spécifiques ne sont pas particulièrement intéressants; c'est plutôt le modèle général qui est important, et qui est saisi clairement par le tracé de contours.

Figure 4 : Nuage de points 1

Figure 4 : Nuage de points 1
Description - Figure 4

Un exemple d'un nuage de 10 000 points avec une grande masse de points dans le quadrant inférieur gauche du graphique. De nombreux points se chevauchent, ce qui rend difficile la visualisation de la distribution.

Figure 5 : Nuage de points 2

Figure 5 : Nuage de points 2
Description - Figure 5

Un exemple d'un nuage de 10 000 points avec des points plus petits et plus transparents pour réduire l'occlusion. Il y a toujours une masse de points dans le quadrant inférieur gauche, mais il est plus évident que les points sont plus concentrés autour de l'origine.

Figure 6 : Tracé de contours

Figure 6 : Tracé de contours
Description - Figure 6

Un exemple d'un tracé de contours montrant que de nombreux points de données sont concentrés près de l'origine, dans le quadrant inférieur gauche.

Figure 7 : Histogramme en 3D

Figure 7 : Histogramme en 3D
Description - Figure 7

Un exemple d'un histogramme en 3D du même ensemble de points. Les barres plus hautes près de l'origine montrent la distribution un peu plus clairement; cependant, les barres plus hautes occultent les barres plus courtes.

La figure 7 montre un histogramme tridimensionnel. Les créateurs de visualisations qui souhaitent afficher un grand nombre de données peuvent être tentés d'ajouter un axe supplémentaire à une visualisation 3D, mais les graphiques en 3D rendent rarement la visualisation plus claire, car ils provoquent eux-mêmes une occlusion. Dans la figure 7, la nature tridimensionnelle du tracé signifie que les barres les plus hautes occultent les barres les plus courtes et que les barres à l'avant occultent les barres à l'arrière. Ainsi, si l'utilisation de la 3D peut réduire la surreprésentation, elle ne résout pas le problème de l'occlusion, et le public ne peut toujours pas voir l'ensemble des données. Les graphiques en 3D donnent presque toujours lieu à des occlusions, et la gestion des occlusions dans la visualisation 3D est un domaine de recherche assez actif en infographie. (Voir Trapp et coll., 2019; Wang et coll., 2019.)

En résumé, s'il est généralement judicieux de montrer aux lecteurs les données réelles, la représentation graphique excessive est contre-productive. L'occlusion causée par la surreprésentation peut parfois cacher la tendance principale des données. L'adaptation de certains éléments visuels, tels que la taille et la transparence des points, peut aider, mais il est également important de se demander si le tracé de tous les points de données individuels est nécessaire pour l'analyse présentée.

Redondance et encombrement

Pour mieux délimiter les différences dans les données, vous pouvez choisir de coder certaines valeurs de manière redondante en utilisant plusieurs caractéristiques; cette pratique est appelée codage redondant. Par exemple, vous pouvez choisir de distinguer deux classes en utilisant à la fois la couleur et la forme, par exemple des triangles orange et des carrés bleus, dans un nuage de points. Les codages redondants sont largement utilisés et sont censés améliorer la clarté des visualisations. En fait, plusieurs logiciels utilisent des encodages redondants par défaut pour certains visuels; le soutien empirique de cette pratique est cependant mitigé (Nothelfer et coll., 2017; Chun, 2017).

Il est important de se souvenir que les codages redondants ont un défaut, c'est-à-dire qu'ils sont encombrants et ne sont pas toujours utiles. Prenons les figures 8 et 9. La figure 8 présente un diagramme à barres avec la même information (32, 96, 100) codée de quatre manières différentes. Les termes le long de l'axe du x (faible, moyen, élevé) codent déjà les données, bien que de manière grossière. Il y a ensuite la longueur des barres elles-mêmes, qui sont également accompagnées de chiffres indiquant explicitement la valeur. Enfin, il existe une échelle de couleurs discrète où la couleur des barres représente également la valeur. Il existe quatre indices visuels distincts qui codent tous la même information. Ce graphique à barres représente un environnement sans pollution visuelle; c'est un graphique simple avec seulement trois barres. Dans les environnements à faible niveau de distraction visuelle, la redondance se résume généralement à un encombrement. Comparons la figure 9, qui est sans codage de couleurs. On pourrait dire que la visualisation est rendue plus efficace par la suppression d'un codage inutile qui aurait pu distraire les lecteurs des données réelles.

Figure 8

Figure 8
Description - Figure 8

Un exemple d'un graphique en barres avec une échelle de couleurs discrète. Trois barres sous lesquelles nous voyons « faible, moyen, élevé ». La hauteur des barres représente les données, les barres sont quantifiées par la valeur des données, et les barres sont colorées selon la valeur en utilisant une échelle de couleurs discrète.

Figure 9

Figure 9
Description - Figure 9

Un exemple d'un graphique montrant les trois mêmes barres que la figure 8, mais sans le codage de couleurs et les mentions « faible, moyen, élevé ».

Comparons maintenant les figures 8 et 9 avec des environnements plus distrayants, comme le montrent les figures 10 à 12, qui présentent des données avec trois catégories qui ne sont pas clairement séparées. Dans des cas comme celui-ci, il existe des preuves empiriques que les encodages redondants aident à mieux segmenter les données, c'est-à-dire à distinguer les classes (Nothelfer et coll., 2017). Dans la figure 10, la catégorie est codée uniquement par la forme, dans la figure 11, la catégorie est codée uniquement par la couleur et dans la figure 12, la catégorie est codée de manière redondante en utilisant à la fois la forme et la couleur. Si l'on prend en considération uniquement la forme (figure 10), il est plus difficile de segmenter les catégories. Dans les figures 11 et 12, il est plus facile de dire qu'une catégorie a une variance plus faible que les autres catégories, qu'elle est étroitement groupée près de l'origine, et que la troisième catégorie est plus étalée. Dans un affichage distrayant comme celui-ci, le fait d'utiliser la redondance plutôt que l'encombrement, comme dans l'exemple précédent, peut en fait aider à réduire les distractions pour mieux délimiter les catégories. Cependant, les différentes catégories sont déjà assez clairement segmentées par la couleur. Cela tient probablement au fait que la couleur est un encodage plus efficace que la forme pour distinguer les groupes. L'encodage redondant peut ne pas apporter grand-chose dans ce cas, ce qui en fait un choix plus esthétique.

Figure 10

Figure 10
Description - Figure 10

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé par la forme uniquement (cercle, triangle, carré).

Figure 11

Figure 11
Description - Figure 11

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé par la couleur uniquement (vert, orange, bleu).

Figure 12

Figure 12
Description - Figure 12

Un exemple d'un nuage de points avec trois catégories dans un affichage distrayant codé de manière redondante par la couleur et la forme (cercle vert, triangle orange, carré bleu).

Il est important de tenir compte de la différence entre redondance et encombrement lors de la conception de visualisations. Dans le cas de visuels simples, il est peu probable que des codages redondants rendent le visuel plus clair, ils ne font que l'encombrer. Dans un affichage plus distrayant, certaines preuves empiriques laissent entendre que des encodages redondants peuvent aider; cependant, le choix d'un seul encodage très efficace peut également donner de bons résultats. La redondance dans un affichage distrayant ne fait probablement pas de mal et devient davantage un choix de style.

Conclusion

De bons visuels sont essentiels pour raconter l'histoire des données aussi efficacement que possible, et une visualisation efficace peut rendre les données plus faciles à comprendre pour un public plus large. Pour qu'une visualisation soit efficace, elle doit représenter fidèlement les données sous-jacentes. La visualisation des données pose fréquemment certains problèmes qui peuvent mener à des erreurs d'interprétation. Une certaine compréhension de la théorie de la perception visuelle peut aider les scientifiques des données à mieux concevoir et interpréter les visualisations de données afin de réduire la distorsion. L'affichage d'un trop grand nombre de données peut également être trompeur, car il peut entraîner une occlusion. Il faut envisager des modifications simples, comme la taille et la transparence, pour aider à réduire l'occlusion et se demander si le tracé de toutes les données est nécessaire aux fins de la visualisation. Enfin, il faut choisir la netteté plutôt que la redondance lorsque c'est possible. Les codages redondants n'apportent souvent pas beaucoup de valeur ajoutée et l'encombrement qu'ils créent peut nuire à l'histoire.

References

Chun, R. (2017). Redundant Encoding in Data Visualizations: Assessing Perceptual Accuracy and Speed. Visual Communication Quarterly (le contenu de cette page est en anglais), 24(3), 135-148.

Mackinlay, J. (1986). Automating the design of graphical presentation of relational information. ACM Transactionson Graphics (le contenu de cette page est en anglais), 5(2), 110-141.

Nothelfer, C., Gleicher, M.,& Franconeri, S. (2017). Redundant encoding strengthens segmentation and grouping in visual displays of data (le contenu de cette page est en anglais). Journal of Experimental Psychology: Human Perception and Performance, 43(9), 1667–1676.

Stevens, S. S. (1957). On the psychophysical law (le contenu de cette page est en anglais). Psychological Review, 64(3), 153–181.

Trapp, M., Dumke,F., & Döllner, J. (2019). Occlusion Management Techniques for the Visualization of Transportation Networks in Virtual 3D City Models (le contenu de cette page est en anglais). Proceedings of the 12th International Symposium on Visual Information Communication and Interaction

Wang, L., Zhao, H., Wang, Z., Wu, J.,Li, B., He, Z., & Popescu, V. (2019). Occlusion Management in VR: A Comparative Study (le contenu de cette page est en anglais). 2019 IEEE Conference on Virtual Reality and 3D User Interfaces (VR), 708-706.

Date de modification :

Mise en œuvre des pratiques MLOps avec Azure

Par : Jules Kuehn, Services partagés Canada

Les pratiques MLOps sont une variante des pratiques DevOps qui répondent à des préoccupations relatives à l'apprentissage automatique (AA). Tout comme le processus DevOps, le processus MLOps permet l'intégration et le déploiement continus (IC/DC) (le contenu de cette page est en anglais) de modèles d'apprentissage automatique (AA), mais automatise en outre le réentraînement sur de nouvelles données et effectue le suivi des résultats des différentes sessions d'entraînement (ou expériences).

Un problème courant avec les modèles d'AA est la baisse du rendement au fil du temps. C'est ce que l'on appelle une « dérive » (consultez le guide ultime du réentraînement de modèle (le contenu de cette page est en anglais) pour obtenir de plus amples renseignements sur la dérive). Imaginez un modèle d'AA prédisant si une maison à Ottawa se vendra au-dessus du prix demandé, selon les renseignements sur la maison et le prix d'inscription. Lorsque le modèle a été déployé il y a cinq ans, il a été en mesure de fournir cette prédiction avec 95 % d'exactitude. Toutefois, si le modèle n'était pas réentraîné avec des données mises à jour, ses prédictions ne refléteraient pas le marché du logement actuel d'Ottawa et seraient donc moins exactes. Pour résoudre ce problème, un système MLOps peut automatiquement réentraîner et redéployer des modèles, afin d'intégrer des données plus récentes et suivre le rendement du modèle au fil du temps.

L'équipe de la Science des données et de l'Intelligence artificielle de Services partagés Canada (SPC) a élaboré plusieurs modèles d'AA comme solutions de validation de principe aux problèmes opérationnels de SPC. Le point de départ du parcours du processus MLOps a été la collaboration de l'équipe avec Microsoft afin de développer une solution MLOps fonctionnelle entièrement au sein de l'écosystème Azure.

Le système MLOps comprend plusieurs composantes, comme le contrôle des sources, le suivi des expériences, les registres de modèles, les pipelines IC/DC, les API Azure ML, Docker et Kubernetes. L'utilisation de ce système permet à l'équipe de continuellement livrer des API REST pour les modèles d'AA les plus performants et de les mettre à disposition dans le nouveau magasin des API du gouvernement du Canada.

Élaboration d'un modèle

Pour accélérer la mise en œuvre, l'équipe a utilisé les fonctions SaaS (logiciel en tant que service) d'Azure pour exécuter la majorité des tâches. Cela comprenait le chargement des données avec Azure Data Factory, le développement de modèle dans les carnets Azure Databricks, le suivi expérimental et le déploiement de modèle avec Azure ML, ainsi que le contrôle des sources et l'IC/DC avec Azure DevOps.

Suivi des expériences et des modèles

Les carnets Databricks journalisent les mesures des sessions et enregistrent les modèles dans un espace de travail Azure ML à la fin d'une session entraînement (consultez les pages Journaliser et afficher les métriques et les fichiers journaux et Classe de modèle pour de plus amples détails). Cela est utile lorsque les sessions sont lancées manuellement pendant l'élaboration du modèle et lorsqu'elles sont exécutées comme une tâche au sein de pipelines IC/DC. Au cours de l'élaboration d'un modèle, il est possible de suivre les améliorations apportées aux mesures, comme l'exactitude, tout en ajustant les hyperparamètres. Dans le cas d'une session en tant que tâche de pipeline, il est alors possible de surveiller les changements apportés aux mesures lorsque de nouvelles données sont utilisées dans le cadre d'un réentraînement.

Contrôle des sources et intégration continue

Le répertoire de contrôle des sources pour ce modèle est composé de trois dossiers :

  1. Carnets : le code des carnets Databricks
  2. Pipelines : deux pipelines pour entraîner et déployer les modèles
  3. API : le code servant à envelopper le modèle entraîné dans une API REST.
Figure 1 – Structure générale du répertoire de contrôle des sources

Figure 1 – Structure générale du répertoire de contrôle des sources

Description - Figure 1

Arborescence du dépôt DevOps avec 3 dossiers de haut niveau. Le premier dossier est le Carnet de notes, qui est connecté via Databricks Git Sync à model_train.py. Le deuxième dossier est Pipelines, qui contient deux sous-dossiers, chacun contenant Pipeline YAML et des scripts Python. Ces sous-dossiers sont nommés "ci / train" et "deploy". Le troisième dossier de premier niveau est "API", qui contient score.py et un sous-dossier tests, qui contient des scripts PyTest.

Pipeline de demandes d'extraction de carnets

Même si la programmation littéraire à l'aide de carnets (p. ex. Jupyter) est une pratique courante en science des données, les environnements de carnets infonuagiques ne s'intègrent pas toujours efficacement au contrôle des sources. Le travail de plusieurs membres de l'équipe sur un projet peut entraîner une désorganisation des carnets. L'équipe a élaboré un déroulement des opérations qui intègre des pratiques exemplaires de gestion du contrôle des sources, comme les branches par fonctionnalité et les essais d'intégration dans des demandes d'extraction.

Figure 2 – Carnets de science des données

Figure 2 – Carnets de science des données

Description - Figure 2

Bureau désordonné recouvert de documents éparpillés sur sa surface, au sol et dans la corbeille à proximité. Les documents sont intitulés "Carnets de science des données".

Dans Databricks, tous les carnets se trouvant dans un dossier principal à emplacement fixe sont synchronisés pour suivre la branche principale dans un répertoire Git Azure DevOps. Avant de modifier le code de modèle, un membre de l'équipe crée une copie de ce dossier dans Databricks et une nouvelle branche correspondante dans DevOps, puis configure la synchronisation Git entre eux. Lorsque les modifications sont satisfaisantes, le membre de l'équipe consigne les carnets dans Databricks, puis crée une demande d'extraction dans DevOps.

Toute demande d'extraction comprenant des changements au code du carnet déclenche un pipeline d'intégration continue garantissant que les modifications aux carnets ne seront pas annulées. Cela commence par la copie des carnets de la branche par fonctionnalité dans un dossier d'essai d'intégration à emplacement fixe référencé par une tâche Databricks; cette tâche étant ensuite déclenchée par le pipeline au moyen de l'API Databricks.

Pour accélérer l'exécution de cet essai, un paramètre est transféré au carnet pour indiquer qu'il s'agit d'un essai et non d'une tâche d'entraînement complète. Le modèle est entraîné sur un échantillon de 5 % pour une époque, et le modèle résultant n'est pas enregistré.

Figure 3 – IC et pipelines d'entraînement avec Databricks

Figure 3 – IC et pipelines d'entraînement avec Databricks

Description - Figure 3

Diagramme des pipelines de IC et pipelines d'entraînement. Étape 1 : Copie de la source du carnet vers Databricks. Étape 2 : Début de l'entraînement du modèle dans Databricks.  Étape 3 : Attente de la « réussite » de Databricks.

Le pipeline continue de sonder Databricks jusqu'à ce que le travail soit terminé. Si l'exécution du carnet est réussie, la fusion vers la branche principale peut se poursuivre.

Déploiement de modèle

Puisque l'équipe de SPC prévoit livrer la plupart de ses modèles dans le magasin des API du gouvernement du Canada, elle souhaite passer des carnets aux applications API REST le plus rapidement et le plus efficacement possible.

Conteneurisation du modèle

Pour des applications simples, l'API d'Azure ML peut déployer un modèle enregistré en tant qu'application conteneurisée en utilisant quelques lignes de code à la fin d'un carnet. Toutefois, cette option ne répond pas à plusieurs exigences opérationnelles telles que l'échelonnage. Plus important encore, elle n'offre pas beaucoup de souplesse pour les intrants et les extrants des modèles avant et après le processus. Nous utilisons plutôt la fonction Model.package() à partir de la trousse de développement logiciel à partir de la trousse de développement logiciel (SDK) d'Azure ML pour créer une image Docker. L'image est ensuite déployée dans un espace Kubernetes antérieurement configuré, et le point de terminaison est enregistré dans le magasin des API du gouvernement du Canada.

Par défaut, la fonction extrait la dernière version enregistrée du modèle, mais peut également utiliser les journaux d'expériences afin de sélectionner dynamiquement un modèle en fonction de n'importe quelle mesure enregistrée dans le carnet (p. ex. pour minimiser les pertes).

Pipeline de déploiement

Figure 4 – Pipeline de déploiement

Figure 4 – Pipeline de déploiement

Description - Figure 4

Diagramme du pipeline de déploiement avec 3 étapes principales : Essai, Création et Déploiement. L'étape Essai exécute les tests de l'API PyTest et local_deploy_test.py, ce qui implique que Docker récupère un modèle dans le registre Azure ML. L'étape Création exécute build_push_image.py, qui implique également que Docker récupère un modèle dans le registre Azure ML, mais pousse également le conteneur Docker vers le registre Azure Container. L'étape Déploiement exécute l'application en ligne de commande kubectl, qui se connecte à Azure Kubernetes et récupère le conteneur dans Azure Container Registry.

Comme son nom l'indique, Azure DevOps ne se limite pas au contrôle des sources, mais peut également définir des pipelines permettant d'automatiser les tâches d'intégration et de développement continus. Les pipelines sont définis par les fichiers YAML et ont recours à des scripts Bash et Python.

Contrairement au pipeline de demande d'extraction de carnet, le pipeline de déploiement est déclenché par tout engagement envers la branche principale. Il comprend trois étapes :

  • Mise à l'essai du code : À l'aide de PyTest, effectuer l'essai unitaire de l'API à l'aide d'intrants corrects et incorrects. À titre d'essai d'intégration, déployer avec Model.deploy() le service Web localement sur la machine virtuelle du bassin d'agents et exécuter des essais semblables, mais dans un contexte HTTP.
  • Construction et enregistrement du conteneur Docker : Avec Model.package(), créer une image Docker en entrant un code API personnalisé. Enregistrer le conteneur dans un registre de conteneurs Azure.
  • Déploiement vers Kubernetes : Avec kubectl apply, se connecter au service Azure Kubernetes, se connecter au service Azure Kubernetes configuré précédemment. Transférer un fichier manifeste pointant vers la nouvelle image dans le registre des conteneurs.

Ce processus conserve les mêmes points de terminaison d'API au moyen de redéploiements et ne perturbe pas la livraison de l'application par l'entremise du magasin des API du gouvernement du Canada.

Pipeline de réentraînement de modèle

Le pipeline de réentraînement de modèle est semblable à celui de demande d'extraction, mais exécute une tâche Databricks différente qui pointe vers le carnet de la branche principale. Le carnet journalise les mesures de session et enregistre le nouveau modèle dans Azure ML, puis déclenche le pipeline de déploiement.

L'entraînement du modèle peut nécessiter beaucoup de ressources. L'exécution du carnet en tant que tâche Databricks offre la possibilité de sélectionner un espace de calcul de haute performance (y compris les processeurs graphiques (GPU)). Les espaces sont automatiquement désassociés à la fin de la session d'entraînement.

Plutôt que d'être déclenchées par un événement particulier, les sessions du pipeline peuvent également être planifiées (consultez la page relative à la configuration de calendriers de pipelines pour obtenir de plus amples détails). Bon nombre des modèles reposent sur les données du dépôt de données d'entreprise de SPC, de sorte que l'équipe peut planifier le pipeline de réentraînement de modèle pour suivre le cycle de mise à jour du dépôt. Le modèle déployé peut ainsi toujours reposer sur les données les plus récentes.

Conclusion

Pour fournir un déroulement des opérations reproductible pour le déploiement de modèles d'AA dans le magasin des API du gouvernement du Canada, SPC a intégré plusieurs offres de SaaS Azure afin de créer une solution MLOps fonctionnelle.

  • Azure DevOps : Répertoire de code source; pipelines d'IC/DC et de réentraînement;
  • Azure Databricks : Développement de modèles d'AA dans des carnets; synchronisé avec le répertoire Git DevOps;
  • Azure ML : Expériences de suivi et d'enregistrement de modèles; création d'images Docker;
  • Service Azure Kubernetes : Service pour conteneur; vers lequel pointe le magasin des API du gouvernement du Canada.

Enfin, il convient de souligner que cette approche ne constitue qu'une des nombreuses solutions possibles. Les API Azure ML sur lesquelles la trousse de développement logiciel est basée sont en cours de développement actif et font l'objet de changements fréquents. L'équipe continue d'explorer des options en source ouverte et autohébergées. Le parcours de MLOps est loin d'être terminé, mais il est déjà bien engagé!

Si vous avez des questions au sujet de cette mise en œuvre ou si vous souhaitez simplement discuter de l'apprentissage automatique, veuillez envoyer un courriel à l'équipe de la Science des données et de l'Intelligence artificielle de SPC : ssc.dsai-sdia.spc@canada.ca.

Date de modification :

Technologies liées à la protection de la vie privée partie deux : introduction au chiffrement homomorphe

par Zachary Zanussi, Statistique Canada

Avez-vous déjà souhaité qu'il soit possible d'accéder à des données pour effectuer une analyse tout en préservant leur confidentialité? Le chiffrement homomorphe est une technique émergente de protection de la vie privée présentant d'éventuelles applications qui permettent un plus grand accès, tout en maintenant les données chiffrées et sécurisées.

Le premier article de la série, Une brève enquête sur les technologies liées à la protection de la vie privée, a présenté les technologies liées à la protection de la vie privée (TPVP) et la façon dont elles peuvent permettre une analyse tout en protégeant la confidentialité des données. Le présent article élabore sur le sujet en examinant plus en détail l'une de ces techniques, le chiffrement homomorphique, notamment pour discuter de quoi il s'agit, son fonctionnement et ce qu'il peut faire pour vous.

Le présent article commence par un aperçu du chiffrement homomorphe et de certains cas d'utilisation courants. Il fournit une évaluation équilibrée des avantages et des inconvénients du chiffrement homomorphe. Il couvre ensuite certains détails plus techniques pour vous préparer à explorer ces techniques vous-mêmes. À l'issue de cet article, nous espérons que vous souhaiterez poursuivre cet apprentissage en choisissant une bibliothèque de chiffrements homomorphes et en créant vos propres circuits chiffrés.

Des groupes internationaux envisagent actuellement la normalisation du chiffrement homomorphe. Le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe en pratique, ni toute technique cryptographique, avant sa normalisation par des experts. Même si le chiffrement homomorphe n'est pas encore prêt à être utilisé sur des données de nature délicate, c'est le moment idéal pour explorer ses fonctionnalités ainsi que d'éventuels cas d'utilisation. Un article ultérieur portera sur les activités de normalisation relatives au chiffrement homomorphe, notamment les délais et les procédés attendus.

Qu'est-ce que le chiffrement homomorphe?

Un procédé traditionnel de chiffrement associe du texte en clair lisible par une personne à des cryptogrammes masqués, afin de protéger les données de regards indiscrets. Une fois masqués, ces cryptogrammes sont inaltérables; la modification même d'un seul bit de texte chiffré peut créer un message en texte en clair méconnaissable après déchiffrage. Cela rend le chiffrement traditionnel relativement statique. En revanche, un procédé de chiffrement homomorphe est dynamique; dans le cas de deux textes chiffrés, vous pouvez effectuer des opérations sur les textes en clair sous-jacents. Une opération d'« ajout » homomorphe fournit, par exemple, un texte chiffré qui fournit la somme des deux messages d'origine en texte en clair après déchiffrage. Cela permet de déléguer le traitement informatique à une autre partie, de sorte qu'elle puisse manipuler les données sans y accéder directement.

Un protocole typique d'infonuagique comprend un client qui envoie ses données dans le nuage. Puisque les connexions Internet sont intrinsèquement peu sûres, ce transfert est facilité par une forme de protocole de sécurité des transferts faisant intervenir le chiffrement, comme HTTPS. À la réception, le nuage procède au déchiffrage et au traitement informatique. Pourtant, que faire si vous souhaitez que vos données demeurent secrètes dans le nuage? Grâce à un chiffrement par procédé homomorphe, non seulement les données sont protégées au cours du transfert, mais elles le sont également tout au long du processus de traitement informatique. À l'issue de ce dernier, le nuage retransmet les résultats chiffrés au client, qui peut les déchiffrer et consulter les résultats à sa guise.

Le terme « homomorphe » vient du grec et se traduit approximativement par de « forme similaire ». En mathématiques, un homomorphisme est une application entre une structure mathématique et une autre qui préserve les opérations de la première structure. Pour créer un procédé de chiffrement homomorphe, une carte de chiffrement brouillant suffisamment les données est nécessaire, de sorte que personne ne puisse savoir ce qu'elles sont, tout en protégeant simultanément la structure des données, afin que des opérations sur les textes chiffrés entraînent des résultats prévisibles sur les textes en clair. Ces objectifs paradoxaux soulignent la difficulté de créer de tels procédés.

Figure 1 : Illustration des avantages du chiffrement homomorphe

Figure 1 : Illustration des avantages du chiffrement homomorphe. La série de figures de gauche représente un chiffrement ordinaire; pour appliquer l'analyse souhaitée, les données doivent d'abord être déchiffrées à l'aide de la clé privée. Pour que le transfert des résultats soit sécurisé, les données doivent être chiffrées à nouveau. Les données sont en outre vulnérables pendant toute la durée du traitement informatique. La série de figures de droite représente le chiffrement homomorphe; la partie effectuant le traitement informatique n'a besoin d'aucun renseignement de nature délicate pour procéder aux calculs, et les données ainsi que les résultats sont protégés par chiffrement.

Description - Figure 1

Illustration de la différence entre des traitements informatiques avec chiffrements ordinaire et homomorphe. Dans le cas du chiffrement ordinaire, les données (une boîte de lignes dotée d'un cadenas) doivent d'abord être déchiffrées à l'aide d'une clé; ce qui donne la même boîte marquée d'un cadenas ouvert. Si les résultats doivent être communiqués à une autre partie, ils doivent alors être à nouveau chiffrés à l'aide d'une autre clé. Dans le cas d'un chiffrement homomorphe, le traitement informatique peut être effectué directement, sans l'intervention de renseignements secrets tels que des clés.

Que pouvez-vous faire avec le chiffrement homomorphe?

Plusieurs paradigmes informatiques distincts peuvent être améliorés grâce au chiffrement homomorphe, notamment l'informatique déléguée, le partage de données et la diffusion de données. Ces différents paradigmes s'articulent tous autour du fait que le détenteur des données, l'analyste et les plateformes informatiques sont souvent des parties totalement distinctes; le but étant de réduire ou d'éliminer les préoccupations en matière de protection de la vie privée soulevées lorsque l'une de ces parties ne devrait pas accéder aux données. Il est important de noter que le chiffrement homomorphe utilise un modèle de sécurité plus faible qu'une cryptographie traditionnelle et que des précautions doivent être prises pour veiller à ce qu'il soit utilisé en pratique en toute sécurité.Note de bas de page 1

L'application probablement la plus simple fait intervenir un détenteur de données délégant le traitement informatique à une autre partie, comme le nuage. Dans ce scénario, un client chiffre ses données et les envoie dans le nuage avec des instructions. Le nuage peut suivre ces instructions de manière homomorphe et retourner le résultat chiffré, en n'apprenant rien sur les valeurs d'entrée, de sortie ni intermédiaires. Ces instructions suivent le modèle de circuits, qui sont des séquences d'opérations arithmétiques appliquées à des extrants. Il convient de souligner que créer des circuits corrects et efficaces avec chiffrement homomorphe n'est pas toujours évident, mais il n'y a théoriquement pas de limite aux calculs pouvant être exécutés. Statistique Canada a, par exemple, terminé des validations de principeNote de bas de page 2 en appliquant une analyse statistique et un entraînement de réseau neuronal sur des données chiffrées.

Pour reprendre le scénario d'informatique déléguée, envisagez un cas faisant intervenir de multiples détenteurs de données. Ces sources de données souhaitent partager leurs données, mais des enjeux de confidentialité les en empêchent. Le procédé exact dépend du modèle de confiance; toutefois, le chiffrement homomorphe peut permettre à ces différentes parties de chiffrer leurs données et de les partager avec une autorité centrale ayant le pouvoir de procéder à un traitement informatique de manière homomorphe. Ces applications de partage de données peuvent permettre de meilleures analyses dans des scénarios où les données sont limitées et protégées. Un exemple est un oncologue qui souhaite tester ses hypothèses; les données sur les patients sont généralement limitées aux hôpitaux traitants et combiner ces ensembles non seulement accroît la force du modèle, mais élimine les biais géographiques en matière de données. Par conséquent, permettre à plusieurs hôpitaux de partager leurs données chiffrées et aux oncologues de procéder à des traitements informatiques sur cet ensemble de données conjoint chiffré permet de meilleurs recherches et résultats en matière de soins de santé.

Envisagez également des scénarios faisant intervenir un détenteur de données central et plusieurs parties souhaitant analyser ces données. Les centres de données de recherche de Statistique Canada sont un tel exemple, puisqu'ils sont hébergés dans des installations sécurisées que gère l'organisme dans l'ensemble du Canada. Des chercheurs agréés peuvent obtenir une autorisation spéciale d'accéder à des microdonnées au sein de ces sites sécurisés. Même s'il est sécurisé, ce processus d'autorisation prend du temps et les chercheurs doivent pouvoir se rendre physiquement sur ces sites. Avec le chiffrement homomorphe, les centres de données pourraient peut-être héberger les données chiffrées et en fournir l'accès à toute partie le demandant. Cela réduirait les coûts administratifs d'ajouter de nouveaux chercheurs et étendrait l'accès aux données conformément à l'initiative de données ouvertes du Canada.

Figure 2 : Illustrations de ces trois paradigmes

Figure 2 : Illustrations de ces trois paradigmes. Tout d'abord, le traitement informatique délégué; le détenteur de données chiffre et envoie les données au nuage, qui retourne les résultats chiffrés après avoir procédé à des calculs homomorphes. Ensuite, plusieurs parties chiffrent et envoient leur part d'un ensemble de données distribué que le nuage peut utiliser pour procéder à une analyse, sans compromettre les principes de confidentialité de chaque détenteur de données. Enfin, un détenteur de données central peut donner accès à un ensemble de données chiffré à des analystes. Ces derniers peuvent ainsi faire l'objet d'une surveillance et de restrictions moindres, car ils n'ont jamais un accès direct aux données.

Description - Figure 2

Illustrations des trois paradigmes. Dans le cadre du paradigme de traitement informatique délégué, le détenteur de données envoie ses données chiffrées au nuage, qui lui retourne les résultats chiffrés. Dans le paradigme de multiples détenteurs de données, ces derniers peuvent individuellement envoyer leurs données chiffrées, permettant au serveur infonuagique d'effectuer un traitement informatique conjoint sur l'union de leurs ensembles de données, fournissant ainsi un résultat analytique plus robuste. Dans le paradigme de « banque de données », le nuage héberge les données et peut envoyer des données chiffrées à tout analyste choisi, sans crainte d'une mauvaise utilisation des données.

Le chiffrement homomorphe peut être utile au-delà de calculs numériques. Par exemple, pour un client en possession d'un ensemble de données de nature délicate, l'intersection d'ensembles privés (PSI) permet l'apprentissage de l'intersection de cet ensemble avec un ensemble de données sur un serveur, sans que ce serveur n'apprenne l'ensemble de données du client et sans que le client n'apprenne quoi que ce soit sur les données du serveur au-delà de l'intersection. La mise en correspondance de chaînes privées (PSM) est un protocole similaire permettant au client d'interroger une base de données textuelle pour une sous-chaîne correspondante. À l'aide de ces primitives cryptographiques et d'autres, vous pouvez imaginer une vaste suite protégeant la vie privée et couplant des données entre divers ministères et établissements publics. Même si un tel système est ambitieux et que les modes de mise en œuvre exacts ne sont pas encore clairs, cela permet d'envisager les types de systèmes auxquels nous pouvons aspirer à mesure que des tâches plus complexes sont effectuées à l'aide du chiffrement homomorphe et d'autres technologies liées à la protection de la vie privée.

Inconvénients du chiffrement homomorphe

Malgré les nombreux avantages de l'utilisation du chiffrement homomorphe, comme pour toute technologie, il présente de potentiels inconvénients. Le prix de la sécurité cryptographique est le coût computationnel; selon l'analyse, le calcul chiffré peut être plus dispendieux de plusieurs ordres de grandeur que le calcul non chiffré. Il existe également un coût de décompression des données qui peut être assez important. Ce coût de décompression des données est aggravé par le fait que la plupart des protocoles de chiffrement homomorphe font intervenir un transfert de données chiffrées. Alors que le stockage infonuagique est relativement peu coûteux, le transfert de données peut être coûteux et complexe.

Le chiffrement homomorphe autorise en outre un ensemble limité de calculs en mode natif. Seules l'addition, la soustraction et la multiplication sont natives à la plupart des procédés arithmétiques et tous les autres calculs (exponentiels, fonctions d'activation, etc.) doivent être exprimés approximativement par un polynôme. Il convient de souligner que cela est généralement le cas avec tous les ordinateurs, mais lorsqu'un ordinateur moderne cache ce fait à l'utilisateur, les bibliothèques de chiffrements homomorphes exigent actuellement de l'utilisateur qu'il précise comment calculer ces fonctions non insignifiantes.Note de bas de page 3 Dans certains procédés, il convient également de se préoccuper de la profondeur des calculs tentés. En effet, ces procédés introduisent du bruit dans les données chiffrées pour les protéger.

Ce bruit est aggravé par des calculs successifs et, à moins d'être réduit,Note de bas de page 4 dépasserait éventuellement le signal; le déchiffrage ne fournirait alors plus les résultats attendus. Le choix des paramètres de chiffrement est important dans ce cas. Pour un circuit donné, il existe un ensemble de paramètres suffisamment grand pour être adapté; toutefois, gérer des paramètres plus importants accroît le coût de calcul du protocole.

Les coûts supplémentaires en termes de calcul et de création de circuits peuvent-ils être justifiés? Le chiffrement homomorphe permet des calculs potentiellement impossibles autrement. Cela concerne des ensembles de données de nature délicate en particulier, comme les données sur la santé. Le coût auquel fait face un analyste pour obtenir les autorisations de travailler sur de telles données est énorme, tout comme d'autres complications, comme des environnements informatiques contrôlés. Une fois les données partagées, comment vérifier que les analystes respectent les règles? Certains détenteurs de données peuvent rechigner à permettre à quiconque d'accéder à leurs données; sans des mesures supplémentaires, comme le chiffrement homomorphe, cette analyse est peut-être impossible. La décision entre un « calcul coûteux » et « aucun calcul » est bien plus facile à prendre.

De plus, divers procédés et leur mise en œuvre sont un domaine actif de recherche et les mises en œuvre de bibliothèques permettent régulièrement des améliorations de leurs algorithmes de calcul homomorphe et de compression de données. D'importants investissements en accélération matérielle pour le chiffrement homomorphe ont récemment été faits. Cela est similaire au matériel installé sur la plupart des ordinateurs, qui comprend des circuits électroniques particuliers conçus pour effectuer des opérations de chiffrement et de déchiffrage aussi rapidement que possible. Cela pourrait permettre aux ordinateurs infonuagiques qui utilisent cette accélération du chiffrement homomorphe d'effectuer des analyses sur des données chiffrées à des vitesses plus proches de celles s'appliquant à des données non chiffrées.

Malgré ces inconvénients, il y a lieu de penser que le chiffrement homomorphe deviendra un important outil de protection de la vie privée. C'est par conséquent le moment idéal de commencer à examiner ce que ces techniques peuvent permettre de faire.

Mathématiques du chiffrement homomorphe

Nous allons maintenant plonger dans les rouages mathématiques internes du chiffrement homomorphe, notamment des détails cryptographiques. Nous espérons que même les lecteurs non férus de mathématiques pourront saisir les bases du fonctionnement de ces procédés. Il convient de souligner que le reste de cette section fournit des détails découlant du procédé de Cheon, Kim, Kim et Song, intitulé chiffrement homomorphe pour l'arithmétique de nombres approximatifs (le contenu de cette page est en anglais), mais la communauté cryptographique l'appelle généralement CKKS. Cela dit, la majeure partie de ce qui est mentionné ici s'applique également à d'autres procédés avec seulement de légères modifications.

Au cœur de tout cryptosystème à clé publique se trouve un problème mathématique jugé difficile à résoudre, sauf en ayant accès à un renseignement particulier appelé une clé secrète (ou privée). Une clé publique associée peut être utilisée pour chiffrer des données en texte clair pour produire un texte chiffré, mais seule la connaissance de cette clé secrète permet de rétablir le texte en clair initial à partir de ce texte chiffré. Puisque la clé publique ne peut pas servir au déchiffrage, elle peut être partagée avec toute personne souhaitant chiffrer des données avec la confiance que seul le détenteur de la clé secrète peut déchiffrer le texte chiffré pour accéder au texte en clair.

La plupart des procédés de chiffrement homomorphe ont recours à des variantes de l'hypothèse de difficulté d'apprentissage avec erreurs (LWE). Cela décrit la variante annulaire appelée apprentissage annulaire avec erreurs (RLWE). Au lieu de traiter de nombres entiers, ce procédé traite de polynômes dotés de coefficients entiers. Vous pouvez, par exemple, utiliser l'espace de polynômes avec coefficients entiers modulo q ordres de grandeur inférieur à N; exprimé sous la forme Rq=Zq[X]/XN-1. Vous pouvez considérer cet espace simplement comme des listes de nombres entiers N, chacun inférieur à q. Généralement, ces valeurs devraient être relativement grandes; par exemple N=215=16,384 et q ~ 2800. Cela rend Rq suffisamment grand pour y cacher des secrets! La figure 3 fournit un petit exemple du type d'espace avec lequel nous travaillerions.

Figure 3 : Petit exemple d'anneau d'un type pouvant être utilisé pour le chiffrement homomorphe, ainsi que quelques-uns de ses éléments

Figure 3 : Petit exemple d'anneau d'un type pouvant être utilisé pour le chiffrement homomorphe, ainsi que quelques-uns de ses éléments. Remarquez que la somme ou le produit de ces éléments est un autre élément de l'anneau.

Description - Figure 3

Exemple d'anneau pouvant être intéressant pour un travail avec le chiffrement homomorphe.

R17=Z17[X]/X16-1
X15+11X14+X12+5X7+2X6+4X2+X+16
X4+13X3+5X2+X+8
X10+16X8+X6+16X4+X2+16

Ici, la valeur de q est 17 et la valeur de N est 16. Des exemples de polynômes de l'anneau sont également indiqués; un exemple est le polynôme x4+13x3+5x2+x+8.

Dans le cas de deux polynômes, par exemple, vous pouvez les ajouter ou les multiplier. Le résultat de ces opérations est toujours un autre polynôme.Note de bas de page 5 Rq devient ainsi un type de bac à sable au sein duquel vous pouvez évoluer librement. Les mathématiciens appellent un ensemble présentant cette propriété un anneau; la façon dont ces opérations influent sur les éléments de l'anneau est ce que l'on appelle la structure. La propriété spéciale du chiffrement homomorphe est qu'il existe des opérations dans l'espace du texte chiffré qui correspondent de façon homomorphe aux opérations de l'espace de texte en clair sous-jacent. On préfère l'utilisation d'anneaux polynomiaux, car les opérations sont efficaces et on juge le problème RLWE difficile.

Comment cache-t-on un secret dans un espace mathématique? Supposez que vous disposez de quatre polynômes aléatoiresNote de bas de page 6 dans Rq, appelés a, s, e, et b. L'hypothèse de difficulté RLWE énonce qu'il est très difficile de distinguer une série de paires de la forme (a,as+e) ou de la forme (a,b). Ici, « très difficile de distinguer » signifie que « les paramètres peuvent être définis de telle sorte que tous les ordinateurs les plus puissants du monde fonctionnant ensemble avec les meilleurs algorithmes connus ne pourraient pas résoudre le problème ». Les polynômes a et b peuvent être échantillonnés de façon aléatoire uniformément au sein de tous les Rq, mais les autres ont une forme spéciale. Dans le cadre du procédé CKKS, s a les coefficients ±1  ou 0 et nous échantillonnons les coefficients de e dans une répartition gaussienne discrète sur Zq centrée autour de 0. Dans le reste de cet article, nous allons simplement qualifier ces polynômes de « petits », car, dans les deux cas, leurs coefficients sont proches de 0.

La difficulté du problème RLWE permet de garder un secret comme suit : remarquez que la première paire est corrélée; il existe un facteur de a dans les deux polynômes, alors que dans la deuxième, il n'existe aucune corrélation entre les a et b sélectionnés aléatoirement. Imaginez maintenant qu'une personne vous remette de nombreuses paires toutes de la forme (a,as+e) pour de nombreuses valeurs différentes de e et une constante s, ou toutes des paires complètement aléatoires. Selon la difficulté de RLWE, non seulement vous ne pourriez pas trouver s de façon fiable en fonction des paires (a,as+e), mais vous ne pourriez pas non plus déterminer de façon fiable la paire vous ayant été donnée! La figure 4 fournit un petit exemple de ce problème pour que vous vous y exerciez chez vous.

Figure 4 : Quatre paires de polynômes

Figure 4 : Quatre paires de polynômes dans R17=Z17[X]/X16-1 • réparties en deux groupes. Un groupe est distribué comme (a,as+e) pour certains « petits » s fixes et deux « petits » e aléatoires différents et l'autre groupe est de la forme (a,b). Savez-vous lequel est lequel? Qu'en est-il si 17 devient 2800 et 16 devient 16,384? Imaginez maintenant d'essayer de trouver s. Veuillez noter que dans l'hypothèse de RLWE, un seul de ces groupes vous serait fourni et non les deux.

Description - Figure 4

Quatre paires de polynômes. Cela est supposé être un petit exemple du problème RLWE pour que vous vous y exerciez chez vous. Les paires polynomiales sont réparties en deux groupes. Un groupe est réparti sous forme (a,as+e)  pour un « petit » polynôme s et l'autre est de la forme (a,b) pour a et b aléatoires. Savez-vous lequel est lequel? Les polynômes de la figure sont reproduits ci-dessous :

(x4+4x3+10x+1,x8+6x7+x6+8x5+12x4+4x3+10x2+8x+14)
(x4+12x3+2x2+5x+11, x8+14x7+14x6+12x5+9x4+13x3+8x2+6x+7)
(x4+5x3+3x2+8, x8+4x7+12x6+16x5+15x4+3x3+6x2+9x+8)
(x4+9x3+7x2+14x+1, x8+413x7+9x6+14x5+2x4+8x3+x2+13x+12)

La sécurité des procédés fondés sur RLWE découle du fait que si a, s et e sont donnés, il est facile de calculer a*s + e, mais il est pratiquement impossible de trouver s à partir de a et a*s + e. Vous pouvez créer un système de chiffrement de clé publique comme suit :

  • Fixez votre espace Rq en choisissant un coefficient modulus q et un polynôme modulus de degré N.
  • Choisissez une « petite » clé secrète s aléatoire, un a uniformément aléatoire, et un « petit » e aléatoire pour créer votre clé publique (a, -as+e,a). Remarquez la valeur négative dans cette paire; cela rend le processus de chiffrement plus simple, mais n'influe pas sur la sécurité de RLWE.
  • Partagez votre clé publique avec le monde entier et personne ne pourra trouver votre clé secrète! Ainsi, toutes les personnes possédant cette clé publique peuvent chiffrer les données et les envoyer à une partie pour y appliquer des calculs, de façon homomorphe. À la fin, les résultats peuvent également uniquement être déchiffrés et affichés à l'aide de la clé secrète.

Pour chiffrer les données, celles-ci doivent d'abord être codées comme vecteur de v nombres réels. Cela est simple lorsque vous travaillez avec des données numériques et la pratique courante lors d'un travail avec des données textuelles et autres. Pour ce chiffrement, le vecteur de v données est d'abord codé comme polynômeNote de bas de page 7 m dans Rq et combiné avec la clé publique, afin d'obtenir un texte chiffré, désigné par [v]. Maintenant, envoyez cela à la partie informatique effectuant les additions et multiplications homomorphes pour mettre en œuvre le calcul souhaité. La figure 5 représente un circuit simple calculant une fonction polynomiale. Une fois les calculs effectués et les textes chiffrés résultants obtenus, vous pouvez utiliser votre clé secrète pour déchiffrer et afficher les résultats.

Figure 5 : Visualisation d'un circuit homomorphe

Figure 5 : Visualisation d'un circuit homomorphe. Un vecteur de valeurs peut être chiffré en un simple texte chiffré et faire simultanément l'objet de calculs. La figure représente seulement une réalisation d'un circuit pour calculer le polynôme f(x). Les valeurs avec cadenas sont chiffrées et donc illisibles pour la partie effectuant les calculs.

Description - Figure 5

Circuit homomorphe évaluant la fonction nf(x)=x3+4x2+2x+1 sur un vecteur de valeurs. Les cadenas représentent les valeurs chiffrées et donc illisibles pour la partie effectuant les calculs. Les flèches et les opérations indiquent la façon dont il est possible de coder en fait le circuit dans une bibliothèque de chiffrements homomorphes.

Même si le présent article n'a pas exploré tous les détails de la mise en œuvre mathématique de ces opérations, la description du chiffrement homomorphe jusqu'à présent fournit le contexte nécessaire pour en apprendre plus en la matière.

Comment commencer à utiliser le chiffrement homomorphe

Pour vous lancer en chiffrement homomorphe, explorez certaines des bibliothèques de chiffrements homomorphes en source ouverte disponibles; vous pouvez essayer Microsoft SEAL, PALISADE Homomorphic Encryption Software Library, TFHE: Fast Fully Homomorphic Encryption over the Torus, voire Concrete: Open-source Homomorphic Encryption Library si vous êtes utilisateur de Rustacean also know as someone who uses Rust (le contenu de ces pages est en anglais). Ces diverses bibliothèques mettent en œuvre de multiples procédés de chiffrement homomorphe; vous pouvez choisir celui qui convient le mieux à votre cas d'utilisation. Nous soulignons que, jusqu'à la fin du processus de normalisation, le gouvernement du Canada ne recommande pas d'utiliser le chiffrement homomorphe avec tout type de données de nature délicate.

Même si tous ces procédés de chiffrement homomorphe différents permettent de mettre en œuvre la plupart des cas d'utilisation, certains seront plus performants que d'autres sur certains problèmes. Le procédé CKKS est conçu pour fonctionner sur des nombres réels; si les statistiques ou l'apprentissage automatique vous intéressent, c'est là que vous devriez probablement commencer! Brakerski/Fan-Vercauteren et Brakerski-Gentry-Vaikuntanathan sont parfaits pour l'arithmétique de nombres entiers et mettre en œuvre les primitives informatiques comme l'intersection d'ensemble privé ou la correspondance de chaînes. TFHE met en œuvre des fonctions logiques en mode natif et actualise le bruit de texte chiffré à chaque opération, ce qui permet d'améliorer l'efficacité lorsque les profondeurs de circuit sont plus longues. Nous encourageons les lecteurs intéressés à essayer des circuits simples en utilisant chaque procédé et à en comparer les résultats et les performances!

Si vous souhaitez de plus amples renseignements sur les aspects de cybersécurité du chiffrement homomorphe, notamment les activités de normalisation, communiquez avec le Centre canadien pour la cybersécurité par courriel à l'adresse contact@cyber.gc.ca et par téléphone au 613-949-7048 ou 1-833-CYBER-88.

Conclusion

Le présent article a exploré en détail le chiffrement homomorphe, de ses applications jusqu'au problème RLWE. Cette série sur les technologies liées à la protection de la vie privée se penchera ensuite sur des validations de principe effectuées en appliquant le chiffrement homomorphe à Statistique Canada! Elle couvrira également certains des aspects plus avancés de l'interface CKKS, notamment les rotations, le choix des paramètres, la mise en paquet, le bootstrap, la mise à l'échelle et les niveaux.

Souhaitez-vous être tenu au courant de ces nouvelles technologies? Voulez-vous faire état de vos travaux dans le domaine de la protection de la vie privée? Consultez la page GCConnex de notre communauté de pratique sur les technologies de protection de la vie privée (réservée aux employés du gouvernement du Canada), afin de discuter de cette série d'articles sur la protection de la vie privée, d'interagir avec des pairs qui s'intéressent à la protection de la vie privée, et de partager des ressources et des idées avec la communauté. Vous pouvez également commenter ce sujet ou fournir des suggestions d'articles futurs pour cette série.

Note : Nous souhaitons remercier le Centre canadien pour la cybersécurité et l'Institut Tutte pour les mathématiques et le calcul, faisant tous deux partie du Centre de la sécurité des télécommunications, pour leur participation au présent article.

Date de modification :

Le bulletin d'information du Réseau de la science des données a un an!

Par : Allie MacIsaac, Claudia Mokbel et Kathleen Carson, Statistique Canada

Qui n'aime pas célébrer un anniversaire? Notre bulletin d'information du Réseau de la science des données pour la fonction publique fédérale (RSDFPF) – le Méli-mélo de la science des données – a eu un an! Pour célébrer notre premier anniversaire, nous vous communiquons certaines de nos réalisations de l'année écoulée.

Figure 1 – Anniversaire du Réseau de la science des données

Figure 1 – Anniversaire du Réseau de la science des données

Description - Figure 1

Image d'une bougie d'anniversaire ayant la forme du chiffre « 1 ». Les mots « Réseau de la science des données » figurent au-dessus, avec le logo du réseau en arrière-plan.

L'année a été passionnante et s'est écoulée à toute vitesse – la communauté du RSDFPF a connu une croissance rapide, et cet enthousiasme nous encourage à mesure que nous continuons de croître et de nous adapter pour répondre aux besoins de la communauté de la science des données.

Votre opinion nous importe!

À mesure que le RSDFPF continue de croître, nous espérons continuer de répondre à vos besoins et de fournir le contenu qui sera le plus utile à notre lectorat. Nous vous invitons à prendre un moment pour répondre à notre enquête : Sondage sur le bulletin d'information du Réseau de la science des données, et nous faire part de votre avis concernant le réseau – notamment ce qui fonctionne et ce que nous pourrions améliorer. Nous vous remercions pour votre rétroaction!

Figure 2 – Frise chronologique indiquant les étapes clés du RSDFPF

Description - Figure 2

Frise chronologique indiquant les étapes clés du RSDFPF. Une barre traversant la partie inférieure de l'image indique les années 2020, 2021 et 2022. Voici les points figurant dans la chronologie de 2020 : Naissance de l'idée du réseau lors de la Conférence sur les données 2020 – février; Lancement du module Web du Centre de la science des données – septembre; Première réunion du comité des directeurs du RSDFPF – novembre; Création du wiki du RSDFPF – décembre. Voici les points figurant dans la chronologie de 2021 : Annonce du nom du bulletin d'information – janvier; Participation du RSDFPF à la Conférence sur les données 2021 – février; Première publication d'offres d'emploi dans le bulletin d'information – février; Première réunion du groupe de travail sur la gestion des talents en science des données – avril; Atelier sur les robots conversationnels (à venir) – décembre. Voici les points figurant dans la chronologie de 2022 : Conférence sur les données 2022 (à venir) – février.

Tout ce qu'il faut savoir sur le Réseau de la science des données

Figure 3 Tableau des membres du Réseau de la science des données pour la fonction publique fédérale

Figure 3 Tableau des membres du RSDFPF

Description - Figure 3

Graphique circulaire des membres du RSDFPF montrant le pourcentage de membres qui appartiennent aux catégories qui suivent : administrations publiques fédérales (70 %), secteur privé (18 %), milieu universitaire (8 %), administrations publiques provinciales (2 %), municipalités (1 %) et administrations publiques étrangères (1 %).

En chiffres

  • Plus de 2 200 membres
  • Dont des représentants de :
    • plus de 70 organismes et ministères,
    • 69 établissements d'enseignement,
    • 15 administrations publiques et organismes provinciaux ou territoriaux;
  • 22 articles publiés;
  • 11 éditions du bulletin d'information.

La première édition du bulletin d'information a été publiée en octobre 2020. Elle a servi de point de lancement du RSDFPF, dont l'objectif était de renforcer les capacités de la science des données et de mettre en commun les méthodes de la science des données au sein du gouvernement du Canada et au-delà. La communauté du RSDFPF comprend des personnes provenant de tous les secteurs, notamment des employé(e)s des administrations publiques fédérale et provinciales, des employé(e)s du secteur privé et des membres du milieu universitaire. Consulter la page À propos du Réseau de la science des données pour la fonction publique fédérale pour obtenir plus de renseignements.

La communauté du RSDFPF accueille par ailleurs des membres de tous les niveaux d'expérience et de compétence – elle n'est pas réservée qu'aux scientifiques des données! La communauté comprend des personnes qui collaborent avec des scientifiques des données, les supervisent ou les embauchent et même des personnes qui sont simplement curieuses et veulent en savoir plus sur ce domaine en expansion permanente.

L'objectif principal du RSDFPF est d'établir les bases d'un écosystème de la science des données, à l'échelle du service public et organisé autour de cinq domaines d'intérêt : la gestion des talents, la formation et l'apprentissage, le partage de l'information, la collaboration et les services communs.

Figure 4 – Les cinq domaines d'intérêt du Réseau de la science des données pour la fonction publique fédérale

Figure 4 – Les cinq domaines d'intérêt du RSDFPF

Description - Figure 4

Image comprenant cinq cercles liés et alignés de gauche à droite. Chaque cercle comprend un domaine d'intérêt. De gauche à droite, les cinq domaines sont la gestion des talents, la formation et l'apprentissage, le partage de l’information, la collaboration et les services conjoints.

L'idée d'un réseau de la science des données a été présentée pour la première fois lors de la Conférence sur les données 2020, qui a eu lieu à Ottawa les 13 et 14 février. Les employé(e)s du gouvernement du Canada ont exprimé leur enthousiasme à l'égard de cette initiative, car ils cherchaient une plateforme centrale à visiter pour obtenir les derniers renseignements sur la science des données.

Un espace réservé au RSDFPF

Figure 5 – Un espace réservé au Réseau de la science des données pour la fonction publique

Figure 5 – Un espace réservé au RSDFPF

Description - Figure 5

Le logo du Réseau de la science des données est composé des mots « Réseau de la science des données » en bleu marine et bleu ciel qui figurent dans la partie supérieure et de deux images vectorielles de personnes à l'intérieur d'un cercle, représentant le noyau du logo (et du réseau). Ce cercle est relié par des lignes à d'autres cercles, à l'intérieur desquels figurent des images de graphiques, d'horizons et autres symboles. Ces images représentent les différentes manières d'utiliser ou d'exprimer les résultats de la science des données.

C'est de cet enthousiasme qu'est né le RSDFPF! Les premières étapes ont notamment compris le lancement du module Web — Réseau de la science des données pour la fonction publique fédérale. Ce module fait partie du Centre de la science des données de Statistique Canada et présente tous les articles du réseau, la page d'abonnement au bulletin du Réseau de la science des données pour la fonction publique fédérale et d'autres ressources en science des données.

Un méli-mélo plaisant

Le bulletin d'information, intitulé Méli-mélo de la science des données, est en constante évolution. Jusqu'à présent, nous y avons présenté une grande variété d'articles sur des sujets de pointe. Cela comprend les projets de Statistique Canada et des présentations d'autres organismes et ministères. Jetez un coup d'œil à nos dix articles les plus lus – vous y trouverez certainement quelque chose d'intéressant!

Découvrez les 10 articles les plus lus de l'année

  1. La plateforme infonuagique d'analyse avancée liée à la COVID-19
  2. Une brève enquête sur les technologies liées à la protection de la vie privée
  3. Utilisation responsable des systèmes décisionnels automatisés du gouvernement fédéral
  4. De l'exploration à l'élaboration de modèles d'apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité
  5. Charges de travail protégées dans le nuage public
  6. Utiliser la science des données et les outils infonuagiques pour évaluer les répercussions économiques de la COVID-19
  7. Modélisation thématique et modélisation thématique dynamique : Une revue technique
  8. Contrôle de version avec Git pour les professionnels de l'analyse
  9. Classification des commentaires sur le Recensement de 2021
  10. Un étudiant coop explore la puissance des mégadonnées

Au RSDFPF, nous accueillons toujours avec plaisir vos propositions. Vous pouvez envoyer vos idées ou vos articles à l'équipe par courriel : statcan.dsnfps-RSDFPF.statcan@statcan.gc.ca et nous faire part de vos commentaires! C'est avec grand plaisir que nous traiterons de votre projet ou d'un sujet qui vous intéresse.

La première réunion du comité des directeurs du RSDFPF

Pour répondre aux besoins croissants du réseau, la première rencontre du comité des directeurs du Réseau de la science des données a eu lieu le 25 novembre 2020. La réunion a été très suivie, avec des représentants venus de 17 organismes et ministères et des partenaires désireux de faire progresser les capacités en matière de science des données. Après une présentation de l'objet et des buts du RSDFPF, nous avons eu une discussion animée sur les priorités du réseau – nous avons déjà progressé sur beaucoup d'entre elles à l'occasion de réunions ultérieures.

Cette première discussion et les suivantes ont porté notamment sur : la création d'un groupe de travail chargé de définir les compétences pour les descriptions des emplois en science des données au sein du gouvernement du Canada et d'améliorer les processus d'embauche et de maintien en poste du personnel; les contributions potentielles à la Conférence sur les données 2022 (qui sera co-organisée par Statistique Canada et l'École de la fonction publique du Canada); le projet d'organiser plusieurs séances de discussion sur les sujets pressants pour la communauté du RSDFPF, notamment les agents conversationnels et les entrepôts de données. Restez à l'affût pour plus en savoir plus sur ces événements à venir!

Les contributions clés à la 2021 Conférence sur les données

Les membres de tout le RSDFPF ont participé à plusieurs séances lors de la Conférence sur les données 2021, organisée en ligne en février. Le thème de la conférence était « Une communauté des données intégrée pour rebâtir en mieux », en réponse à la priorité du gouvernement du Canada d'œuvrer au rétablissement et à sa volonté d'apporter des changements systémiques positifs en utilisant des données de qualité.

Le RSDFPF a participé aux séances qui suivent :

  • le groupe d'experts sur l'évaluation des données saisies et l'exactitude du modèle résultant – la manière dont les scientifiques des données mettent la théorie en pratique lorsqu'ils évaluent des données pour des projets et la manière dont ils collaborent avec les clients pour obtenir la qualité de sortie souhaitée;
  • l'atelier sur l'Espace de travail d'analyse avancée – une discussion sur la conception de ce guichet unique pour la science des données et les analyses, une démonstration de la plateforme et une explication sur la manière dont cet espace de travail permet de réaliser des analyses à une échelle qu'il était auparavant impossible d'atteindre;
  • l'atelier sur les outils de gestion des talents pour les scientifiques des données – la manière dont les rôles sont définis dans d'autres organismes et les moyens de mettre à profit ces méthodes pour aider à combler les lacunes dans les profils de compétences des scientifiques des données au sein du gouvernement du Canada, afin d'attirer et de maintenir en poste les talents.

Compétences et collaboration

En misant sur le succès de l'atelier sur la gestion des talents lors de la Conférence sur les données, ainsi que sur les besoins définis lors des discussions de la réunion du comité des directeurs, le RSDFPF a créé un groupe de travail sur les compétences pour la gestion des talents en science des données. L'objectif de ce groupe de travail est de définir les rôles attendus dans une équipe de science des données et les compétences techniques et comportementales nécessaires pour chacun de ces rôles. Le groupe de travail s'appuie sur ces renseignements pour élaborer des profils de compétences qui permettront ensuite de rédiger des descriptions de postes fonctionnels, afin d'aider à maintenir en poste les scientifiques des données au sein de la fonction publique fédérale. Par ailleurs, le groupe de travail collabore étroitement avec le Secrétariat du Conseil du Trésor et la communauté des données du gouvernement du Canada, pour garantir une cohérence avec les autres initiatives en matière de ressources humaines et avec les compétences en numérique du gouvernement du Canada. Les ébauches de définition des rôles et des compétences sont prêtes. Le groupe a commencé à travailler sur l'attribution des niveaux de compétence. Les membres se réunissent toutes les deux semaines. Consultez la page du groupe de travail sur GCcollab pour obtenir plus de renseignements.

Regard vers l'avenir

D'autres nouveautés passionnantes sont prévues pour les prochains mois. Gardez un œil sur le bulletin d'information pour en savoir plus.

Le RSDFPF se réjouit :

  • de continuer d'encourager les projets de collaboration entre Statistique Canada et d'autres organismes et ministères fédéraux;
  • d'organiser de nouveaux événements, tels que l'atelier sur les agents conversationnels à venir en décembre;
  • d'organiser un atelier sur les entrepôts de données en 2022;
  • de publier plus d'articles et de contenu dans le bulletin d'information, avec les dernières nouvelles sur les projets et les ressources en science des données;
  • de participer à la Conférence sur les données 2022;
  • et plus encore!

Nous vous remercions de votre soutien, de votre intérêt et de votre enthousiasme constants, tandis que nous nous efforçons toutes et tous d'accroître les capacités de la science des données au sein du gouvernement du Canada et au-delà.

Date de modification :

Un nouvel indicateur des mouvements hebdomadaires d'aéronefs

Par : Krishna Chaitanya Gopaluni, Statistique Canada

L'an dernier, lorsque la pandémie de COVID-19 a frappé le Canada, le gouvernement fédéral a imposé des restrictions concernant les voyages non essentiels dans l'ensemble du pays pour aider à limiter la propagation du virus. Des restrictions frontalières sont également entrées en vigueur le 18 mars 2020 pour les voyages transfrontaliers entre le Canada et les États-Unis de même que pour les autres voyages internationaux. L'équipe de l'aviation du Centre canadien de la statistique du tourisme et du transport (CCSTT) de Statistique Canada publie des statistiques mensuelles détaillées sur les mouvements d'aéronefs deux mois après la période de référence, mais ces statistiques n'étaient pas suffisamment actuelles pour mesurer l'évolution rapide de la situation.

Parmi les nombreuses sources de données utilisées par le CCSTT pour produire ces statistiques mensuelles figurent les données qu'il reçoit des tours de contrôle de la circulation aérienne de NAV CANADA. L'équipe de la CCSTT connaissait le potentiel des données, mais elle n'avait ni les compétences ni le temps nécessaires pour produire efficacement des estimations préliminaires de qualité. Par conséquent, elle a collaboré avec l'équipe de l'opérationnalisation de la science des données (OSD), qui fait partie de la Division de la science des données de Statistique Canada. Ensemble, les équipes ont entrepris un projet visant à produire un nouvel indicateur des mouvements hebdomadaires d'aéronefs au Canada afin d'évaluer l'incidence des restrictions sur les aéroports canadiens dotés de tours de contrôle de la circulation aérienne de NAV CANADA.

L'équipe de l'OSD a travaillé avec le CCSTT pour produire une application sur mesure et simple, qui produit des estimations des mouvements d'aéronefs à partir de fichiers de données brutes déclarées dans le cadre du programme mensuel sur les statistiques relatives aux mouvements des aéronefs. Cette application est utilisée par les analystes de l'équipe de l'aviation pour produire des fichiers de sortie de données hebdomadaires, qui sont ensuite chargés dans le tableau Mouvements itinérants intérieurs et internationaux d'aéronefs pour diffusion au public. Les données sont mises à jour chaque semaine et publiées 12 jours après la semaine de référence.

Les estimations hebdomadaires permettent à Statistique Canada de fournir un indicateur avancé du niveau de circulation aérienne dans l'ensemble du pays en temps très opportun. Cette mesure s'est révélée utile, car la circulation aérienne a été durement touchée par la pandémie.

Automatisation du déroulement des opérations

Étant donné qu'il s'agissait d'une nouvelle initiative entreprise pendant la pandémie, il a fallu la mettre en œuvre d'une manière qui nécessitait peu de temps et d'efforts afin de suivre l'évolution de la situation dans l'aviation. Les analystes de l'équipe de l'aviation du CCSTT n'étaient pas certains de la façon optimale de produire des estimations hebdomadaires. Bien qu'ils aient accès aux fichiers bruts de NAV CANADA, il n'est pas facile de les traiter pour obtenir les bons renseignements, car les données sont semi-structurées. En vue d'accélérer ce processus, l'équipe de l'OSD a mis au point une approche automatisée pour estimer les mouvements hebdomadaires des aéronefs, afin que les analystes puissent facilement publier les chiffres.

Les renseignements extraits Mouvements itinérants intérieurs et internationaux d'aéronefs, total de tous les aéroports dotés d'une tour de contrôle de NAV CANADA, hebdomadaire, ont été agrégés chaque semaine pour les voyages intérieurs, transfrontaliers et internationaux.

Une représentation des étapes que franchissent les données pendant leur traitement

Figure 1 – Étapes du réseau de données

Description - Figure 1

Une représentation des étapes que franchissent les données pendant leur traitement. Progression de l'appariement du modèle vers l'extraction de la position du texte apparié, l'identification des aéroports intérieurs et la conversion en table de données. La table de données structurée est ensuite classée en catégories et des agrégats hebdomadaires sont créés.

À première vue, l'automatisation de ce processus semblait difficile; toutefois, l'équipe de l'OSD a mis en place une solution fondée sur Python, qui s'est révélée utile. Elle a utilisé une technique simple d'appariement de formes utilisant des expressions régulières et la bibliothèque intégrée de traitement de chaînes de caractères de Python pour extraire du texte à partir d'une position donnée dans les données semi-structurées. Pour ce faire, l'équipe a d'abord recueilli les données de NAV CANADA auprès des intervenants et a utilisé des techniques de reconnaissance des motifs pour récupérer les entrées liées à 41 aéroports intérieurs et des renseignements sur les mouvements intérieurs, les mouvements transfrontaliers et les autres mouvements internationaux. Ensuite, les données ont été transformées en données structurées et stockées dans une table de données. À l'étape suivante de l'exécution, l'application a classé chaque entrée selon les catégories « voyages intérieurs », « voyages transfrontaliers » ou « autres voyages internationaux », en fonction des métadonnées. Enfin, les chiffres correspondant à chaque catégorie ont été regroupés en mouvements hebdomadaires. La bibliothèque Python d'analyse de données Pandas a également été utilisée pour créer des agrégations hebdomadaires complexes. L'agrégation hebdomadaire dépend de la date de début fournie par l'utilisateur.

Résultats après l'automatisation du déroulement des opérations

Lors de la première diffusion du 18 mars 2020, les analystes ont utilisé l'approche automatisée pour diffuser les estimations agrégées des mouvements d'aéronefs. Les résultats ont montré une diminution du nombre de vols provenant de ces 41 aéroports. Pendant l'analyse des résultats d'un processus automatisé , il est souvent difficile de connaître la qualité de ces résultats. Toutefois, dans ce cas, les données diffusées précédemment comportaient beaucoup de données validées sur le terrain. L'exactitude des résultats de l'application a été vérifiée en recréant les chiffres mensuels déjà diffusés de l'année précédente. La validation était un processus itératif, car la majorité des résultats de la nouvelle application Python se rapprochaient des valeurs diffusées. Certaines données aberrantes ont dû être examinées par les experts du CCSTT. Une fois cette étape terminée, le code a été mis à jour jusqu'à ce que les estimations préliminaires de la nouvelle application Python et les résultats diffusés soient raisonnablement exacts. Depuis le déploiement de l'application en production, une seule modification a été nécessaire : un aéroport a été ajouté aux données de NAV CANADA.

Incidence sur les utilisateurs de l'application

Les analystes du CCSTT utilisent le format de l'Entrepôt commun des données de sortie (ECDS) pour diffuser tous les résultats sur le site Web de Statistique Canada. L'ECDS est un format de base de données précis qui aide à visualiser les données exportées. L'application Python développée par l'équipe de l'OSD produit également les résultats au format de l'ECDS, ce qui facilite l'intégration avec le déroulement des opérations déjà en place des analystes pour la diffusion des estimations. De plus, l'application a été simplifiée pour les utilisateurs non techniques en permettant la saisie de paramètres d'entrée à partir de fichiers Excel.

Si les analystes avaient choisi de recueillir et d'agréger les renseignements manuellement au moyen d'Excel, cela aurait pris beaucoup de temps et aurait été particulièrement laborieux. Il aurait fallu répéter ce processus chaque fois que de nouvelles données arrivaient. Toute nouvelle exigence relativement au déroulement des opérations aurait également augmenté les frais généraux. Compte tenu de cela, il était nécessaire d'établir un programme extensible et réutilisable pouvant estimer les nombres agrégés de mouvements d'aéronefs. Ce simple programme Python a satisfait à cette exigence et a permis d'économiser de nombreuses heures d'efforts manuels.

L'équipe de l'OSD et le CCSTT étudient actuellement la possibilité d'élargir les données diffusées, par exemple pour inclure une ventilation par aéroport principal.

Renseignements supplémentaires

Pour obtenir de plus amples renseignements sur ce projet, veuillez consulter :

Date de modification :

Modélisation de la dynamique du SRAS-CoV-2 pour prévoir la demande d'EPI

Par : Jihoon Choi, Deirdre Hennessy et Joel Barnes, Statistique Canada

L'équipement de protection individuelle (EPI) est devenu un aspect important de la vie de tous les Canadiens, la pandémie ayant modifié notre façon d'agir les uns avec les autres et de nous protéger. La progression rapide du nouveau coronavirus, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), aussi désigné par le nom COVID-19, a exercé des pressions sans précédent sur le gouvernement du Canada pour qu'il fournisse des informations actuelles, exactes et pertinentes en vue d'éclairer la prise de décisions relatives à de nombreux enjeux de santé publique, notamment l'approvisionnement en EPI et le déploiement de l'EPI vers les provinces et territoires.

La pandémie mondiale attribuable au SRAS-CoV-2 pose un problème grave en matière de santé publique pour les Canadiens.Note de bas de page 1 En octobre 2021, plus de 1,71 million de cas diagnostiqués avaient été signalés au Canada. Cela signifie qu'il est essentiel que les Canadiens aient accès à de l'EPI lorsqu'ils en ont besoin.

Par EPI, on entend des produits comme des masques, des gants et des blouses qui sont portés pour se protéger d'une exposition potentielle à des agents pathogènes infectieux. La pandémie a exercé des pressions considérables sur les chaînes d'approvisionnement de l'EPI au Canada, ce qui a entraîné des perturbations importantes de l'approvisionnement dans des secteurs où les stocks d'EPI sont essentiels (comme les hôpitaux, les établissements de soins de longue durée).Note de bas de page 2 C'est pourquoi les prévisions relatives à la trajectoire de la pandémie et à ses effets sur l'approvisionnement, la demande et les stocks d'EPI sont devenues un aspect crucial du processus décisionnel.Note de bas de page 3Note de bas de page 4

Les modèles épidémiologiques peuvent fournir des données précieuses lors du processus décisionnel en matière de santé publique, en produisant un certain nombre de scénarios de simulation tenant compte de différentes hypothèses. De plus, ils peuvent aider à évaluer les répercussions de différentes mesures d'intervention en santé publique sur le résultat de l'épidémie (c.-à-d. lorsqu'on doit décider du moment critique pour adopter des mesures de confinement ou de réouverture dans chaque province).Note de bas de page 5 Il existe différentes variations des modèles épidémiologiques. Plusieurs d'entre elles sont des modèles à compartiments dans lesquels la population est divisée en de multiples compartiments et passe d'un compartiment à un autre selon un taux établi.Note de bas de page 6

Le modèle Susceptible-Infecté-Rétabli (SIR) fait partie des formes les plus fondamentales du modèle à compartiments (figure 1). Ce modèle comporte trois compartiments, où S représente le nombre de personnes susceptibles, I, le nombre de personnes infectées et R, le nombre de personnes rétablies (et immunisées).

Figure 1 – Structure d’un modèle épidémiologique de base

Figure 1 – Structure d'un modèle épidémiologique de base.

Description - Figure 1

La structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

La figure 1 montre la structure de base du modèle SIR. La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ.

Les modèles à compartiments ont commencé à être utilisés en épidémiologie au début du XXe siècle. Plus précisément, les fondements reposaient sur le théorème décrit par Ronald Ross, William Hamer, Anderson McKendrick et William Kermack, ainsi que la grande influence de John Brownlee et ses perspectives statistiques.Note de bas de page 7 Depuis leur création, les modèles à compartiments se sont avérés utiles pour modéliser de nombreuses maladies transmissibles, comme la malaria et la peste.Note de bas de page 8Note de bas de page 9

Alors que l'éclosion de SRAS-CoV-2 est devenue une grande préoccupation des Canadiens en matière de santé publique, Santé Canada a demandé à la Division de la science des données (DScD) et à la Division de l'analyse de la santé (DAS) de Statistique Canada de créer un modèle épidémiologique qui pourrait prévoir les trajectoires de l'éclosion dans les provinces canadiennes. Les prévisions relatives aux cas et aux hospitalisations produites à partir du modèle épidémiologique sont utilisées dans le cadre du projet sur l'EPI afin d'évaluer la demande d'EPI dans différents secteurs de chacune des provinces. Le projet sur l'EPI cherche à permettre de prendre des décisions éclairées relatives à l'approvisionnement, à l'affectation et aux investissements pour la production nationale d'EPI, au moyen de rapports fondés sur des données probantes qui portent sur la situation actuelle et les projections de l'offre et de la demande d'EPI, dans le cadre de différents scénarios épidémiologiques.

Création du modèle initial pour la demande d'EPI : modèle Susceptible – Infecté – Rétabli – Décédé (SIRD)

Le modèle SIRD initial utilisait des méthodes bayésiennes pour évaluer le nombre d'infections actives dans les collectivités canadiennes, en fonction de la mortalité attribuable au SRAS-CoV-2. Le nombre total d'infections au SRAS-CoV-2 (diagnostiquées ou non) a été estimé, de manière inversée, à partir des décès attribuables au SRAS-CoV-2 par province et territoire, au moyen d'une méthode semblable à celle utilisée par Flaxman et coll.Note de bas de page 10 Le nombre estimé d'infections, de décès et de cas rétablis a été ajouté à un modèle à compartiments simple, composé de quatre compartiments. Les trois premiers compartiments sont équivalents à ceux du modèle SIR de base (Susceptible, Infecté et Rétabli). Cependant, ce modèle dispose d'un compartiment additionnel, D, qui représente la population décédée (figure 2).

Figure 2 – Structure d’un modèle épidémiologique SIRD

Figure 2 – Structure d'un modèle épidémiologique SIRD.

Description - Figure 2

La structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité γ.

La figure 2 illustre la structure de base du modèle SIRD (Susceptible – Infecté – Rétabli – Décédé). La population initiale se trouve, au départ, dans le compartiment « susceptible » et passe au compartiment « infecté » à un taux d'infection β, avant de passer au compartiment « rétabli » à un taux de rétablissement λ, ou au compartiment « décédé » à un taux de mortalité γ.

Ce modèle produit également un nombre de reproduction historique dynamique, R(t). Le concept R(t) est important dans le cadre de l'épidémiologie des maladies infectieuses, fournissant de l'information sur le potentiel de transmission d'un agent infectieux. Autrement dit, il montre à quel point une maladie infectieuse est contagieuse à un moment t au sein de la population à l'étude. De manière générale, si R(t) est supérieur à 1, la maladie commencera à se propager au sein de la population. Si R(t) est inférieur à 1, le nombre de nouveaux cas diminuera.

On évalue souvent R(t) en observant le nombre de nouvelles infections pendant une période. Cependant, le nombre de cas de SRAS-CoV-2 n'a pas été retracé avec exactitude au début de la pandémie, en raison des ressources limitées, par exemple le manque de trousses d'analyse.Note de bas de page 11 En tant que solution de rechange, le modèle SIRD a estimé le R(t) historique à partir du nombre de décès attribuables au SRAS-CoV-2, une mesure beaucoup plus fiable que le nombre réel de cas pendant la période initiale de l'éclosion. Un taux de mortalité par infection (TMI) pour le SRAS-CoV-2 tiré de la littérature de recherche a servi à calculer, de manière inversée, le R(t) historique.

Pour prévoir le R(t) futur, l'équipe a produit différents scénarios de pandémie. Chacun comportait diverses hypothèses au sujet des mesures d'intervention en santé publique adoptées :

  • Le scénario de confinement en raison du SRAS-CoV-2 – cherche à modéliser une situation lors de laquelle des mesures d'intervention en santé publique sont en place (comme le confinement). Selon ce scénario, R(t) est toujours inférieur à 1.
  • Le scénario de la meilleure estimation de la recrudescence – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, ce qui fait en sorte que le R(t) demeure élevé.
  • Le scénario des sommets et des creux – permet à l'épidémie de reprendre, en conjonction avec la réouverture de l'économie, jusqu'à ce que le taux d'occupation dans les unités de soins intensifs (USI) des hôpitaux atteigne 30 % du maximum provincial. Un plan d'intervention est ensuite mis en application pour que le R(t) retrouve le niveau observé pendant le confinement.

Le modèle SIRD a servi de principal modèle épidémiologique dans le cadre du projet sur l'EPI jusqu'au début de 2021. Ce modèle a fait preuve d'un degré raisonnable d'exactitude pour prévoir la pandémie, au cours du stade initial d'éclosion. Cependant, ce modèle comporte un certain nombre de limitations. Tout particulièrement, il ne considérait pas la structure par âge de la population. Ces limitations ont entraîné la création d'une autre version du modèle épidémiologique, doté de compartiments additionnels, qui peut prendre en considération des caractéristiques plus complexes de la pandémie.

Le modèle courant : modèle Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné (SEIRDV)

Au début de la pandémie, la DScD et la DAS de Statistique Canada ont collaboré avec l'Agence de la santé publique du Canada (ASPC) pour créer un modèle SIR à compartiments multiples structuré selon l'âge. Cette collaboration a permis de créer le modèle SEIRDV, adapté par l'équipe épidémiologique chargée de l'EPI au sein de Statistique Canada, en conjonction avec Santé Canada, afin qu'il soit utilisé dans le modèle principal d'offre et de demande d'EPI. Le modèle sert de principal modèle épidémiologique dans le cadre du projet sur l'EPI depuis janvier 2021 (figure 3).

Figure 3 – Structure simplifiée d’un modèle épidémiologique SEIRDV

Figure 3 – Structure simplifiée d'un modèle épidémiologique SEIRDV.

Description - Figure 3

Une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie aux autres est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement.

La figure 3 illustre une structure simplifiée du modèle SEIRDV (Susceptible – Exposé – Infecté – Rétabli – Décédé – Vacciné). La population se trouve, au départ, dans le compartiment « susceptible », avant de passer au compartiment « exposé » et « infecté » après avoir contracté la maladie. Certaines de ces infections sont décelées à la suite de la recherche de contacts ou de tests de dépistage pour le SRAS-CoV-2. Les personnes dont l'infection a été dépistée sont mises en quarantaine. La probabilité qu'elles propagent la maladie est réduite. Au moment de l'infection, les personnes qui ont des symptômes sévères consultent un médecin. La population ayant des symptômes sévères peut avoir deux résultats finaux : le décès ou le rétablissement. Les personnes qui n'ont que des symptômes légers ou qui n'ont aucun symptôme passeront, au fil du temps, au compartiment « rétabli ». De plus, dans ce modèle, la population peut être vaccinée. Si une personne est vaccinée, la probabilité qu'elle passe au compartiment « infecté » est réduite en raison du taux de protection du vaccin. Dans le même ordre d'idées, la population vaccinée affiche un taux de probabilité réduit quand vient le temps d'avoir la forme sévère de la maladie et donc d'être prise en charge par le système de soins de santé (comme les hôpitaux ou les USI).

Voici les quatre modifications principales apportées en raison de l'adoption du modèle SEIRDV :

1. Le modèle permet à la population à l'étude d'être stratifiée selon l'âge

Dans le modèle SEIRDV, la population est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus), ce qui permet de configurer différents paramètres pour chaque groupe d'âge et de tenir compte des différences en fonction de l'âge.

Par exemple, les rapports démontrent que les groupes d'âge plus jeunes affichent une probabilité réduite d'hospitalisation et de mortalité par rapport aux groupes d'âge plus âgésNote de bas de page 12. Puisque le modèle SEIRDV permet aux utilisateurs d'établir différents taux de flux pour chaque groupe d'âge, il peut modéliser cet effet.

Dans le même ordre d'idées, nous savons que certains groupes d'âge ont des interactions plus fréquentes que d'autres (comme les parents avec leurs enfants). La probabilité qu'ils se transmettent la maladie est donc supérieure. Dans le modèle SEIRDV, cet effet peut être pris en compte en utilisant une matrice des interactions qui modélise le taux de contacts moyen entre deux groupes d'âge.

2. Amélioration de l'estimation du taux de transmission (β)

Au lieu de se fonder sur une seule mesure, comme R(t), afin d'évaluer le taux de transmission, le modèle utilise désormais trois paramètres différents pour calculer le taux de transmission.

Tout d'abord, il y a β qui, dans ce modèle, représente la probabilité de transmission lors d'un contact. Ce chiffre est évalué à partir de la littérature et ajusté en fonction de la souche dominante de SRAS-CoV-2 dans chaque province. Cette mesure est multipliée par une matrice de contacts, c'est-à-dire une matrice numérique qui illustre le nombre moyen de contacts que les personnes de chaque groupe d'âge ont avec un autre groupe d'âge. Enfin, un multiplicateur de contacts est appliqué afin de tenir compte des variances en ce qui concerne les taux de contacts. Lorsque différentes mesures d'intervention en santé publique sont imposées (comme un confinement), le taux de contacts au sein de la population évolue en conséquence. Ces variations sont obtenues en étalonnant le multiplicateur de contacts en fonction du nombre signalé de cas actifs quotidiens dans chaque province, toutes les semaines.

3. L'effet de la vaccination est pris en compte

Parmi les principaux effets de la vaccination, il y a une réduction des pressions exercées sur le système de santé (en évitant que les personnes infectées soient si gravement malades qu'elles doivent être hospitalisées) et de la transmission de la maladie dans la collectivité (en évitant que les gens soient infectés, ce qui finalement favorise l'immunité collective). La conception actuelle du modèle SEIRDV tient compte de ces deux effets, comprenant une voie distincte réservée à la vaccination. La population vaccinée passera à cette voie, où la chance qu'elle contracte la maladie est réduite et la probabilité qu'elle ait des symptômes sévères exigeant une hospitalisation est réduite.

Le modèle tient aussi compte du plan de vaccination à deux doses établi par le Comité consultatif national de l'immunisation. Les données sur la vaccination ont été obtenues auprès de l'ASPC et du COVID-19 Canada Open Data Working Group (CCODWG), afin d'évaluer le nombre de doses qui peuvent être injectées chaque jour par province. De plus, les différents taux de protection assurés par le plan de vaccination à deux doses ont été modélisés en divisant la voie de vaccination en quatre compartiments distincts. La figure 4 résume ce processus.

Figure 4 – Conception du compartiment réservé à la vaccination

Figure 4 – Conception du compartiment réservé à la vaccination

Description - Figure 4

Montre la division des groupes d’âges au sein d’une population ainsi que la distribution des vaccins injectés aux personnes plus âgées et plus jeunes, en tenant compte de certains groupes de risque élevé de tout âge. Les groupes passent de la première à la deuxième dose pour être pleinement vaccinés.

La population à l'étude est divisée en six groupes d'âge distincts (de 0 à 9 ans, de 10 à 19 ans, de 20 à 39 ans, de 40 à 59 ans, de 60 à 74 ans et de 75 ans et plus). Les vaccins sont injectés aux personnes des groupes d'âge les plus âgés avant de l'être aux personnes des groupes d'âge les plus jeunes. Un petit nombre de doses a été injecté à un groupe d'âge qui représente les professionnels de la santé, au premier stade. Lorsqu'elle reçoit la première dose, la population qui vient d'être vaccinée passe au premier compartiment de vaccination, représentant la population qui a reçu un vaccin, mais qui n'est pas encore immunisée. Cette population passe ensuite au deuxième compartiment de vaccination après une période établie. À ce moment, elle acquiert une protection partielle contre le SRAS-CoV-2. La population demeure dans ce compartiment jusqu'à ce que le stade 1 (lorsque la distribution de la première dose) soit terminé. Lorsque le stade 2 du plan de vaccination commence, la population passe au troisième compartiment de vaccination, au moment où elle reçoit sa deuxième dose, avant de passer au dernier compartiment de vaccination, lorsqu'elle a le degré d'immunité maximal qu'offre la vaccination.

4. Il est possible de modéliser les répercussions des variants préoccupants (VP)

La séquence d'un certain nombre de souches différentes de SRAS-CoV-2 a été établie partout dans le monde en raison de mutations virales, dont certaines affichent des taux de transmission ou de mortalité supérieursNote de bas de page 13. Il s'agit de variants préoccupants (VP) qui sont un facteur crucial à prendre en considération dans la modélisation épidémiologique du SRAS-CoV-2. Le modèle SEIRDV peut les modéliser en modifiant la probabilité de transmission (β) pour obtenir le taux de transmission accru, en plus de modifier le passage vers le compartiment réservé à l'hospitalisation ou au décès pour obtenir l'effet d'une gravité accrue des symptômes associés au variant. Au moyen de ce mécanisme, l'équipe a réussi à modéliser l'effet du variant B.1.1.7 (Alpha) dans le modèle.

Conclusion

En raison des efforts déployés pour assurer un développement, une amélioration et un étalonnage continus, le modèle épidémiologique a contribué de manière utile à la modélisation de la tendance en ce qui concerne la pandémie de SRAS-CoV-2 au Canada. Plus précisément, les résultats de ce modèle ont permis au projet sur l'EPI d'évaluer la demande d'EPI à l'échelle des provinces canadiennes, afin de veiller à ce que tous les secteurs se procurent suffisamment de stocks d'EPI avant les éclosions d'envergure.

De plus, cet article démontre comment l'application de la science des données, jumelée à des statistiques, à l'informatique et à l'épidémiologie, peut servir à assurer une planification en santé publique, en plus de prendre des décisions relatives aux besoins en ressources pendant la pandémie de COVID-19.

Comment cela a-t-il été rendu possible?

Domaines pouvant faire l'objet d'autres études

Puisque la pandémie de SRAS-CoV-2 est toujours active, d'autres travaux devront peut-être être réalisés. Voici quelques domaines qui pourraient faire l'objet d'autres études :

  • Nouveaux variants
    En raison du taux de mutation élevé observé en ce qui concerne la souche SRAS-CoV-2, la séquence de nouveaux variants est constamment établie partout dans le monde. Alors que le modèle tenait compte de l'effet du variant B.1.1.7, il existe plusieurs autres VP dont il faut tenir compte (comme le variant Delta). L'équipe surveille étroitement la propagation des VP à l'échelle du pays afin de déterminer si le modèle doit tenir compte d'autres variants.
  • Déclin de l'immunité
    Des études ont démontré que l'immunité acquise grâce à la vaccination (ou à l'infection) ne dure pas de manière indéfinie. L'immunité diminuera au fil du temps, ce qui entraînera une perte progressive des anticorps conférant une protection. On désigne ce phénomène par le nom « déclin de l'immunité ». Le modèle devra en tenir compte pour préparer un scénario futur, notamment lorsqu'une grande proportion de la population aura besoin d'une autre dose de vaccin pour maintenir son immunité.

Équipe de modélisation épidémiologique chargée de l'EPI :
Jihoon Choi (DScD), Deirdre Hennessy (DAS), Joel Barnes (DAS).

Équipe du projet et collaborateurs :
Rubab Arim, Statistique Canada ; Kayle Hatt, Santé Canada

Date de modification :

Enquête sur la rémunération auprès des entreprises - Secteur public : Guide de déclaration

Veuillez lire ce guide de déclaration avant d'inscrire les renseignements sur le questionnaire. Vous pourrez ainsi mieux comprendre les exigences de la présente enquête. Veuillez conserver ce guide pour référence future.

Introduction

But de l'enquête

L'Enquête sur la rémunération auprès des entreprises mesure les tendances mensuelles de l'ensemble des salariés inscrits sur la liste de paye, des heures rémunérées, et des gains. Cette enquête ainsi que l'information provenant des formules PD7A des versements des retenues de l'Agence du revenu du Canada fournissent les données de base pour produire les estimations du programme de l'Enquête sur l'emploi, la rémunération et les heures de travail (EERH). Votre participation est essentielle à l'obtention de résultats qui reflèteront correctement votre industrie, région et taille d'entreprise. En vertu de la Loi sur la statistique, vous êtes tenu de répondre à cette enquête.

Ce guide contient des définitions et des directives sur la manière de remplir le questionnaire d'enquête.

Pour cette enquête, la définition d'un employé est toute personne qui reçoit une rémunération pour services rendus au Canada ou pour un congé payé et pour laquelle l'employeur est tenu de remplir une déclaration État de la rémunération payée de l'Agence du revenu du Canada (Feuillet T-4). Le terme salarié englobe les salariés à temps plein, à temps partiel et occasionnels ou temporaires.

Veuillez noter que la Question 1 couvre le nombre total de salariés de la dernière période de paye du mois de référence, pour l'ensemble des catégories de salariés. Pour les Questions 2 à 15, le nombre de salarié, la rémunération brute régulière et les heures se rapportent tous à la dernière période de paye du mois de référence, pour chacune des catégories de salariés. Les questions sur les paiements spéciaux recueillent l'information sur les paiements faits en tout temps durant le mois de référence, et les périodes que le montant couvre.

Confidentialité

La loi interdit à Statistique Canada de divulguer toute information recueillie qui pourrait dévoiler l'identité d'une personne, d'une entreprise ou d'un organisme sans leur permission ou sans en être autorisé par la loi. Statistique Canada utilisera les données de cette enquête à des fins statistiques.

Période de déclaration

Le mois de référence est indiqué sur l'invitation électronique.

Tous les salariés incluant les membres du conseil (Question 1)

Toute personne rémunérée pour les services rendus au Canada ou pour des congés payés par l'employeur et pour laquelle l'employeur est tenu de remplir une déclaration T-4 de l'Agence du revenu du Canada. Le terme salarié englobe les salariés à temps plein, à temps partiel, et les salariés occasionnels ou temporaires.

Indiquez le nombre total de salariés rémunérés pour les services rendus ou pour des congés payés par l'employeur au cours de la dernière période de paye, du mois de référence. Inclure les salariés à temps partiel et les membres du conseil, s'il y a lieu.

Tous les salariés incluant les membres du conseil (Questions 2 15)

Les questions suivantes concernent le nombre de salariés, les dates, la rémunération régulière brute et le nombre d'heures qui se réfèrent à la dernière période de paye payable, du mois de référence. Il importe peu que les chèques de paye aient été émis ou non pour cette période. Veuillez noter que la question sur les paiements spéciaux fait référence à des paiements faits en tout temps durant le mois de référence. Les dates que vous devez déclarer sont les dates de la période visée par les paiements.

Déclarez vos données par catégorie de salariés. S'il y a seulement un registre de paye pour une catégorie de salariés, inscrivez vos renseignements dans la première colonne. Utilisez les colonnes additionnelles si vous avez plus d'un registre de paye par catégorie de salariés.

Catégorie de salariés :

Salariés rémunérés à l'heure :
Tout salarié dont la rémunération de base est calculée selon un taux horaire.
Employés à salaire fixe :
Tout salarié dont la rémunération de base constitue une somme fixe versée pour une période d'au moins une semaine.
Autres salariés :
Tout salarié n'ayant pas été déclaré dans les catégories précédentes – par exemple, les membres du conseil.

Exemple:

Les employés à salaire fixe d'une compagnie sont payés à différents intervalles, certains employés à salaire fixe reçoivent leur paye toutes les semaines tandis qu'un autre groupe est payé aux deux semaines. Pour déclarer ces renseignements pour la dernière période de paye, utilisez la première colonne pour déclarer les employés payés toutes les semaines, avec des dates correspondant à une période hebdomadaire, et la deuxième colonne pour les employés payés toutes les deux semaines, avec des dates correspondant à deux semaines.

Nombre de salariés (Questions 2, 7 et 12)

Choisissez la catégorie de salariés appropriée et déclarez le nombre de salariés ayant été rémunérés au cours de la dernière période de paye du mois de référence. Cette rémunération peut être pour les services rendus ou pour des congés payés par l'employeur tels que des jours fériés, des jours de vacances, etc. Déclarez un employé dans une catégorie de salariés seulement.

Dates concernant la dernière période régulière de paye

Dates du premier et dernier jour (Questions 3, 8 et 13)

La dernière période de paye du mois correspond à la dernière période de paye consignée dans les livres comptables comme une charge courue. Il importe peu que les chèques de paye aient été émis ou non pour cette période.

Indiquez les dates du premier et du dernier jour de la dernière période de paye complète du mois de référence pour chaque catégorie de salariés applicable. Si votre dernière période de paye inclut trois jours ou moins du mois suivant, vous pouvez inscrire cette période de paye.

Rémunération régulière brute (Questions 4a, 9a et 14)

Déclarez la rémunération régulière brute payable pour la dernière période de paye du mois de référence. Il faut inclure la rémunération payable pour les heures supplémentaires travaillées durant la même période.

La rémunération régulière brute payable, avant les retenues, inclut :

  • les salaires normaux ;
  • les paiements habituels prévus ou imprévus pour les heures supplémentaires versées spécifiquement pour la dernière période de paye du mois ;
  • les gratifications versées régulièrement pour la dernière période de paye du mois (par exemple, les primes à la production, à l'initiative, d'éloignement) ; et
  • les congés payés par l'employeur pour la dernière période de paye du mois.

La rémunération régulière brute payable, avant les retenues, exclut :

  • tous les paiements qui ne portent pas sur la dernière période de paye visée ;
  • les avances d'indemnisation des accidents de travail faites aux salariés pendant la résolution d'une réclamation ;
  • les paiements en espèce ;
  • les avantages imposables et non imposables ;
  • les frais de déplacement ; et
  • les cachets des administrateurs qui ne sont pas des salariés de l'entreprise.

Rémunération des heures supplémentaires (Questions 4b et 9b)

Rémunération versée pour toutes les heures de travail effectuées en sus de la journée ou de la semaine normale de travail durant la dernière période de paye du mois de référence. La rémunération pour les heures supplémentaires représente le paiement versé au salarié après que le taux a été majoré. (Se reporter à la section sur la « Rémunération régulière brute » et les « Paiements spéciaux » pour obtenir d'autres détails).

Nombre total d'heures payables (pour salariés à l'heure seulement) (Question 5a)

Déclarez toutes les heures payables pour les services rendus et pour les congés payés pour la dernière période de paye du mois de référence. Il faut inclure les heures supplémentaires et les autres heures payées, telles que les heures de congé payées, les jours fériés, les vacances, les congés de maladie, et les congés pour fonctions de jury. Arrondissez les chiffres à une heure près.

Exemple :

Une compagnie compte 7 salariés rémunérés à l'heure qui sont payés toutes les semaines :

  • 2 salariés travaillent à temps plein 40 heures par semaine ;
  • 3 salariés travaillent à temps plein 37 1/2 heures par semaine ; et
  • 2 salariés travaillent à temps partiel 24 heures par semaine.

Pour la dernière période de paye du mois, les salariés ont travaillé le nombre d'heures normales, sauf que :

  • 1 salarié a pris une journée de congé de maladie payé ; et
  • 1 salarié à temps partiel a pris un congé sans solde de 4 heures.
  • Il y avait également trois heures supplémentaires travaillées.

Le nombre total d'heures payables pour du travail accompli et des congés payés de la dernière période de paye du mois de référence, serait de 240 heures.

(Voir l'exemple du calcul)

Calcul:

2 temps plein x 40.0 heures

= 80,0

3 temps plein x 37.5 heures

= 112,5

2 temps partiel x 24.0 heures (moins 4 heures sans rémunération)

= 44,0

3 heures supplémentaires (avant majoration)

= 3,0

Total 239,5
Arrondi à 240

Nombre total d'heures supplémentaires travaillées (Salariés rémunérés à l'heure seulement) (Question 5b)

Déclarez le nombre d'heures supplémentaires travaillées durant la dernière période de paye du mois de référence avant que le taux de majoration soit appliqué. Seul le nombre réel d'heures supplémentaires travaillées est requis.

Exemple:

Si un salarié a travaillé deux heures supplémentaires à un taux majoré de moitié, le nombre réel d'heures supplémentaires travaillées est de 2 heures.

Nombre moyen d'heures de travail prévues dans une semaine (Employés à salaire fixe seulement) (Question 10)

Déclarez le nombre moyen d'heures prévues dans une semaine de travail normale au cours de la dernière période de paye du mois de référence. Il est important que ce nombre soit pour une seule semaine.

Si tous vos employés à salaire fixe comptent le même nombre d'heures prévues dans une semaine normale de travail, déclarez ce nombre. Exprimez les fractions sous forme de décimales.

Si le nombre moyen d'heures de travail prévues diffère pour vos employés à salaire fixe, indiquez le nombre moyen d'heures travaillées par ces employés. (Voir exemple ci-dessous)

Exemple:

Si 4 employés à salaire fixe à temps plein travaillent 40 heures par semaine et 2 employés à salaire fixe à temps partiel travaillent 24 heures par semaine, alors la moyenne pour ces employés est calculée de la façon suivante :

((4x40) + (2x24)) ÷ (4+2) = 34,66 heures en moyenne

Paiements spéciaux versés n'importe quand durant le mois (Questions 6, 11 et 15)

Les paiements spéciaux sont les sommes versées aux salariés pour le travail accompli ou pour d'autres versements :

  • qui ne portent pas exclusivement sur la dernière période de paye du mois ;
  • qui sont effectués à un moment quelconque au cours du mois ;
  • qui ne font pas partie des salaires normaux ;
  • qui sont habituellement inscrits aux livres selon la méthode de comptabilité de « aisse ». (La comptabilité de caisse est une méthode qui consiste à ne comptabiliser les produits et charges qu'au moment où les opérations en cause donnent lieu à des rentrées ou des sorties de fonds).

Les paiements spéciaux ne comprennent pas la rémunération comptabilisée comme une rémunération régulière ainsi que les allocations et les avantages non imposables. Il ne faut pas inclure dans la dernière période de paye les paiements spéciaux, car cela donnerait une image inexacte des gains moyens.

Si les paiements sont effectués sur une base régulière (par exemple, à chacune des périodes de paye), ils peuvent être inclus avec la rémunération régulière brute. Toutefois, si les paiements sont faits sur une base irrégulière (par exemple, s'ils ne sont pas versés à chaque période de paye), ils doivent être rapportés avec les paiements spéciaux.

Les exemples suivants constituent une liste partielle de paiements spéciaux possibles. Il peut exister d'autres paiements qui soient uniques à votre entreprise. Les intervieweurs des bureaux régionaux sont disponibles pour répondre à toutes vos questions et vous renseigner en ce qui concerne les paiements spéciaux.

  • les primes : annuelles, contractuelles, de Noël, incitatives, mensuelles, de rendement, de recrutement et de maintien en poste ;
  • les indemnités de vie chère ou de subsistance ;
  • les paiements cumulatifs au titre des heures supplémentaires portant sur une période plus longue que la période de paye visée ;
  • les congés réguliers (fériés, maladie) qui portent sur une période autre que la dernière période de paye ;
  • les paiements de participation aux bénéfices ;
  • les indemnités de cessation d'emploi, de départ et de retraite ;
  • les paiements rétroactifs ;
  • la rémunération cumulative de vacances qui porte sur une période plus longue que la période de paye visée ;
  • les salaires versés aux membres du conseil portant sur une période autre que la dernière période de paye.

Dates de début et de fin de la couverture des paiements spéciaux (Questions 6, 11 et 15)

Indiquez les dates du premier et du dernier jour de la période visée par les paiements spéciaux pour une catégorie d'employé. Il est essentiel que les dates des paiements spéciaux correspondent aux périodes couvertes et non pas le mois dans lequel les paiements ont été versés. Ne pas déclarer les dates auxquelles ces paiements ont été versés aux salariés.

Exemple:

Le 24 mars, les salariés rémunérés à l'heure ont reçu une prime de rendement de l'ordre de 2 200 $ pour le travail accompli entre le 1er janvier 2011 et le 29 février 2011. Le type de paiement serait « Prime », et les dates qu'il faudrait indiquer pour ce paiement spécial payé durant le mois de référence « mars » seraient du 01-01-2011 au 29-02-2011, et le montant serait 2 200 $.

Pour tous les paiements spéciaux versés pendant le mois de référence, indiquez le type de paiement spécial, le montant versé et la période couverte par le paiement spécial.

Renseignements generaux

Ententes de partage de données

Afin de réduire le fardeau des répondants, Statistique Canada a conclu des ententes de partage de données avec des organismes statistiques provinciaux et territoriaux et d'autres organisations gouvernementales, qui ont accepté de garder les données confidentielles et les utiliser uniquement à des fins statistiques. Statistique Canada communiquera les données de la présente enquête seulement aux organisations ayant démontré qu'elles avaient besoin de les utiliser.

L'article 11 de la Loi sur la statistique prévoit le partage de données avec des organismes statistiques provinciaux et territoriaux répondant à certaines conditions. Ces organismes doivent posséder l'autorisation légale de recueillir les mêmes données, sur une base obligatoire, et les lois en vigueur doivent contenir essentiellement les mêmes dispositions que la Loi sur la statistique en ce qui concerne la confidentialité et les sanctions imposées en cas de divulgation de renseignements confidentiels. Comme ces organismes possèdent l'autorisation légale d'obliger les entreprises à fournir les mêmes données, on ne demande pas le consentement des entreprises et celles-ci ne peuvent s'opposer au partage des données.

Pour la présente enquête, des ententes en vertu de l'article 11 ont été conclues avec les organismes statistiques provinciaux et territoriaux de Terre-Neuve-et-Labrador, de la Nouvelle-Écosse, du Nouveau-Brunswick, du Québec, de l'Ontario, du Manitoba, de la Saskatchewan, de l'Alberta, de la Colombie-Britannique et du Yukon.

Les données partagées seront limitées aux renseignements relatifs aux établissements commerciaux situés dans la province ou le territoire en question.

L'article 12 de la Loi sur la statistique prévoit le partage de données avec des organisations gouvernementales fédérales, provinciales ou territoriales. En vertu de cet article, vous pouvez refuser de partager vos données avec l'une ou l'autre de ces organisations en écrivant une lettre d'objection au statisticien en chef et en la retournant avec le questionnaire rempli. Veuillez préciser les organisations avec lesquelles vous ne voulez pas partager vos données.

Pour la présente enquête, des ententes en vertu de l'article 12 ont été conclues avec les organismes statistiques de l'Île-du-Prince-Édouard, des Territoires du Nord-Ouest et du Nunavut.

Dans le cas des ententes conclues avec des organisations gouvernementales provinciales et territoriales, les données partagées seront limitées aux renseignements relatifs aux établissements commerciaux situés dans la province ou le territoire en question.

Liens d'enregistrement

Vos réponses à cette enquête seront combinées avec les fichiers mensuels de retenues sur la paie de votre entreprise reçus de l'Agence du revenu du Canada. Statistique Canada peut également combiner les informations que vous fournissez avec d'autres sources de données d'enquête ou administratives.

Merci de votre collaboration!

Demandes de renseignements — Éducation, formation et apprentissage

En vertu de la Loi sur la statistique, Statistique Canada demande par la présente les renseignements suivants, qui seront utilisés uniquement à des fins statistiques et de recherche et qui seront protégés conformément aux dispositions de la Loi sur la statistique et de toute autre loi pertinente. Veuillez noter que cette demande est à caractère obligatoire.

Études primaires et secondaires

Données sur les élèves du primaire et du secondaire (de la maternelle à la 12e année) en Colombie-Britannique

Quels sont les renseignements demandés?

Statistique Canada demande des dossiers administratifs à jour au ministère de l'Éducation de la Colombie-Britannique.

L'organisme détient les dossiers administratifs des élèves du primaire et du secondaire de la Colombie-Britannique pour les années scolaires de 1991-1992 à 2018-2019. Ces dossiers administratifs comportent des renseignements sur les caractéristiques démographiques des élèves (p. ex. l'âge, la langue parlée à la maison, si un élève avait des besoins spécifiques), des renseignements sur l'école (p. ex. le nom de l'école, le district scolaire), des renseignements sur les inscriptions (p. ex. si un élève était inscrit dans un programme d'immersion en français), les résultats des évaluations des compétences fondamentales, des renseignements sur le rendement scolaire au niveau secondaire, des renseignements sur l'obtention du diplôme (p. ex. l'année et le mois d'obtention du diplôme, le type de diplôme) et des renseignements sur le quartier des élèves selon le Recensement de la population de 2016.

Dans le cadre de cette demande, Statistique Canada recevra des dossiers administratifs mis à jour, ainsi que de nouveaux dossiers pour les années scolaires 2019-2020 et 2020-2021.

Les dossiers des élèves mis à jour comprendront des renseignements sur les notes de cours des élèves. Les dossiers administratifs déjà reçus comportaient le nombre de tentatives d'un élève pour terminer un cours et sa note finale en lettre et en pourcentage. Les dossiers administratifs à jour comprendront des notes distinctes pour la partie travail du cours et la partie examen du cours, chacune en lettre et en pourcentage. La liste des cours pour lesquels ces notes sont disponibles reste la même (33 cours au niveau secondaire). Les dossiers à jour comprendront également une variable indicatrice pour indiquer si un élève a suivi un cours à deux crédits au cours d'une année donnée.

Une variable supplémentaire indiquant l'organisation de niveau supérieur de l'école qu'un élève a fréquentée l'année où l'élève était admissible à obtenir son diplôme sera également comprise. Les organisations de niveau supérieur comprennent l'« External Schools Association' », l'« Independent Schools Association' », le « conseil scolaire » et les organisations « Inconnues ». Les données demandées viendront compléter les données déjà obtenues par Statistique Canada auprès du ministère de l'Éducation de la Colombie-Britannique sur les élèves du primaire et du secondaire.

Quels renseignements personnels sont inclus dans cette demande?

Les renseignements demandés comprennent des identifiants personnels comme le prénom, le nom, le surnom, le genre, la date de naissance, la province, l'adresse et le code postal des élèves. Ces renseignements sont nécessaires pour effectuer des couplages de données et seront utilisés à des fins statistiques uniquement. Une fois les données couplées, les identifiants personnels sont remplacés par une clé anonyme.

Quelles seront les années de données demandées?

Statistique Canada a demandé des données annuelles pour les années scolaires 2018-2019 à 2020-2021, ainsi que des variables supplémentaires sur une base annuelle.

L'organisme a aussi demandé les fichiers révisés pour les années 1991-1992 à 2018-2019, y compris les variables supplémentaires.

À qui les renseignements seront-ils demandés?

Cette demande de renseignements est présentée au ministère de l'Éducation de la Colombie-Britannique.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a demandé les données les plus récentes afin de calculer des indicateurs clés actuels sur l'éducation et d'effectuer une analyse précise et pertinente liée à la transition aux études postsecondaires, aux programmes d'apprentissage et à la transition vers le marché du travail. Cela se fera grâce à l'intégration des données sur la scolarité de la maternelle à la 12e année de la Colombie-Britannique aux données sur les étudiants postsecondaires et sur les apprentissages dans les fichiers d'impôt sur le revenu de la Plateforme longitudinale entre l'éducation et le marché du travail.

Les renseignements supplémentaires sur les élèves du primaire et du secondaire seront utilisés par les décideurs, les chercheurs et les intervenants de l'industrie sur la programmation étudiante afin de prendre des décisions puisqu'ils auront une meilleure compréhension des cheminements scolaires des élèves de la Colombie-Britannique, y compris l'incidence de la scolarisation de la maternelle à la 12e année sur les résultats en éducation et les résultats sur le marché du travail.

Statistique Canada peut également utiliser les renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le ministère de l'Éducation de la Colombie-Britannique est responsable de la collecte et du maintien des données sur les élèves du primaire et du secondaire (de la maternelle à la 12e année) en Colombie-Britannique.

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés annuellement à partir de juin 2021.

Quand cette demande a-t-elle été publiée?

Le 28 juillet 2021

Données sur les élèves du secondaire (de la 9e à la 12e année) de l’Ontario

Quels sont les renseignements demandés?

L’organisme détient des dossiers administratifs sur les élèves du secondaire de l’Ontario pour les années scolaires 2009-2010 à 2015-2016. Ces dossiers administratifs comprennent des renseignements démographiques sur les élèves (p. ex. l’âge, le genre, si l’élève avait des besoins particuliers), des renseignements sur l’école (p. ex. le nom de l’école, le district scolaire), des renseignements sur l’inscription (p. ex. si l’élève était inscrit à un programme d’immersion en français, à un programme d’enseignement coopératif ou à un programme d’enseignement technique), les notes obtenues aux tests normalisés (OQRE), certains résultats scolaires au secondaire (l’inscription à un cours et la note finale), ainsi que des renseignements sur l’obtention du diplôme (p. ex. l’année et le mois de l’obtention du diplôme, le type de diplôme).

En plus des renseignements déjà détenus, Statistique Canada présente une demande officielle de renseignements démographiques supplémentaires sur les élèves (genre de visa, plan d’enseignement individualisé), de renseignements sur l’inscription (si l’étudiant était inscrit à un programme d’enseignement coopératif ou à un programme d’enseignement technique), les notes obtenues aux tests normalisés (OQRE), ainsi que des renseignements sur un plus grand nombre de cours et sur les notes obtenues au secondaire.

Quels renseignements personnels sont inclus dans cette demande?

Statistique Canada reçoit déjà des identificateurs personnels, comme le prénom, le nom de famille, le genre, la date de naissance et le code postal des élèves, qui sont nécessaires au couplage des données et qui serviront uniquement à des fins statistiques. Une fois les données couplées, les identificateurs personnels seront remplacés par une clé anonymisée.

En plus de ces renseignements, Statistique Canada demandera le genre de visa et l’année d’entrée des étudiants étrangers afin de permettre une analyse et une compréhension plus approfondies de cette sous-population.

Pour obtenir de plus amples renseignements, consultez le supplément à l’Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada pour cette demande. Plateforme longitudinale entre l'éducation et le marché du travail – addenda.

Quelles seront les années de données demandées?

Statistique Canada détient des données pour les années scolaires 2009-2010 à 2015-2016 et demandera des années supplémentaires si nécessaire, lorsqu’elles sont disponibles.

À qui les renseignements seront-ils demandés?

Cette demande de renseignements est présentée au ministère de l’Éducation de l’Ontario.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a besoin de ces renseignements pour créer et publier des statistiques agrégées sur l’éducation et pour effectuer des analyses précises et pertinentes au sujet de la transition des élèves du secondaire vers les études postsecondaires, les programmes d’apprentissage et le marché du travail. Cette tâche sera réalisée au moyen de l’intégration des données sur les élèves de la 9e à la 12e année du secondaire de l’Ontario aux données sur les étudiants postsecondaires et sur les apprentis ainsi qu’aux déclarations de revenus dans la Plateforme longitudinale entre l’éducation et le marché du travail (PLEMT).

Les décideurs, les chercheurs et les intervenants de l’industrie utiliseront ces renseignements pour éclairer les décisions sur les programmes offerts aux élèves, puisqu’ils permettront de mieux comprendre les parcours en éducation des élèves en Ontario, y compris les répercussions des études secondaires sur les résultats clés en matière d’éducation et sur le marché du travail.

Statistique Canada pourrait également utiliser les enseignements à d’autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le ministère de l'Éducation de l'Ontario est responsable de la collecte et de la mise à jour des données sur les élèves du secondaire (de la 9e à la 12e année) en Ontario.

Quand ces renseignements seront-ils demandés?

Avril 2024, avec des mises à jour ad hoc lorsque les nouvelles années sont disponibles.

Quand cette demande a-t-elle été publiée?

Le 18 janvier 2024

Résumé des changements

Février 2024 - Horaire pour recevoir de nouvelles données a été mise à jour. Il n'y a pas de changement au niveau de l'information requise.

Études postsecondaires

Études postsecondaires : inscriptions d’étudiants, diplômés et programmes

Quels sont les renseignements demandés?

Statistique Canada demande des dossiers administratifs qui comprennent des détails sur les programmes et les cours offerts par les établissements, ainsi que des renseignements sur les étudiants, y compris leurs inscriptions à des programmes et à des cours, ainsi que des données sur les diplômés.

Quels renseignements personnels sont compris dans les renseignements demandés? 

Cette demande comprend des renseignements personnels, tels que le prénom, le nom, le deuxième prénom, le genre, la date de naissance, la province, l’adresse et le code postal de l’étudiant. Cette information est nécessaire pour effectuer des couplages de données à des fins statistiques seulement. Une fois les données couplées, les identificateurs personnels seront remplacés par une clé anonymisée.

De plus, la demande contient d’autres identificateurs, tels qu’un numéro de téléphone, une adresse électronique et le code postal de résidence permanente au moment de l’admission, qui sont utilisés pour améliorer les taux de couplage, réduire les biais et améliorer l’exhaustivité et la qualité des données.

Un supplément à l’évaluation générique des facteurs relatifs à la vie privée de Statistique Canada pour cette demande sera publié ici Évaluation générique des facteurs relatifs à la vie privée pour les programmes statistiques de Statistique Canada.

Quelles seront les années de données demandées?

Statistique Canada demandera des données annuelles à partir de l’année universitaire 2023-2024. 

Des fichiers révisés des années précédentes sont également demandés pour remplacer les données imputées antérieurement.

À qui les renseignements seront-ils demandés?

Ces renseignements sont demandés aux ministères provinciaux de l’Éducation ou à leurs commissions d’éducation respectives.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a besoin de ces renseignements pour produire des statistiques sur les inscriptions d’étudiants et les diplômés postsecondaires. Ces statistiques appuieront également l’élaboration d’indicateurs sur les trajectoires des étudiants et les résultats des diplômés. Pour ce faire, on intégrera les données du Système d’information sur les étudiants postsecondaires (SIEP) aux fichiers de revenu de la  (consultez la page ). Les statistiques et indicateurs descriptifs qui en résulteront aideront les décideurs, les chercheurs et les intervenants de l’industrie à prendre des décisions éclairées sur les programmes pour les étudiants. L’accès à ces données améliorera également les résultats statistiques utilisés pour comprendre les parcours en éducation et les résultats sur le marché du travail des étudiants de niveau postsecondaire au Canada. 

Statistique Canada demande les mêmes données qui sont habituellement fournies par les institutions individuelles. Cette approche vise à réduire le fardeau de réponse des institutions tout en améliorant la rapidité et la qualité de la présentation des données du SIEP.

Statistique Canada pourrait aussi utiliser ces renseignements à d’autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

De par sa conception, le SIEP recueille des données sur les inscriptions d’étudiants et les diplômés de niveau postsecondaire directement auprès des établissements d’enseignement postsecondaire publics. Cependant, dans certains secteurs de compétence, cette collecte de données est centralisée par les ministères provinciaux de l’Éducation, qui soumettent des données à Statistique Canada au nom de leurs établissements. Chaque province peut décider de centraliser la collecte des données et leur soumission au SIEP, car l’éducation relève de la compétence exclusive des provinces. Par conséquent, le SIEP recueille des données, directement et indirectement, auprès de chaque province.

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés à partir de décembre 2025 puis de manière continue (annuellement).

Dans le cadre de quels programmes de Statistique Canada ces données seront-elles principalement utilisées?

Quand cette demande a-t-elle été publiée?

Le 9 avril 2025

Programme canadien pour l'épargne-études (PCEE)

Quels sont les renseignements demandés?

Statistique Canada détient des dossiers administratifs sur les étudiants de niveau postsecondaire qui ont reçu de l'aide financière de 1998 à 2020 dans le cadre du Programme canadien pour l'épargne-études du ministère de l'Emploi et du Développement social. Ces dossiers administratifs contiennent des renseignements sur les personnes cotisant à un régime enregistré d'épargne-études (REEE), leurs bénéficiaires et les activités liées au régime (c.-à-d. les cotisations et les retraits).

Des renseignements à jour seront demandés pour 2021 et les années suivantes, dont toute nouvelle information sur la personne responsable de l'enfant pour chaque bénéficiaire du Bon d'études canadien (BEC), des renseignements supplémentaires sur l'admissibilité des bénéficiaires et leur réception de la Subvention canadienne pour l'épargne-études, et de nouveaux renseignements sur les fournisseurs de REEE.

Quels renseignements personnels sont inclus dans cette demande?

Aucun nouveau renseignement personnel ne sera demandé. Statistique Canada reçoit du ministère de l'Emploi et du Développement social des identificateurs personnels des étudiants, comme leur prénom, leur nom, leur numéro d'assurance sociale, leur genre, leur date de naissance, leur province, leur adresse et leur code postal. Ces renseignements sont nécessaires à la réalisation de couplages de données et sont utilisés à des fins statistiques seulement. Une fois que les données sont couplées, une clé anonymisée au niveau de la personne remplace les identificateurs personnels.

Quelles seront les années de données demandées?

Statistique Canada demandera des données pour l'année 2021 et les années suivantes, sur une base annuelle, ainsi que des fichiers révisés de 1998 à 2020.

À qui les renseignements seront-ils demandés?

Ces renseignements sont demandés au ministère de l'Emploi et du Développement social.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada demande des renseignements à jour afin d'établir les principaux indicateurs actuels en ce qui concerne l'épargne-études et d'effectuer des analyses précises et pertinentes en lien avec les résultats futurs au niveau postsecondaire et ceux sur le marché du travail des personnes qui ont reçu des incitatifs à l'épargne-études dans le cadre du Programme canadien pour l'épargne-études (PCEE).

Les décideurs, les chercheurs et les intervenants de l'industrie peuvent se servir des éléments d'information supplémentaires pour obtenir des renseignements plus utiles sur les bénéficiaires des régimes d'épargne, les subventions qu'ils ont reçues et les fournisseurs de régimes d'épargne responsables de la gestion de l'investissement tout au long de son cycle de vie. Cela permettra aux administrateurs du programme de mieux comprendre la portée du PCEE et l'utilité de ses services aux Canadiens. De plus, les administrateurs pourront élaborer de nouvelles approches novatrices visant à renforcer la participation aux incitatifs à l'épargne-études proposés par le programme. Statistique Canada peut en outre utiliser ces renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Le Programme canadien pour l'épargne-études du ministère de l'Emploi et du Développement social est responsable de la collecte et de la tenue à jour des données liées aux transactions reçues de fiduciaires et de fournisseurs de régimes enregistrés d'épargne-études au Canada.

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés en 2022 et par la suite (annuellement).

Quand cette demande a-t-elle été publiée?

Le 3 août 2022

Programme canadien d'aide financière aux étudiants (PCAFE), anciennement le Programme canadien de prêts aux étudiants (PCPE)

Quels sont les renseignements demandés?

Statistique Canada demande des dossiers administratifs à jour sur le Programme canadien d'aide financière aux étudiants (PCAEF) à Emploi et Développement social Canada (EDSC).

Statistique Canada détient des dossiers administratifs sur les étudiants du niveau postsecondaire qui ont reçu de l'aide financière dans le cadre du PCAFE de 2003-2004 à 2015-2016. Ces dossiers administratifs comprennent des renseignements sur les caractéristiques démographiques des étudiants (p. ex. l'âge, le sexe, la province de résidence), l'établissement d'enseignement postsecondaire, l'inscription (p. ex. si l'étudiant était inscrit à un programme de génie), l'évaluation du besoin d'aide, le type et le montant de l'aide reçue et les renseignements sur le remboursement des prêts étudiants.

Statistique Canada demandera les dossiers administratifs à jour, y compris les nouveaux dossiers pour les années scolaires allant de 2016-2017 à 2019-2020.

Ces dossiers d'étudiants mis à jour contiendront des renseignements sur les trois étapes du cycle d'aide financière, y compris les subventions et les prêts, l'évaluation des besoins en matière de décaissement et, dans le cas des prêts, les remboursements. Les dossiers administratifs déjà reçus comprennent des renseignements supplémentaires sur les subventions et les prêts accordés. Les dossiers administratifs mis à jour contiendront des renseignements sur la période d'études, les nouveaux types de subventions disponibles pendant la période mise à jour et des détails sur le type d'aide au remboursement fournie.

Quels renseignements personnels sont inclus dans cette demande?

Statistique Canada a déjà reçu des identificateurs personnels du PCAFE, comme le prénom, le nom de famille, le surnom, le sexe, la date de naissance, la province, l'adresse et le code postal des étudiants. Ces renseignements sont nécessaires pour effectuer des couplages de données et sont utilisés à des fins statistiques seulement. Une fois les données couplées, une clé anonymisée au niveau de la personne remplace les identificateurs personnels.

Cette nouvelle demande comprendra l'acquisition d'identificateurs personnels supplémentaires, comme un numéro de téléphone, une adresse de courriel et un autre code postal, ce qui permettra d'améliorer les taux de couplage. Ces taux plus élevés aident à réduire le biais dans les résultats et à offrir des données plus exhaustives et de meilleure qualité.

Quelles seront les années de données demandées?

Statistique Canada demandera des données annuelles pour les années scolaires allant de 2016-2017 à 2019-2020, y compris les variables supplémentaires susmentionnées.

Les fichiers révisés de 2009-2010 à 2015-2016, y compris les variables supplémentaires, seront également demandés.

À qui les renseignements seront-ils demandés? 

Ces renseignements sur le Programme canadien d'aide financière aux étudiants sont demandés à Emploi et Développement social Canada.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada demande les données administratives mises à jour sur le PCAEF afin d'obtenir des indicateurs clés opportuns sur l'aide financière et d'effectuer des analyses exactes et pertinentes liées aux études postsecondaires, aux programmes d'apprentissage et à la transition des étudiants au marché du travail.

Les renseignements sur les bénéficiaires de l'aide financière aux étudiants peuvent être utilisés par les décideurs, les chercheurs et les intervenants de l'industrie pour prendre des décisions sur les programmes destinés aux étudiants. L'accès à ces données permettra de mieux comprendre le cheminement scolaire et la situation d'emploi des bénéficiaires et des non-bénéficiaires de l'aide financière aux étudiants.

Statistique Canada peut également utiliser ces renseignements à d'autres fins statistiques et de recherche.

Pourquoi ces organisations ont-elles été sélectionnées pour fournir des données?

Le Programme canadien d'aide financière aux étudiants est chargé de recueillir et de tenir à jour des données sur l'aide financière aux étudiants dans 10 provinces et territoires (Île-du-Prince-Édouard, Terre-Neuve-et-Labrador, Nouvelle-Écosse, Nouveau-Brunswick, Ontario, Manitoba, Saskatchewan, Alberta, Colombie-Britannique et Yukon).

Quand ces renseignements seront-ils demandés?

Ces renseignements seront demandés en mars 2022 et par la suite (annuellement).

Quand cette demande a-t-elle été publiée?

Le 25 mars 2022

Renseignements sur le personnel d’enseignement à temps plein dans les universités canadiennes

Quels sont les renseignements demandés?

Statistique Canada demande que les renseignements suivants soient recueillis dans le cadre de l’enquête sur le Système d’information sur le personnel d’enseignement dans les universités et les collèges – Personnel enseignant à plein temps (SIPEUC-PT) : prénom, nom de famille et date de naissance.

Quels renseignements personnels sont inclus dans cette demande?

Cette demande contient des renseignements personnels comme le prénom, le nom de famille et la date de naissance du personnel d’enseignement à temps plein dans les universités canadiennes.

Ces renseignements sont nécessaires à la réalisation de couplages de données et sont utilisés à des fins statistiques seulement. Une fois les données couplées, les identificateurs personnels seront remplacés par une clé anonyme.

Pour obtenir de plus amples renseignements, consultez le Modernisation du Système d’information sur le personnel d’enseignement dans les universités et les collèges (SIPEUC) (projet pilote sur l’EDI et le personnel à temps partiel) – Supplément à l’Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada relative à la modernisation du SIPEUC.

Quelles seront les années de données demandées?

Données annuelles à partir de 2022 et les années suivantes.

À qui les renseignements seront-ils demandés?

Ces renseignements sont demandés à tous les établissements publics décernant des diplômes (universités publiques) au Canada.

Pourquoi ces renseignements sont-ils demandés?

Statistique Canada a besoin de ces renseignements pour créer et publier des statistiques sur les diverses populations au sein du milieu universitaire canadien. Ces renseignements aideront les universités à faire un suivi de la représentation, à prendre des décisions éclairées au chapitre de la répartition équitable des fonds de recherches et à répondre aux besoins en matière de données des principales parties prenantes de l’enseignement postsecondaire, y compris Innovation, Sciences et Développement économique Canada, les trois organismes subventionnaires (le Conseil de recherches en sciences naturelles et en génie, le Conseil de recherches en sciences humaines et les Instituts de recherche en santé du Canada) ainsi que la Fondation canadienne pour l’innovation.

Statistique Canada peut aussi utiliser les renseignements à d’autres fins statistiques et de recherche.

Pourquoi ces organismes ont-ils été choisis comme fournisseurs de données?

Les universités canadiennes ont la responsabilité de la collecte et de la tenue à jour des données sur les ressources humaines de leur établissement.

Quand ces renseignements seront-ils demandés?

Annuellement, à partir de décembre 2022.

Quand cette demande a-t-elle été publiée?

Le 29 novembre 2022

Résumé des changements

Le 4 mars 2025 - De décembre 2022 à juin 2024, Statistique Canada a collaboré avec huit universités canadiennes pour combler des lacunes statistiques dans le programme du SIPEUC. Pour cette étude de faisabilité, Statistique Canada a demandé des renseignements sur le personnel d’enseignement à temps partiel et contractuel, ainsi que des renseignements sur l’identité autochtone, les groupes racisés (minorités visibles), l’incapacité autodéclarée et l’orientation sexuelle.

Statistique Canada a déterminé que la collecte de données sur le personnel d’enseignement à temps partiel et contractuel est faisable et pourrait être envisagée dans le cadre de futurs efforts de collecte de données.

Toutefois, les établissements ont éprouvé des difficultés à fournir les données demandées portant sur la diversité. Une analyse plus approfondie serait nécessaire si Statistique Canada souhaitait intégrer ces données dans une demande de données administratives à l’avenir.

Par conséquent, la demande de renseignements mise à jour concerne l’ajout de renseignements nominaux (prénom, nom de famille et date de naissance) sur le personnel d’enseignement à temps plein uniquement. Ces informations seront couplées avec les données du recensement afin d’obtenir les caractéristiques liées à la diversité et d’estimer la représentation au sein du personnel d’enseignement.

Géographie

Suivez :

Inscrivez-vous à Mon StatCan pour obtenir des informations en temps réel.

Accédez à la section sur la géographie du Dictionnaire du recensement

Dictionnaire du recensement : Index pour Géographie

Le Dictionnaire du recensement : Index pour Géographie fournit l'information sur toutes les étapes du Recensement de la population, y compris les concepts, les univers, les variables et les termes géographiques, ainsi que les renseignements historiques pour faciliter la comparaison des variables entre les années de recensement.

Recensement de l'agriculture

Recensement de l'agriculture

Le Recensement de l'agriculture offre un portrait statistique de l'industrie de l'agriculture canadienne ainsi que des exploitants agricoles et de leur famille.

GéoSuite

GéoSuite

Avec GéoSuite, les utilisateurs peuvent récupérer et interroger des données, explorer les liens entre les régions géographiques, obtenir des informations sur ces régions et produire des données sous forme de tableaux