Sur cette page
Le programme de l'ECDS a pour objet de faciliter la recherche sur les statistiques sociales et économiques partout au Canada. Il s'agit d'un environnement de couplage d'enregistrements qui :
- accroît la pertinence des enquêtes actuelles de Statistique Canada sans recueillir de nouvelles données (y compris le maintien de la pertinence des enquêtes longitudinales terminées);
- augmente substantiellement l'utilisation de données administratives;
- génère de nouveaux renseignements sans collecte de données supplémentaire;
- maintient les normes les plus élevées en matière de protection de la vie privée et de sécurité de données; et
- préconise une approche normalisée relativement aux processus et aux méthodes de couplage d'enregistrements.
Avantages et intérêt public
Combler les lacunes statistiques : Les études menées dans le cadre de l'ECDS ont le potentiel de combler d'importantes lacunes en matière d'information concernant les activités et les conditions financières, sociales, économiques et générales des Canadiens et Canadiennes.
Alléger le fardeau de réponse : Grâce au couplage d'enregistrements, il est possible de répondre aux importants besoins en données nécessaires à l'analyse des données sociales sans avoir à engager de coûts ni à imposer le fardeau de réponse associé à la collecte de nouvelles données.
Réduire les coûts du couplage d'enregistrements : Le processus de l'ECDS pour la préparation et la gestion des fichiers aux fins du couplage d'enregistrements est plus efficace et plus rapide grâce à l'utilisation d'un système de traitement et à la conservation des résultats cumulés des couplages.
Fonctionnement
L'ECDS est un environnement hautement sécurisé qui facilite la création de fichiers de données couplées sur la population à des fins d'analyse sociale. L'ECDS n'est pas une grande base de données intégrées.
Au cœur de l'ECDS se trouve un Dépôt d'enregistrements dérivés (DED), qui est essentiellement une base de données relationnelle dynamique nationale renfermant seulement des identificateurs personnels de base. Le DED est créé en couplant différents fichiers index sourcesDéfinition 3 de Statistique Canada dans le but de produire une liste de particuliers. Ces fichiers sont transférés dans l'environnement, traités et couplés seulement une fois au DED. Un identificateur de l'ECDS est attribué à chacun des particuliers figurant dans le DED. Certains des fichiers index sources utilisés pour construire le DED comprennent les dossiers fiscaux, les enregistrements des statistiques de l'état civil (naissances et décès) et les données sur les immigrants. Les mises à jour de ces fichiers de données sont couplées au DED de façon régulière.
Seuls les identificateurs personnels de base sont stockés dans le DED. À titre d'exemple d'identificateurs personnels conservés dans le DED, mentionnons les noms de famille, les prénoms, la date de naissance, le sexe, les numéros d'assurance, le nom des parents, l'état matrimonial, les adresses (y compris les codes postaux), les numéros de téléphone, la date d'immigration, la date d'émigration et la date de décès.
Les identificateurs de l'ECDS et les identificateurs d'enregistrement des fichiers index sources couplés sont stockés dans un Registre de clésDéfinition 4. Tous les fichiers index sources sont couplés au DED de façon probabiliste au moyen d'un outil logiciel généralisé (G-Coup) ou de façon déterministe au moyen de scripts SAS.
Le couplage d'enregistrements déterministe suppose des enregistrements couplés en fonction d'identificateurs uniques partagés par les deux fichiers. En revanche, le couplage d'enregistrements probabiliste fonctionne avec des identificateurs non uniques (p. ex. le nom, le sexe, la date de naissance et le code postal) et estime la probabilité que les enregistrements désignent la même entité.
Une fois qu'une étude nécessitant des données couplées a été définie et approuvée, les identificateurs d'enregistrement associés (extraits du Registre de clés) sont utilisés pour trouver chaque enregistrement dans les fichiers de données sourcesDéfinition 2. Des variables choisies provenant de ces sources peuvent alors être intégrées à un fichier d'analyse couplé. Cette approche permet de créer un environnement virtuel de couplage qui élimine la nécessité de concevoir une grande base de données intégrées.
Figure 1. Diagramme global de l'Environnement de couplage de données sociales
Sources des données
Le DEDDéfinition 1 contient seulement des ID d'enregistrement et des identificateurs sans données d'analyse. Parmi les principaux fichiers index sourcesDéfinition 3 qui contribuent à la création (c.-à-d. qui ajoutent des enregistrements d'individus) et à la mise à jour (c.-à-d. qui fournissent des renseignements supplémentaires aux enregistrements existants) du DED, mentionnons les suivants :
- Fichier maître des particuliers T1 (impôt);
- Fichiers de la Prestation fiscale canadienne pour enfants (PFCE);
- Statistique de l'état civil — Base de données sur les naissances;
- Fichier des immigrants reçus; et
- Statistique de l'état civil — Base de données sur les décès.
D'autres sources seront utilisées pour créer des fichiers d'analyse couplés dans le cadre de projets approuvés (certains pouvant également être utilisés pour mettre à jour le DED). Voir Situation actuelle du couplage avec le DED.
Dans le futur, d'autres fichiers pourraient être couplés au DED. Il pourrait s'agir de données déjà existantes de Statistique Canada ou provenant d'autres fichiers externes pour certains projets de recherche ayant fait l'objet d'une approbation.
Statistique Canada est responsable de la conservation et du traitement sécuritaires des données. Étant donné que les projets de recherche de l'ECDS reposent sur l'utilisation de microenregistrements couplés, il faut obtenir l'autorisation individuelle selon l'étude auprès du statisticien en chef du Canada, conformément à la Directive sur le couplage de microdonnées. Des sommaires des couplages d'enregistrements approuvés sont publiés sur le site Web de Statistique Canada.
Fichiers d'analyse couplés
Lorsqu'un projet de recherche nécessitant des données couplées de l'ECDS a été approuvé et que ces données ont fait l'objet d'un couplage dans l'environnement de production de l'ECDS, les identificateurs d'enregistrement de la cohorte en question et les identificateurs d'enregistrement associés des fichiers à coupler à la cohorte sont tirés du Registre de clésDéfinition 4. Ces identificateurs d'enregistrement sont utilisés afin de jumeler certaines variables des différents fichiers de données sources et ainsi créer un fichier d'analyse couplé.
Selon la complexité des fichiers de données sources, des décisions pourraient s'imposer sur la façon de structurer le fichier d'analyse couplé (p. ex. travailler avec plusieurs périodes de référence ou avec des fichiers fondés sur les événements). De plus, la qualité des données couplées doit être évaluée. Les données qui sont couplées dans l'ECDS feront l'objet de deux types de validation :
- Évaluation du couplage d'enregistrements : Quel est le taux d'appariement (%) avec le DEDDéfinition 1? Les liens sont-ils valides? (Appariements faussement positifs? Couplages manqués?)
- Évaluation du fichier d'analyse couplé : Les données couplées semblent-elles logiques du point de vue du domaine spécialisé? Y a-t-il un biais causé par le processus de couplage? Les données représentent-elles adéquatement la population à l'étude?
Ces décisions relatives à l'organisation des fichiers et les mesures de la qualité des données doivent être documentées et prises en considération dans l'analyse finale.
Services
En plus de tenir à jour l'ECDS et d'effectuer de nouveaux couplages d'enregistrements, l'équipe de l'ECDS fournit divers services de soutien aux clients, dont les suivants :
- l'évaluation de la faisabilité du projet;
- la prestation de conseils sur les sources de données, les limites analytiques et la validation;
- la liaison avec des spécialistes du domaine;
- l'assistance relative aux étapes d'approbation;
- la création de fichiers d'analyse couplés personnalisés; et
- la prestation d'activités de formation et de communication.
Statistique Canada offre des services personnalisés, comme l'ECDS, aux organismes canadiens selon un régime de recouvrement des coûts, c'est-à-dire que les clients paient les coûts directs et indirects associés à la réalisation des travaux. Les services personnalisés ne sont pas financés par le budget que le Parlement alloue à Statistique Canada. Les coûts reflètent les besoins de chaque client et varient selon la complexité de la proposition.
Pour obtenir plus de renseignements, veuillez communiquer avec nous par courriel à statcan.sdle-ecds.statcan@statcan.gc.ca.
Confidentialité et protection de la vie privée
Les fichiers analytiques couplés sont considérés comme des renseignements statistiques de nature délicate et sont donc assujettis aux dispositions de la Loi sur la statistique en matière de confidentialité. Pour réduire le risque d'intrusion dans la vie privée et de divulgation de renseignements personnels, les fichiers sources utilisés dans l'ECDS sont divisés en fichiers index sources et en fichiers de données sources. De plus, l'environnement de production des couplages d'enregistrements qui utilise les fichiers index sources est séparé de l'environnement d'intégration et d'analyse des données qui utilise les fichiers de données sources. Autrement dit, les employés de Statistique Canada qui exécutent les couplages d'enregistrements dans l'ECDS n'ont accès qu'aux identificateurs personnels de base nécessaires au couplage, et les employés qui constituent les fichiers analytiques aux fins de recherche ont accès uniquement aux données dépourvues d'identificateurs personnels. Des clés anonymes sont utilisées pour intégrer les données des différentes sources dans un fichier de données analytiques couplé. En outre, seuls les employés de Statistique Canada qui ont besoin des données pour leur travail d'analyse sont autorisés à accéder au fichier analytique couplé. Les résultats de l'évaluation des facteurs relatifs à la vie privée menée par Statistique Canada montrent que ces mesures permettent de réduire de façon satisfaisante le risque d'intrusion dans la vie privée et de divulgation de renseignements personnels.
Définitions
- Définition 1
-
Le Dépôt d'enregistrements dérivés (DED) est une base de données longitudinales nationales contenant des renseignements sur des personnes provenant de certains fichiers de données de Statistique Canada et ne renfermant que des identificateurs personnels de base.
- Définition 2
-
Les fichiers de données sources renferment des variables d'analyse, mais aucun identificateur personnel.
- Définition 3
-
Les fichiers index sources renferment des identificateurs personnels, mais aucune variable d'analyse.
- Définition 4
-
Le Registre de clés contient les identificateurs de l'ECDS et les identificateurs d'enregistrement des fichiers index sources associés par le biais d'un couplage d'enregistrements.