Environnement de couplage de données sociales - Évaluation des facteurs relatifs à la vie privée

Introduction

L’Environnement de couplage de données sociales (ECDS) s’appuie sur l’expérience acquise du couplage d’enregistrement afin de rendre possible un programme pancanadien de recherche faisant usage de couplages d’enregistrements socioéconomiques. Un programme bien organisé et réglementé de couplage d’enregistrements est nécessaire afin : a) d’accroître la pertinence des enquêtes actuelles de Statistique Canada sans qu’il soit nécessaire de recueillir de nouvelles données ou de recueillir de nouveau les données que détiennent d’autres sources des données; b) de maintenir la pertinence des enquêtes longitudinales qui ont pris fin, y compris l’Enquête nationale sur la santé de la population, l’Enquête longitudinale nationale sur les enfants et les jeunes, l’Enquête auprès des jeunes en transition, l’Enquête longitudinale auprès des immigrants du Canada et l’Enquête sur la dynamique du travail et du revenu; c) d’accroître considérablement l’utilisation des données administratives; d) de remplacer ou de compléter les programmes de collecte des données existants dans le domaine social; e) de maintenir les normes les plus élevées en matière de protection de la vie privée et de sécurité des données.

Objectifs

Une évaluation des facteurs relatifs à la vie privée (EFVP) de l’environnement de couplage de données sociales a été menée afin de déterminer s’il y avait des problèmes de protection des renseignements personnels, de confidentialité et de sécurité des données associés au programme et, le cas échéant, de formuler des recommandations en vue de résoudre ou d’atténuer ces problèmes.

Description

Statistique Canada est responsable de la conservation et du traitement sécuritaires des ensembles de données ainsi que de la production des fichiers d'analyse nécessaires pour réaliser les études de recherche approuvées. Étant donné que les projets de recherche de l'ECDS nécessiteront le recours à des enregistrements couplés, il faudra obtenir une autorisation individuelle selon l'étude auprès de la haute direction de Statistique Canada en vertu de la Directive sur le couplage d'enregistrements de Statistique Canada. Un dépôt d'enregistrements dérivés (DED) et un registre des clés distinct seront créés pour diminuer les risques liés à la protection de la vie privée et améliorer l'efficacité et la qualité des couplages.

Le DED est créé en couplant différents fichiers de données de Statistique Canada dans le but de produire une liste de particuliers. On attribue à chacun des particuliers dans le DED un identificateur anonyme de l'ECDS. L'identificateur est attribué aléatoirement et n'a aucune valeur à l'extérieur de l'ECDS. Certains des fichiers de données utilisés pour le DED comprennent le Recensement de la population et l'Enquête nationale auprès des ménages, le fichier maître des particuliers T1 (impôt), les fichiers de la Prestation fiscale canadienne pour enfants (PFCE), la Base canadienne de données sur la natalité (BCDN), la Base canadienne de données sur la mortalité (BCDM), le Fichier des immigrants reçus et le Registre des Indiens. Le DED est un fichier longitudinal national simple et il sera mis à jour par la réalisation continuelle d'autres couplages d'enregistrements.

Seuls les identificateurs personnels de base sont entreposés dans le DED. Il n'est pas nécessaire d'utiliser les données d'enquête provenant des différentes bases de données d'entrée pour créer le DED, et ces données ne seront pas stockées dans ce dernier. Au départ, le DED comprendra les identificateurs personnels suivants : noms de famille; prénoms; date de naissance; sexe; état matrimonial; date d'établissement/d'immigration; date d'émigration; date du décès; numéros d'assurance sociale (NAS), numéros d'identification temporaire (NIT), numéros d'identification de personne à charge (NIPC); NAS/NIT du conjoint; NAS/NIT/NIPC de la personne à charge/de la personne invalide; NAS/NIT du parent; numéros d'assurance-maladie; adresses; identificateur unique du registre des adresses; codes de classification géographique type (CGT); numéros de téléphone; nom de famille du conjoint; nom de famille de la mère; nom de famille du père; autre prénom et numéro d'identification séquentiel généré par Statistique Canada, pour chaque personne identifiée au moyen du processus annuel de couplage du DED. L'accès au DED sera réservé aux employés de Statistique Canada qui sont responsables de son développement et de sa maintenance.

Les identificateurs appariés de l'ECDS et des enregistrements de fichiers sources, qui sont déterminés au moyen du couplage d'enregistrements, seront stockés dans un registre de clés distinct. Une fois qu'une cohorte d'étude a été définie, ces « clés de couplage » peuvent ensuite être utilisées pour trouver les enregistrements associés aux membres de la cohorte dans l'ensemble des bases de données comprenant l'ECDS. Cette approche permet de créer un environnement virtuel de couplage qui élimine la nécessité de concevoir une volumineuse base de données intégrée. Dans le cadre de l'ECDS, toutes les données d'enquête demeureront dans leurs emplacements actuels et seront tenues à jour selon les modalités en vigueur. Par conséquent, l'ECDS est un environnement dans lequel on peut réunir des sources des données pour créer un fichier d'analyse pour effectuer des études particulières et approuvées nécessitant des données couplées. L'ECDS ne comprend pas une volumineuse base de données intégrée contenant l'information de l'ensemble des sources de données d'enquêtes.

Identification et catégorisation des secteurs de risque

L’EFVP relève aussi les secteurs de risque et les classe selon le niveau de risque potentiel (le niveau 1 représentant le risque le plus faible et le niveau 4, le risque le plus élevé) associé à la collecte et à l’utilisation de renseignements personnels des répondants.

  • Type de programme ou d’activité – Niveau 1 : Programme ou activité qui ne nécessite pas la prise d’une décision concernant une personne identifiable.
  • Type de renseignements personnels recueillis et contexte – Niveau 3 : Numéro d’assurance sociale, renseignements médicaux et financiers, autres renseignements personnels de nature délicate, ou renseignements personnels dont le contexte est de nature délicate; renseignements personnels sur des mineurs, des personnes légalement inaptes ou renseignements mettant en cause un représentant agissant au nom de la personne concernée.
  • Participation des partenaires et du secteur privé au programme ou à l’activité – Niveau 1 : Au sein de l’établissement (que ce soit pour un seul ou pour plusieurs programmes au sein d’un même établissement).
  • Durée du programme ou de l’activité – Niveau 3 : Programme ou activité à long terme.
  • Personnes visées par le programme – Sans objet : Les renseignements personnels utilisés dans le cadre du programme ne servent pas à des fins administratives. Les renseignements sont recueillis à des fins statistiques et à des fins connexes de recherche, en vertu de la Loi sur la statistique.
  • Transmission de renseignements personnels – Niveau 1 : Les renseignements personnels sont utilisés dans un système fermé (c.-à-d. qu’il n’y a aucune connexion à Internet, à l’intranet ou à tout autre système, et la distribution des documents papier est surveillée).
  • Technologie et protection de la vie privée : Le programme comprend une version modifiée de la méthodologie de l’Initiative sur les données longitudinales administratives et sur la santé (DLAS). Il utilise le modèle de données des DLAS, mais remplace les registres d’assurance-santé des clients des DLAS (registres fournis par les ministères provinciaux de la Santé) par un DED à partir de données recueillies ou détenues par Statistique Canada. Le programme permet de traiter automatiquement des renseignements personnels et utilise des techniques d’appariement des renseignements personnels à des fins d’analyse statistique uniquement.
  • Atteinte à la protection de la vie privée : Le risque que certains renseignements personnels soient divulgués sans autorisation appropriée est très faible. Les répercussions pour une personne seraient minimes puisque les identificateurs personnels comme le nom ou l’adresse d’une personne ne sont jamais stockés avec les données des enquêtes ou les données administratives. Les données d’identification personnelles sont conservées dans des fichiers index distincts; seul un petit nombre d’employés de Statistique Canada, dont le travail exige cet accès, peut y accéder.

Conclusion

La présente EFVP n'a décelé aucun problème en suspens en matière de confidentialité ou de sécurité. La confidentialité des renseignements conservés dans l'environnement sécurisé de Statistique Canada est régie par la Loi sur la statistique, et l'organisme peut se vanter d'avoir un dossier exemplaire à cet égard. Parallèlement, du point de vue de la sécurité, Statistique Canada possède depuis de nombreuses années des politiques et des pratiques en matière de sécurité, qui ont récemment été adoptées par de nombreux autres organismes en tant que pratiques exemplaires.

Bon nombre des activités de Statistique Canada, comme l'ECDS, sont fort délicates de par leur nature. Bien qu'elle ait permis de cerner un certain nombre de risques, cette évaluation conclut que, compte tenu des mesures d'atténuation qui ont été prises, les risques résiduels sont soit négligeables ou si peu graves que Statistique Canada s'estime en mesure de les assumer et de les gérer.