L'objectif de la présente trousse consiste à mieux faire connaître
les pratiques d'assurance de la qualité des données.
1. Contexte
Question : Qu'obtient-on lorsqu'on combine « données » et « qualité »?
Réponse : La trousse de la qualité des données!
Eh bien, techniquement, on obtient la « qualité des données », mais dans le contexte de cette page Web, on peut envisager la trousse comme une prime très avantageuse.
Cela étant dit, une question demeure : en quoi consiste exactement la qualité des données?
Pour répondre à cette question, nous devons d'abord répondre à deux autres questions :
- Qu'est-ce que les données?
- Qu'est-ce que la qualité?
Les données sont constituées de chiffres, de lettres et de symboles. Elles deviennent de l'information lorsqu'on les organise sous forme d'ensembles, d'expressions ou de modèles. Nous utilisons l'information pour déterminer des besoins, pour mesurer des répercussions et pour prendre des décisions éclairées. Si les données à partir desquelles nous avons établi des conclusions ou pris des décisions sont incorrectes à certains égards, ces conclusions et ces décisions peuvent également être incorrectes ou trompeuses.
La qualité est mesurée en fonction de diverses caractéristiques, qui varient selon le point de vue choisi. Nous examinons ces caractéristiques dans la section qui suit.
Pour ce qui est du producteur de données, les mesures de la qualité comprennent la reproductibilité du processus, l'actualité et la ponctualité de la livraison des données et des métadonnées, la volonté et la capacité de soutenir les utilisateurs de données ainsi que l'impression d'autorité, d'impartialité et de confiance que dégage le producteur. Pour ce qui est des données et des métadonnées proprement dites, les mesures de la qualité comprennent la pertinence et l'utilité, la couverture, la granularité, l'exactitude et la fiabilité ainsi que la normalisation ou conformité.
Tous ces éléments nous amènent à la qualité des données, un concept modelé par les deux notions décrites ci dessus, et qui fournit deux façons de déterminer si les données sont susceptibles d'être appropriées ou non :
- On peut décrire ce qui a été fait au cours de la collecte et du traitement des données en vue de s'assurer que les données sont correctes.
- On peut observer les caractéristiques mesurables des données.
Bien que le respect de bonnes pratiques en matière d'assurance de la qualité des données ne garantisse pas leur validité, il réduit la probabilité qu'il y ait des erreurs. Mener une évaluation de la qualité des données constitue un moyen de déterminer la mesure selon laquelle les données sont protégées des erreurs. En communiquant cette évaluation aux utilisateurs, on leur donne confiance en la qualité des données qu'ils utilisent.
2. Attributs de la qualité
Attributs de la qualité liés au producteur de donnéesDéfinition de producteur de données
Pratiques d'assurance de la qualitéVoici des exemples de méthodes d'assurance de la qualité : Mesure selon laquelle les pratiques d'assurance de la qualité visées et consignées ont été appliquées dans le cadre de la collecte et du traitement des données, aussi bien sur le plan de l'engagement du producteur de données à l'échelle organisationnelle, que sur le plan de la mise en œuvre de pratiques de suivi et de production de rapports à l'échelle opérationnelle.
Reproductibilité du processus : Mesure selon laquelle le processus de production de données peut être reproduit ou répété. Parmi les exemples de processus non reproductibles figurent les processus ponctuels ou encore les cas où des étapes intermédiaires ou des fichiers de données n'ont pas été archivés et ne peuvent être recréés.
Actualité et ponctualité : L'actualité correspond à l'intervalle entre la fin de la période de référence des données et le moment où elles sont mises à la disposition des utilisateurs. Idéalement, cet intervalle est court, et les données et les métadonnées sont diffusées au même moment. La ponctualité désigne la mesure selon laquelle les données et les métadonnées fiables sont diffusées au moment prévu, comme prévu ou tel que promis par le producteur de données.
Caractère joignable : Volonté et capacité du producteur de données à discuter des données avec des utilisateurs potentiels, voire à faciliter l'utilisation des données.
Viabilité : Mesure selon laquelle on peut prévoir que le producteur de données continuera de produire les données pendant une période de temps raisonnable.
Impression d'autorité, d'impartialité et de confiance : Mesure selon laquelle le producteur de données est perçu comme faisant autorité en la matière, comme étant à l'abri de toute influence excessive des intervenants ou d'autres organismes, et comme étant digne de confiance.
Sécurité : Mesure selon laquelle la sécurité des données est assurée dans tous les fonds de données et lors de toute communication, et selon laquelle l'accès aux données durant la production est limité aux personnes ayant reçu la formation et les autorisations appropriées. Notamment, l'accès est accordé selon le principe du besoin de savoir.
Attributs de la qualité liés aux données et aux métadonnéesDéfinition de métadonnées
Pertinence et utilité : Mesure selon laquelle les données concernent le phénomène voulu. Les données seront considérées comme étant moins pertinentes si elles datent de trop longtemps ou ne renseignent pas sur le sujet d'intérêt. L'utilité des métadonnées renvoie à la mesure selon laquelle les données sont décrites en fonction des méthodes, des concepts, des limites, des hypothèses et des pratiques d'assurance de la qualité adoptées.
Couverture : Mesure selon laquelle les données représentent l'ensemble du phénomène voulu. Cet attribut peut être évalué en fonction de la couverture temporelle ou géographique, ou de la couverture des unités de population (c.-à-d. personnes, ménages, entreprises). On utilise parfois le terme intégralité pour désigner la couverture (plus particulièrement dans le contexte des métadonnées).
Granularité : Désigne l'unité ou le niveau d'un enregistrement particulier de l'ensemble de données. Par exemple, un ensemble de données à un niveau très détaillé peut contenir les enregistrements pour des particuliers, des procédures médicales ou des lacs, tandis qu'un ensemble de données à un niveau moins détaillé peut contenir des enregistrements agrégés par province ou année. Plus un ensemble de données est détaillé ou local, plus la valeur perçue est élevée et, en contrepartie, plus le besoin de protéger les données contre une divulgation non autorisée est accru. Il est généralement facile d'agréger les données ou d'en réduire la granularité, mais il n'est habituellement pas possible d'accroître la granularité de données déjà agrégées.
Exactitude et fiabilité : Mesure selon laquelle les données décrivent correctement le phénomène qu'elles sont censées mesurer. La fiabilité désigne la mesure selon laquelle les données sont exactes au fil du temps. L'exactitude renvoie souvent à deux éléments : la précision, pour évaluer la similitude de mesures répétées d'une même situation, et le biais, pour mesurer tout écart systématique par rapport à la réalité des données. Les autres facteurs qui contribuent à l'exactitude et à la fiabilité des données sont la validité, soit la mesure selon laquelle les valeurs des variables de l'ensemble de données correspondent aux résultats attendus, et la cohérence, soit la mesure selon laquelle les données sont exemptes de contradictions.
Normalisation ou conformité : Mesure selon laquelle les données et les métadonnées respectent des normes reconnues en matière de présentation et de conventions d'appellation, ainsi que des normes de diffusion reconnues comme SDMX pour les produits statistiques. Parmi les autres aspects liés à la normalisation et à la conformité, mentionnons l'utilisation de logiciels et de formats de fichier conformes aux normes de l'industrie et le vocabulaire contrôlé pour les valeurs des données, au besoin.
Protection de renseignements de nature délicate : Il est interdit de divulguer des renseignements de nature délicate contenus dans des ensembles de données mis à la disposition d'utilisateurs autres que ceux autorisés à les consulter, à moins d'en avoir obtenu l'autorisation explicite. Parmi les exemples de renseignements de nature délicate, mentionnons les identificateurs qui permettent d'associer les données granulaires à une personne, à un ménage ou à une entreprise, ou encore des données agrégées dont le niveau de détail est suffisant pour permettre de déduire les attributs d'une personne, d'un ménage ou d'une entreprise. Il existe différentes façons de protéger les données pour éviter la divulgation de renseignements délicats, en fonction de la nature et de la granularité des données. On peut notamment supprimer ces renseignements ou appliquer le concept de perturbation aléatoire aux valeurs de données. De nombreux algorithmes de contrôle des divulgations fournissent des diagnostics du niveau de protection atteint.
Possibilité de combinaison ou de couplage : Mesure selon laquelle il est possible d'intégrer deux sources de données ou plus. Par exemple, des identifiants uniques, comme le numéro d'assurance sociale, le numéro d'entreprise ou le numéro d'assurance-maladie, peuvent être appariés directement, tandis que des identificateurs non uniques, comme le nom, le sexe, la date de naissance et l'adresse, peuvent être couplés au moyen d'algorithmes de couplage statistiques fondés sur les probabilités. L'intégration des ensembles de données est améliorée lorsque le concept représenté par un seul enregistrement de chaque ensemble de données est aligné.
Accessibilité : Facilité avec laquelle l'utilisateur peut obtenir et utiliser les données et les métadonnées. Les données et les métadonnées facilement accessibles sont munies d'étiquettes, de mots clés et de balises pertinents et appropriés afin qu'elles puissent être repérées de façon électronique; elles sont présentées dans un format ou logiciel couramment utilisé; et elles sont téléchargeables ou accessibles au moyen de processus transparents et clairs. L'accessibilité consiste également à réduire les obstacles à l'accès, notamment les coûts.
Possibilité de traitement et intelligibilité : Facilité avec laquelle l'utilisateur peut manipuler, interpréter, explorer, analyser et utiliser les données et les métadonnées. Un autre élément important de cet attribut est la mesure selon laquelle les métadonnées et d'autres services de soutien des producteurs de données favorisent la bonne utilisation des données, par exemple, en y incluant les indicateurs de qualité appropriés.
Impression de fiabilité et de crédibilité : Mesure selon laquelle les données sont perçues comme étant fiables et les métadonnées comme étant crédibles.
3. Pratiques d'assurance de la qualité des données
Il existe un éventail de bonnes pratiques, et celles-ci peuvent être adoptées par toute organisation produisant des données. Les producteurs de données peuvent adapter ces pratiques à leur propre environnement. Dans ce cadre, nous les invitons à consigner leurs pratiques d'assurance de la qualité des données et à transmettre cette documentation à leurs utilisateurs de données. En effet, lorsque les utilisateurs sont informés des pratiques d'assurance de la qualité observées au cours de la production des données, leur confiance en la qualité des données augmente. Ces pratiques d'assurance de la qualité sont un sous ensemble de celles contenues dans le Cadre d'assurance de la qualité et les Lignes directrices concernant la qualité.
Pratiques d'assurance de la qualité des données pour la production de registres et de bases de données
- Utiliser des identifiants uniques connus (p. ex. numéro d'assurance sociale, numéro d'entreprise, numéro d'assurance-maladie) avec des mesures de protection appropriées des renseignements délicats.
- Utiliser des chiffres de contrôle sur ces identifiants uniques connus pour garantir la validité des valeurs.
- Utiliser des menus déroulants, des tables de consultation ou des listes de référence pour les variables auxquelles correspond un ensemble de codesDéfinition d'ensemble de codes déterminé.
- Utiliser des présentations standard reconnues dans la mesure du possible, par exemple, la norme ISO 8601 pour les dates (AAAAMMJJ) et l'heure (HH:MM), les abréviations standard des provinces (ON, MB, etc.).
- Inclure une validation intégrée permettant de signaler la saisie de données aberrantes ou de valeurs inattendues.
- Utiliser une règle logique et consignée d'attribution de noms pour les variables et les fichiers.
- Consigner les règles d'inclusion et d'exclusion, les procédures à suivre et les vérifications de la qualité.
- Produire des ensembles de données de sortie à des intervalles réguliers et prévisibles (c'est-à-dire le dernier jour de chaque mois ou le dernier jour de chaque année).
- Définir et mettre en œuvre une stratégie pour la sauvegarde, le stockage et la rétention des données.
Pratiques d'assurance de la qualité des données pour les données d'enquête (enquête-échantillon ou recensement)
- Utiliser des méthodes d'échantillonnage, de pondération et d'estimation valables sur le plan statistique.
- S'assurer que toutes les méthodes sont consignées et reproductibles.
- S'assurer que la base de sondage est aussi à jour, complète et exacte que possible.
- Consigner la période, la couverture géographique et les unités de population de la base de sondage et de l'échantillon.
- Mettre à l'essai la fluidité et l'intelligibilité du questionnaire.
- Choisir une méthode de collecte appropriée pour la population cible et le domaine spécialisé, en tenant compte des facteurs liés aux coûts et d'autres facteurs.
- Utiliser une technique de contrôle de la qualité telle que le contrôle statistique du processusDéfinition de contrôle statistique du processus pour vérifier l'exactitude des données recueillies.
- Tenter au moins une fois de prendre contact avec chaque unité échantillonnée et consigner chaque tentative.
- Utiliser les ressources de vérification de manière efficiente et efficace, c'est-à-dire faire en sorte que les données soient adaptées à leur utilisation prévueDéfinition d'« adaptation à l'utilisation » sans chercher à les rendre « parfaites ».
- Valider les données agrégées ou totalisées par rapport à d'autres sources.
Pratiques d'assurance de la qualité des données pour la production de données numérisées, de données satellitaires et de données de compteurs
- Utiliser une technique de contrôle de la qualité telle que l'échantillonnage pour acceptationDéfinition d'échantillonnage pour acceptation ou la vérification sur le terrainDéfinition de vérification sur le terrain pour garantir l'exactitude des données.
- S'assurer de communiquer les modifications à tous les utilisateurs, par exemple, lorsqu'un nouveau code universel des produits (CUP) est adopté.
Pratiques d'assurance de la qualité des données pour la combinaison de données provenant de différentes sources
- S'assurer de la concordance des définitions des concepts, des populations d'intérêt, des unités d'observation et des périodes de référence.
- Mentionner toutes les sources de données et leur contribution au produit final.
- Analyser les données non appariées ou inutilisées pour comprendre les raisons pour lesquelles il n'y a pas eu de correspondance.
- S'assurer que toutes les méthodes sont consignées et reproductibles.
Pratiques d'assurance de la qualité pour les métadonnées (documentation)
- Tenir compte des besoins en documentation dans la planification du projet et l'affectation des ressources.
- Consigner au fur et à mesure; ne pas laisser cette tâche pour la fin.
- Utiliser des modèles et des règles d'attribution de noms normalisées.
- Décrire tous les concepts, la population visée par les données, les limitations des données ou les exceptions éventuelles qu'elles contiennent et la période de référence.
- Décrire toutes les méthodes utilisées pour l'échantillonnage, la collecte, la saisie et la vérification des données ainsi que pour la combinaison de données provenant de différentes sources et pour la totalisation.
- Décrire les mesures en matière de sécurité des données.
- Décrire les méthodes d'assurance de la qualité suivies.
- Décrire les mesures prises pour prévenir la divulgation de renseignements de nature délicate.
- Fournir des statistiques sommaires portant sur les principales variables (moyenne, médiane, mode, intervalle et ensemble des valeurs valides).
- Fournir un dictionnaire de données ou un vocabulaire contrôlé pour les variables, au besoin.
- Utiliser des présentations standard reconnues dans la mesure du possible, par exemple, la norme ISO 8601 pour les dates (AAAAMMJJ) et l'heure (HH:MM), les abréviations standard des provinces (ON, MB, etc.).
- Mettre la documentation à la disposition des utilisateurs de données.
- Utiliser des étiquettes, des balises et des mots clés pertinents et appropriés pour que les données et les métadonnées associées puissent être repérées de façon électronique.
- Surveiller et consigner les mises à jour et les révisions.
Pratiques d'assurance de la qualité des données pour la sécurité et l'accessibilité des données et la protection contre la divulgation de renseignements de nature délicate
- Pendant le processus de production de données, limiter l'accès aux personnes ayant reçu la formation et les autorisations appropriées, et dont le besoin d'accéder aux renseignements a été établi (« besoin de savoir »).
- Pendant le processus de production de données, assurer la sécurité des données dans tous les fonds de données et lors de toute communication, au moyen du cryptage et d'autres techniques.
- Adopter la stratégie de la « source unique de vérité » en vue de minimiser la duplication des renseignements et des efforts, grâce notamment à des structures de base de données efficaces.
- Utiliser des présentations standard pour les noms, les dates, les adresses et les autres variables couramment utilisées (normes internationales, régionales et nationales au besoin, comme la norme ISO 8601 pour la date et l'heure : AAAAMMJJ HH:MM selon le système horaire de 24 heures).
- Utiliser des logiciels et formats de fichier standard pour les fichiers mis à la disposition des autres utilisateurs.
- Prévoir la possibilité de communiquer des ensembles de données au niveau de granularité (niveau de détail) le plus fin possible et se préparer en conséquence.
- Effectuer des sauvegardes régulières.
- Définir et mettre en œuvre une stratégie pour le stockage et la rétention des données.
- Assurer la protection contre la divulgation de renseignements délicats (l'identité ou les attributs d'une personne ou d'une entreprise) en masquant les valeursDéfinition de masquage de valeurs et au moyen d'autres techniques.
4. Listes de contrôle
Merci d'avoir lu la trousse! Afin que nous puissions répondre encore mieux à vos besoins, veuillez prendre quelques minutes pour nous indiquer les parties que vous avez trouvées utiles, les renseignements qui pourraient être ajoutés et les aspects qui pourraient être améliorés. Si vous avez des questions, n'hésitez pas à nous en faire part, c'est avec plaisir que nous y répondrons. Veuillez envoyer un courriel au Secrétariat de la qualité de Statistique Canada.