Intendance des données : Introduction aux normes en matière de données et aux métadonnées - Transcription
Intendance des données : Introduction aux normes en matière de données et aux métadonnées - Transcription
(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Intendance des données: Introduction aux normes en matière de données et aux métadonnées".)
Intendance des données: Introduction aux normes en matière de données et aux métadonnées
Que vous recueilliez de nouvelles données ou que vous utilisiez des données existantes, appliquer des normes en matière de données vous facilitera la vie. Et documenter vos données sous forme de métadonnées, permettra à d'autres de les trouver, de les comprendre et de les utiliser.
Objectifs d'apprentissage
Dans cette vidéo, vous apprendrez ce que nous pouvons faire aux données mêmes pour qu'il soit plus facile de les utiliser. Tel est le rôle des normes en matière de données Et vous apprendrez quels sont les renseignements supplémentaires que nous pouvons fournir pour faciliter l'utilisation des données. Tel est le rôle des métadonnées.
Étapes du cheminement des données
(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)
(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyerm, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)
Ce diagramme est une représentation visuelle du cheminement des données, depuis leur collecte jusqu'au moment d'en raconter l'histoire à d'autres en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse. Les normes en matière de données et les métadonnées les portent tout au long de leur cheminement.
Normes en matière de données
Les normes en matière de données peuvent être appliquées aux données pour qu'il soit plus facile de les utiliser. Il peut s'agir d'utiliser une terminologie commune pour décrire les données, comme dire que les données font partie d'un ensemble de données ou, encore, que les données comportent des variables catégoriques ou des variables numériques. Il peut aussi s'agir d'utiliser des moyens familiers pour représenter des choses courantes, comme les dates, les adresses et la température. Suivre une norme en matière de données peut aussi consister à rendre les données reconnaissables en les conservant dans une base de données ou en utilisant un format de fichier courant. En bref, les normes en matière de données sont les règles utilisées pour normaliser la façon de décrire, de représenter et de structurer les données.
Métadonnées
Les métadonnées sont des renseignements qui sont fournis avec les données pour faciliter l'utilisation de celles-ci. Il peut s'agir de renseignements sur la source des données: d'où elles viennent, qui les a créés, ce à quoi elles servent, la date de leur création, etc. Il peut aussi s'agir de renseignements sur ce qu'on a déjà fait aux données, comment elles ont été nettoyées et traitées et la façon dont les choses ont été calculés. Les métadonnées peuvent aussi inclure une description de la qualité des données, par exemple ce qui manque à celles-ci ou la façon dont elles ont été validées. Si les normes en matière de données ont été respectées lors de la création et du traitement des données, une description de celles-ci peut également être incluse dans les métadonnées. En bref, les métadonnées sont des données qui fournissent de l'information sur d'autres données, ce qui en facilite la recherche, l'interprétation et l'utilisation et permet de s'y fier davantage.
Normes en matière de données et métadonnées
(Diagramme du cycle de vie des données symbolisé comme une route commençant au producteur de données où il est pour une analyse plus approfondie à chaque jonction, aussi longtemps que la règle derrière les normes de données et les métadonnées sont suivies. Si des normes de données et des métadonnées sont utilisées, le cycle de vie des données est infini.)
Nous recueillons et nous manipulons des données parce que nous voulons qu'elles révèlent quelque chose. D'habitude, nous ne recueillons, ne manipulons et n'interprétons pas les données en une seule étape. C'est ce que les données évoluent en cheminant, mais sans pour autant s'arrêter, arrivant à destination pour reprendre la route! Votre travail pourrait consister à créer un tableau de données pour votre patron, qui pourrait le joindre à d'autres tableaux pour créer un tableau de bord que son patron pourrait examiner afin de recommander une décision et ainsi de suite. Les données ne cessent d'avancer, comme un vélo. Mais qu'est-ce qui fait avancer les données? Quelqu'un doit pédaler! Bref, quelqu'un doit pouvoir trouver, comprendre et manipuler ces données pour que les choses continuent à rouler. C'est là qu'interviennent les normes en matière de données. Tout comme il faut mettre les pieds sur les pédales pour faire tourner les roues d'un vélo dans le sens des aiguilles d'une montre, l'utilisation des données répond à des normes. Et tout comme une fiche technique décrit les caractéristiques d'un vélo, les métadonnées expliquent le contenu et le fonctionnement des données. Tant que les normes en matière de données sont respectées et que les métadonnées sont tenues à jour, les données peuvent continuer d'avancer. Mais dès qu'on arrête de suivre les normes en matière de données et qu'il n'y a pas de métadonnées, les données cessent leur cheminement. Plus personne ne les comprend ou ne peut les utiliser.
Pourquoi les normes en matière de données et les métadonnées sont-elles importantes?
Mais pourquoi devons nous utiliser des normes en matière de données et des métadonnées? Pour en retenir l'importance, il suffit de penser au sigle F-A-I-R. Les normes en matière de données et les métadonnées rendent les données faciles à trouver. Elles rendent les données accessibles ou faciles à utiliser. Elles rendent les données interopérables, ce qui signifie simplement qu'elles sont faciles à combiner avec d'autres données. Elles facilitent l'utilisation, le partage et la réutilisation des données.
Types de normes en matière de données
Il y a différents types de normes en matière de données. Nous n'en mentionnerons que quelques-unes. Les normes relatives au format des données sont une façon normalisée de représenter des choses telles que les dates, les nombres négatifs, la devise et, comme c'est le cas au Canada, les codes à deux lettres des noms de provinces. Les normes relatives au format des fichiers de données font en sorte que les fichiers sont faciles à partager et à ouvrir. Le format des variables séparées par des virgules, ou CSV, est un bon format parce qu'il permet à divers logiciels d'ouvrir les fichiers. Les normes relatives aux variables sont un moyen de normaliser les catégories concernant des variables qui ne peuvent prendre que certaines valeurs, comme la situation vis-à-vis de l'activité, les groupes d'âge, l'industrie et la profession. Nous en parlerons davantage à la prochaine diapositive.
Classifications types
Une classification est une façon de regrouper les catégories d'une norme relative aux variables de façon significative et cohérente. Prenons l'exemple des groupes d'âge. Si un chercheur utilise des catégories d'âge s'échelonnant sur quatre ans et qu'un autre utilise des catégories d'âge s'échelonnant sur dix ans, il serait difficile de comparer leurs résultats. Mais si tous deux conviennent que les catégories d'âge devraient s'échelonner sur cinq ans et s'y conforment, cela s'appelle une classification. Les groupes d'une classification devraient être exhaustifs et s'exclure mutuellement. Avant de créer vos propres groupes, il serait bon que vous vérifiiez s'il existe une classification type que vous pourriez utiliser. Il y en a beaucoup sur le site Web de Statistique Canada.
Types de métadonnées
Il y a différents types de métadonnées, mais nous ne parlerons que de quelques unes d'entre elles. Les métadonnées de référence fournissent des renseignements sur la source des données, par exemple qui les a recueilli, quand et à quelles fins. Les métadonnées de référence comprennent également une description des méthodes qui ont été utilisées pour traiter ou analyser les données et une évaluation de la qualité des données. Cela pourrait prendre la forme d'un paragraphe. Les métadonnées descriptives sont des choses telles que les titres, les notes de bas de page et les étiquettes. Elles peuvent apparaître directement dans des tableaux, des graphiques et d'autres produits de visualisation de données. Les métadonnées structurelles sont celles qui renferment la liste des variables figurant dans les données, les identificateurs, les valeurs valides, la plage des valeurs ou la liste des codes, qui est une liste de toutes les valeurs possibles pour les variables catégoriques. Si des classifications ont été utilisées, les métadonnées structurelles les décriront.
Exemple: Normales climatiques, 1981-2010, Saskatoon
(Image du résultat de la recherche « Normales et moyennes climatiques de 1981 - 2010 » sur le site Web du Gouvernement du Canada en mettant l'accent sur l'hyperlien de "Saskatoon Water TP".)
Examinons les normes en matière de données et les métadonnées à l'aide d'un exemple. Pour le consulter, vous pouvez vous rendre sur le site Web du gouvernement du Canada et y chercher un nom de station contenant le mot "Saskatoon". Nous avons choisi la station météorologique, "Saskatoon Water TP".
(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur le titre, les axes et la légende du graphique. Une attention supplémentaire est portée à l'onglet Métadonnées Station/Élément.)
Cliquer sur "Saskatoon Water TP" mène à cette page. Ce graphique a un titre informatif et une légende et ses axes sont étiquetés. Ce sont des exemples de métadonnées descriptives. Trois onglets surmontent le graphique. Nous avons cliqué sur celui intitulé "Métadonnées pour les stations et les éléments".
(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur le lien hypertexte Latitude (dd mm).)
Cliquer sur l'onglet "Métadonnées pour les stations et les éléments" mène à cette page. Le paragraphe sous les onglets est un exemple de métadonnées de référence, qui explique comment déterminer la qualité des statistiques dans les tableaux. Le producteur des données a fourni ces renseignements pour aider l'utilisateur des données à décider si les données conviennent à l'utilisation prévue. Nous avons ensuite cliqué sur l'hyperlien "Latitude".
(Image de la définition des métadonnées de latitude)
Cliquer sur l'hyperlien "Latitude" mène à ce renseignement. Il s'agit d'autres métadonnées de référence pour aider l'utilisateur à comprendre la façon dont la latitude a été mesurée et pour l'informer de la qualité des données de localisation. La latitude et la longitude sont une classification type pour l'indication d'emplacements.
(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur l'onglet "Données sur les normales".)
Ensuite, nous sommes revenus à cette page web et nous avons cliqué sur l'onglet "Données sur les normales".
(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada, en mettant l'accent sur les sous-sections de l'onglet Données sur les normales intitulée « Télécharger des données » et « Données connexes ».)
Cliquer sur l'onglet "Données sur les normales" mène à cette page. Le paragraphe sous les onglets contient d'autres métadonnées de référence, qui décrivent la façon dont les calculs ont été effectués et qui renferme d'autres renseignements sur la qualité des données. Les données sont offertes gratuitement dans les formats CSV et XML, qui sont tous deux des normes courantes relatives au format des fichiers de données. Cette page Web contient également des hyperliens vers d'autres métadonnées connexes.
(Image du fichier CSV du « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » du site Web du gouvernement du Canada mettant l'accent sur les titres de table de la CSV, les abréviations normalisées des provinces, les méthodes de numérotation et la nomenclature des dates.)
Nous avons téléchargé les données en format CSV (ou variables séparées par des virgules). Nous en voyons ici un petit segment. La colonne de gauche affiche explicitement des métadonnées dont le but est d'aider les utilisateurs à comprendre et à utiliser ces microdonnées. La province est SK, l'abréviation normalisée de Saskatchewan. Les valeurs négatives sont indiquées par le signe moins, ce qui est une norme de données courante. Le format des dates est en "aaaa/jj", ce qui est une norme de données assez courante pour les dates.
Exemple: récapitulatif
Revoyons l'exemple. Le producteur de données a recueilli les microdonnées climatiques les a traitées, a appliqué des normes en matière de données pour les dates et les nombres négatifs et a utilisé une classification type pour la latitude et la longitude. Il a utilisé les microdonnées pour créer des produits de données. Dans cet exemple, nous avons vu un diagramme, un graphique et un ensemble de données téléchargeables. Le producteur de données a également créé des métadonnées décrivant tout ce qu'il a fait et il a choisi stratégiquement l'endroit où afficher les métadonnées dans les produits de données afin que l'utilisateur de données sache de façon intuitive et transparente où trouver l'information dont il a besoin. Dans cet exemple, l'utilisateur de données parcourt les produits de données. Les métadonnées lui font découvrir des renseignements sur la qualité des données, les méthodes qui ont été utilisées et les normes en matière de données qui ont été appliquées.
Vérification des connaissances
(Image des immatriculations de véhicules automobiles neufs au Canada dans les site web du Gouvernement du Canada. En mettant l'accent sur les titres des colonnes, les superscripts et les références.)
L'exemple nous a montré à repérer les métadonnées et les normes en matière de données. À vous de jouer maintenant. Ce que vous voyez à l'écran est un tableau de données sur les immatriculations des véhicules automobiles neufs. Maintenant, arrêtez la vidéo et voyez combien d'exemples de métadonnées vous pouvez trouver à l'écran. Repartez la vidéo pour voir nos réponses. Il a des étiquettes sur les lignes et les colonnes du tableau. Il s'agit d'un exemple de métadonnées descriptives. La police est assez petite, mais on voit après les mots "Autres types de carburant" un hyperlien sous forme d'exposant. Si vous pouviez appuyer dessus, vous verriez apparaître un message contextuel indiquant quels sont les autres types de carburant. Il s'agit d'un autre exemple de métadonnées descriptives. Sous le tableau se trouve une mine d'or de renseignements connexes. Si vous pouviez cliquer sur l'un des hyperliens, vous y trouveriez des métadonnées de référence sur la source, les méthodes et la qualité des données.
Récapitulatif des points clés
Les normes en matière de données sont les règles utilisées pour normaliser la façon de décrire, de représenter et de structurer les données. Les normes en matière de données permettent d'utiliser plus facilement les données. Les métadonnées sont des données qui fournissent des renseignements sur d'autres données. Les métadonnées facilitent l'utilisation des données. L'utilisation et le partage des normes en matière de données et des métadonnées facilitent l'utilisation et le partage des données.
(Le mot-symbole « Canada » s'affiche.)