La Base de données ouvertes sur les installations culturelles et artistiques (BDOICA)
Document de métadonnées : concepts, méthodologie et qualité des données

Version 1.0

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

le 2 octobre, 2020

Table des matières

  1. Aperçu
  2. Sources de données
  3. Période de référence
  4. Population cible
  5. Méthodologie de compilation
  6. Couverture de la base de données
  7. Qualité des données
  8. Dictionnaire de données
  9. Contactez-nous

1. Aperçu

Cette Base de données ouvertes sur les installations culturelles et artistiques (BDOICA) expérimentale est l'un des nombreux ensembles de données en cours de création dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire du Laboratoire d'exploration et d'intégration des données (LEID) de Statistique Canada. Cette initiative exploratoire vise à accroître l'utilisation, l'accessibilité et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour coupler ces ensembles de données. Cette initiative vise également à explorer les données ouvertes pour les statistiques officielles et à appuyer la recherche géospatiale dans divers domaines. Les ensembles de données et le code de l'ECDO sont disponibles sur le site Web de Statistique Canada à l'adresse suivante : Environnement de couplage de données ouvertes

La BDOICA est une base de données sur les installations culturelles et artistiques diffusée sous forme de données ouvertes. Les sources de données comprennent les différents ordres de gouvernement au CanadaNote de bas de page 1 ainsi que les associations professionnelles. Le présent document décrit en détail le processus de collecte, de compilation et de normalisation des ensembles de données individuels des installations culturelles et artistiques qui ont servi à créer la BDOICA. La BDOICA est offerte dans le cadre de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (Version 1.0), la BDOICA contient environ 8 000 enregistrements individuels. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOICA est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.

2. Sources de données

De nombreuses sources de données ont été utilisées pour créer la BDOICA. Les sources de données utilisées sont détaillés dans un fichier CSV « Sources de données » situé dans le dossier de données compressé disponible pour le téléchargement sur le site web de la BDOICA. Les liens vers les ensembles de données originales, les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires sont donnés dans le fichier CSV « Sources de données ». Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOICA comprend également un ensemble de listes accessibles au public d'installations culturelles et artistiques dont l'inclusion a été autorisée par les fournisseurs de données.

Les données ouvertes se distinguent des autres données accessibles au public en raison des conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, la facilité d'utilisation à des fins légitimes, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, comme la mention de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'absence d'utilisation commerciale. Les licences de données ouvertes comprennent, par exemple, Creative Commons, MIT, Gplv3 et la Licence du gouvernement ouvert du Canada. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.

Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes.

3. Période de référence

Le CSV « Sources de données » fournit, lorsque cela est connu, la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). De plus, le CSV « Sources de données » présente la date à laquelle chaque ensemble de données utilisé dans la BDOICA a été téléchargé. Les données ont été recueillies entre janvier 2020 et juillet 2020. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la date de référence des données. Si l'utilisateur nécessite des renseignements précis sur la date de référence des données, il doit communiquer avec le fournisseur de données concerné.

4. Population cible

Aux fins de la présente base de données, les installations culturelles et artistiques sont des installations dont l'activité ou l'utilisation principale est d'ordre culturel ou artistique. La population cible comprend seulement les installations de culture ou d'art physiques qui offrent des programmes ou des services au grand public.

En ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les installations de la BDOICA se trouvent principalement dans les sous-secteurs suivants :

  • 711 - Arts d'interprétation, sports-spectacles et activités connexes
  • 712 - Établissements du patrimoine

Les installations sont incluses lorsque leurs principales activités sont liées à des fins artistiques ou culturelles, sans égard à la source de financement, au statut privé ou public, au type d'exploitant, à l'emplacement ou à d'autres attributs. Toutefois, les installations qui ne sont pas ouvertes au grand public ou qui sont principalement de nature commerciale ne sont pas incluses. Ainsi, un théâtre qui offrait des spectacles de ballet serait couvert, alors qu'une école de ballet qui offrait de la formation et des spectacles seulement à des élèves payants ne le serait pas.

5. Méthodologie de compilation

Cette section présente un aperçu du processus suivi pour compiler les données de la BDOICA.

Nettoyage et standardisation des données

La première composante de traitement de la BDOICA comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Cela a été fait en utilisant une version du logiciel personnalisé OpenTabulate, développé par l'équipe ECDO. Un dictionnaire de données des variables utilisées est présenté à la section 8.

En raison des différents systèmes de classification et attributs de données utilisés dans les ensembles de données sources et de la nécessité de normaliser par l'application de plusieurs étapes de traitement, il existe un risque d'introduction d'erreurs.

La méthodologie et les limites des techniques utilisées dans chaque étape du processus de nettoyage de données sont décrites ci-dessous. Les techniques de nettoyage banales, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Analyse des adresses

L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, comme le nom de rue et le numéro de rue. À l'occasion, les adresses ne seront pas séparées correctement en raison du formatage non conventionnel de l'adresse originale. Il est possible que des inscriptions ayant été analysées de façon erronée n'aient pas été détectées, malgré les efforts déployés pour les relever et les corriger dans la base de données finale. Les inscriptions dont le numéro d'immeuble est composé de deux nombres séparés par un trait d'union ou une espace font exceptions. Ces inscriptions indiquent habituellement que l'analyseur d'adresses a mal analysé une adresse, par exemple, dans l'inscription « 123 100 ave », « 123 100 » est considéré comme le numéro d'immeuble et « ave », comme le nom de rue ou alors une unité n'est pas identifiée correctement (comme dans l'entrée « 3-100 rue principale »). Ces nombres sont automatiquement séparés, et, si le nom de rue est une variante du mot « rue » ou « avenue », le nombre de droite est considéré comme le nom de rue. Autrement, le nombre de gauche est inscrit dans la colonne des unités.

Un nombre limité d'inscriptions ont été modifiées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue no », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue no », plutôt que le numéro 1035 et le nom de rue « 55e rue no ». Bien que des efforts aient été déployés pour assurer que les données soient correctes, il est possible que les scripts utilisés pour traiter et analyser les adresses aient entraîné par inadvertance d'autres erreurs non détectées. Si de telles erreurs sont détectées par les utilisateurs ou par l'équipe ECDO, elles seront corrigées dans les versions futures de la BDOICA.

Suppression des enregistrements en double

La suppression des enregistrements en double est réalisée au moyen d'une mise en correspondance floue et parfaite du nom de l'installation et du nom de rue, subordonnée au numéro de rue et au nom de la province ou terroir. Par subordonnée, on veut dire qu'une comparaison floue entre deux installations est faite à condition que les numéros et les provinces ou territoires concordent. La comparaison floue est faite au moyen du progiciel FuzzyWuzzyNote de bas de page 2 de Python, qui détermine un score de similitude variant de 0 à 100 entre deux chaînes; un score de 100 signifie qu'une chaîne courte est une sous-chaîne d'une chaîne plus longue. Une valeur seuil du résultat de la comparaison est choisie de façon empirique, indiquant si une inscription est désignée comme un enregistrement en double.

Si deux inscriptions avaient le même numéro d'immeuble et la même province, les noms de rue et d'installation étaient alors comparés. Si ceux-ci étaient presque identiques (c'est-à-dire que la somme des scores de similitude des noms d'installations et des noms de rues était au moins de 195 sur une possibilité de 200), les inscriptions étaient alors désignées comme des enregistrements en double. Les enregistrements en double reconnus étaient supprimés sans intervention manuelle. Le seuil choisi s'approchait du résultat maximal pour éviter le plus possible de supprimer des faux positifs. Lorsque des enregistrements en double étaient repérés, l'enregistrement qui comptait le plus de champs remplis était conservé. Au total, 2 435 enregistrements en double ont été supprimés.

Identification des inscriptions incorrectes

Une fois les adresses analysées, les données étaient traitées au moyen d'une paire de filtres. Ainsi, les inscriptions dont le code postal ou le code de province n'était pas valide ont été relevées, puis inscrites dans un fichier séparé de la base de données pour être traitées ultérieurement. La plupart de ces enregistrements sont corrigés manuellement et sont réintroduits dans la base de données. Le choix repose sur le fait que les erreurs dans les codes postaux et les provinces peuvent être détectées et corrigées beaucoup plus facilement.

Autres étapes du nettoyage des données

  • Formatage de la saisie des données (suppression de l'espace blanc excédentaire et ponctuation), normalisation des codes postaux et des adresses, nom des provinces et territoires.
  • Pendant le traitement, la séparation des données nettoyées et des entrées dont le code postal ou le format de code de province/territoire à deux lettres est incorrect et leur correction manuelle.

Sélection du dossier à conserver en cas de doublons

Dans certains cas, une installation était mentionnée dans plus d'une source. Dans de tels cas, l'enregistrement contenant le plus d'informations disponibles a été conservé. Lorsque les renseignements entre les sources ne correspondaient pas, des outils de validation ont été utilisés pour décider lesquels conserver.

Classification utilisée et désignation de type d'installations culturelles et artistiques

Les sources de données originales utilisent diverses normes, classifications et nomenclature pour décrire le type d'installation culturelle et artistique. Malheureusement, il n'y a pas au Canada de classification universelle des installations culturelles et artistiques. Les classifications suivantes pour les installations culturelles et artistiques sont actuellement utilisées pour la Version 1.0 de la BDOICA :

  • Centre des arts ou de culture : Établissements dont l'activité principale est la promotion de la culture et des arts.
  • Artiste : Artistes individuels engagés dans la création d'œuvres artistiques.
  • Site de festival : Sites où se tiennent des festivals artistiques ou culturels.
  • Galerie : Établissements dont l'activité principale consiste à exposer des œuvres artistiques.
  • Site patrimonial ou historique : Sites d'importance culturelle, artistique ou historique.
  • Bibliothèque ou archives : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des documents écrits.
  • Divers : Établissements associés d'une façon ou d'une autre à la promotion ou à la prestation de la culture ou des arts qui ne font partie d'aucune des catégories susmentionnées.
  • Musée : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des collections d'artefacts, d'œuvres d'art et d'autres objets d'importance artistique, culturelle ou historique.
  • Théâtres/salles de spectacle et salles de concert : Établissements dont l'activité principale est l'exécution publique d'œuvres artistiques ou culturelles.

La classification vise à définir de grandes catégories qui permettent de distinguer les principaux types d'installations tout en permettant la mise en correspondance exacte des types d'installations propres à la source. Les types d'installations sont déterminés à partir des types d'installations propres à la source et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement au besoin. Pour classer les installations en fonction des métadonnées sources, on a procédé de façon analytique au cas par cas.

Géocodage et imputation des noms de subdivision de recensement

En général, les données incluses dans la BDOICA sont les données accessibles dans les sources originales sans imputation. L'imputation des noms RSD et le géocodage, décrite ci-après, fait exception à la règle.

Les noms de subdivision de recensement (SDR)Note de bas de page 3 proviennent de deux attributs différents dans les données.

Le premier attribut comprend les coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 4 de Python.

Le second attribut est le nom de la ville, pour lequel une mise en correspondance parfaite est faite entre le nom de la municipalité de chaque installation culturelle ou artistique et une liste de noms de SDR. Les noms de villes comportant au moins dix entrées qui n'ont pas reçu un nom de SDR par ce processus ont été attribués manuellement un nom de SDR à l'aide de noms de lieux dans GéoSuite.

Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, par opposition à l'adresse municipale.

Bien qu'on ait tâché d'assurer l'exactitude des coordonnées géographiques, il n'existe aucune garantie entendue et des erreurs et inexactitudes sont possibles.

Type d'installation fourni dans les ensembles de données sources

Les types d'installations tels que fournis dans les sources de données (p. ex., centre de culture ou d'exposition, bibliothèque communautaire, centre d'art, etc.) sont inclus dans la BDOICA sans modification, de nouvelle attribution ou de mise en correspondance avec une classification uniforme.

6. Couverture de la base de données

La base de données de la version actuelle de la BDOICA (Version 1.0) contient environ 8 000 installations culturelles et artistiques.

Comme on ne connaît pas avec une certitude raisonnable le nombre total d'installations culturelles et artistiques qu'il y a au pays, on n'a pas pu évaluer de façon quantitative la couverture obtenue à l'aide des sources. Toutefois, bon nombre des sources sont censées indiquer tous les établissements d'un certain type dans un secteur de compétence. Par conséquent, à l'intérieur de ces catégories de types d'établissements et de secteurs de compétence, la couverture devrait être assez complète. Toutefois, si des établissements d'une certaine catégorie ont été omis dans une source, il se pourrait qu'ils soient absents de la base de données, à moins qu'ils proviennent d'une autre source.

7. Qualité des données

Toutes les données relatives aux installations culturelles et artistiques figurant dans la BDOICA ont été recueillies auprès de sources de données gouvernementales, soit à partir de Portails de données ouvertes ou de pages Web publiques. Sauf indication contraire, les ensembles de données sous-jacents sont considérés tels quels. L'exactitude et l'exhaustivité des données sont généralement fonction des ensembles de données sources utilisés.

Classification des établissements

L'attribution du type d'installation BDOICA a été largement basée sur les types d'installations fournis par les fournisseurs de données sources. Dans les cas où les types d'installations n'étaient pas clairs ou n'étaient pas définis par le fournisseur, ils ont été classés avec l'aide des recherches supplémentaires.

Doublons

Certains ensembles de données sources se chevauchent; les ensembles de données qui ne couvrent qu'un type particulier d'installation artistique ou culturelle pour toute une province, par exemple, peuvent chevaucher des données fournies uniquement pour des villes particulières. Bien que des techniques de déduplication soient utilisées, il se peut que tous les enregistrements en double n'aient pas été supprimés. La modification des méthodes de déduplication pour trouver les enregistrements en double restants génère de nombreux faux positifs, ce qui exige une intervention manuelle supplémentaire. De plus amples renseignements sont disponibles à la sous-section Suppression des enregistrements en double ci-dessus.

Corrigeant les inscriptions incorrectes

Quelques inscriptions comportant des noms de province/territoire et des codes postaux erronés ont été détectées et corrigées manuellement. De plus amples renseignements sur l'identification des inscriptions erronées sont également fournis à la sous-section Identification des inscriptions incorrectes.

Analyse des adresses

On a fait appel à des méthodes de traitement du langage naturel pour analyser et séparer les chaînes d'adresse en variables d'adresse, comme le code postal et le numéro de voirie. Les méthodes sont reconnues pour leur rendement et leur exactitude ultramodernes, mais, comme toutes les méthodes d'apprentissage statistique, elles comportent aussi des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut donner une analyse inexacte. Après un examen manuel de la base de données, nous n'avons relevé aucune analyse inexacte. À ce stade-ci, les enregistrements des adresses dans la base de données devraient être dûment analysés.

8. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOICA.

Variables des installations de culture et d'art

Variable – Index

Nom
Index
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données.
Description
Numéro d'enregistrement unique généré automatiquement lors du traitement des données.

Variable – Nom de l'installation

Nom
Nom_Installation
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'installation

Variable – Type d'installation source

Nom
Type_Installation_Source
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation créé par les fournisseurs de données

Variable – Type d'installation BDOICA

Nom
Type_Installation_BDOICA
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation déterminée à l'aide des critères de classification utilisés (voir la partie 5)

Variables de lieu

Variable – Unité

Nom
Unité
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro du local.

Variable – Numéro de rue

Nom
Numéro_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro d'immeuble.

Variable – Nom de rue

Nom
Nom_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la rue (type et direction).

Variable – Ville

Nom
Ville
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la ville ou municipalité (certains enregistrements peuvent indiquer le nom du quartier).

Variable – Province/territoire

Nom
Prov_Terr
Format
Chaîne de caractères
Source
Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
Description
Nom de la province ou du territoire.

Variable – Identificateur unique de province

Nom
PRIDU
Format
Nombre entier
Source
Converti du code de province.
Description
Identificateur unique de la province.

Variable – Nom de SDR

Nom
SDR_Nom
Format
Chaîne de caractères
Source
Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de la SDR

Nom
SDRIDU
Format
Nombre entier
Source
Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
Description
Identificateur unique de la subdivision de recensement.

Variable – Longitude

Nom
Longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude.

Variable – Latitude

Nom
Latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude.

Variable – Fournisseur de données

Nom
Fournisseur
Format
Texte (chaîne de caractères)
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

9. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Date de modification :