La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS)
Document de métadonnées : concepts, méthodologie et qualité des données
Version 1.0
Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)
Date de diffusion : 28 septembre 2021
Table des matières
- Aperçu
- Sources de données
- Période de référence
- Population cible
- Méthodologie de compilation
- Couverture des bases de données
- Dictionnaire de données
- Exactitude des données
- Contactez-nous
1. Aperçu
La Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) est une base de données sur les installations récréatives et sportives diffusée sous forme de données ouvertes. Les sources de données comprennent les différents ordres de gouvernement au CanadaNote de bas de page 1 ainsi que les associations professionnelles. Le présent document décrit en détail le processus de collecte, de compilation et de normalisation des ensembles de données individuels qui ont servi à créer la BDOIRS.
Cet ensemble de données est l'un des nombreux ensembles de données en cours de création dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire du Laboratoire d'exploration et d'intégration des données (LEID) de Statistique Canada. Cette initiative exploratoire vise à accroître l'utilisation, l'accessibilité et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour les relier entre eux. L'accès aux ensembles de données et au code de l'ECDO est disponible sur le site Web de Statistique Canada à l'Environnement de couplage de données ouvertes (ECDO).
La BDOIRS est offerte dans le cadre de la Licence du gouvernement ouvert – Canada. Dans sa version actuelle (Version 1.0), la BDOIRS contient environ 182 000 enregistrements individuels. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOIRS est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.
2. Sources de données
Au total, 452 sources de données ont été utilisées pour créer la BDOIRS. Les sources de données utilisées sont détaillées dans un fichier CSV « Sources de données » fourni avec le fichier de données compressé disponible sur la page Web de la BDOIRS . Les liens vers les ensembles de données originaux, les licences ou les conditions d'utilisation, les attributions et les notes supplémentaires sont également inclus dans le fichier CSV « Sources de données ». Toutes les données sur les installations récréatives et sportives de la BDOIRS ont été recueillies auprès de sources de données gouvernementales, soit à partir de portails de données ouvertes, soit à partir de pages Web accessibles au public.
La distinction entre les données ouvertes et les autres données accessibles au public repose sur les conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, l'utilisation à toute fin légale, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, telles que l'attribution de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'interdiction de l'utilisation commerciale. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.
Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes.
Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question, comme indiqué dans le fichier CSV « Sources de données ».
3. Période de référence
Le CSV « Sources de données » fournit, lorsque cela est connu, la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). De plus, le CSV « Sources de données » présente la date à laquelle chaque ensemble de données utilisé dans la BDOIRS a été téléchargé. Les données ont été recueillies entre 2020 et 2021. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la date de référence des données.
4. Population cible
La population cible comprend des installations récréatives et sportives traditionnelles qui offrent des programmes ou des services au grand public ainsi que des sentiers de randonnée ou de ski, des terrains de sport et d'autres types d'installations qui peuvent être situés à l'extérieur des structures traditionnelles.
En ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les installations de la Base de données ouvertes sur les installations récréatives et sportives (BDOIRS) relèvent principalement des sous-secteurs suivants :
- 7112 – Sports-spectacles
- 7131 – Parcs d'attractions et salles de jeux électroniques
- 7139 – Autres services de divertissement et de loisirs
Les installations sont incluses lorsque leurs activités principales sont liées aux loisirs ou aux sports, quels que soient la source de financement, le statut privé ou public, le type d'exploitant, l'emplacement ou d'autres attributs. Toutefois, les installations qui ne sont pas ouvertes au grand public ne sont pas incluses. Il convient de noter que la BDOIRS est axée sur l'installation (le point de service). Cela peut correspondre ou non à une entité commerciale, car certaines installations telles que les sentiers ou les plages peuvent ne pas être associées à une entité commerciale, tandis que d'autres, par exemple un complexe multisports, peuvent être liées à un certain nombre d'entités distinctes.
5. Méthodologie de compilation
Nettoyage et standardisation des données
La première composante de traitement pour la compilation de la BDOIRS a consisté à reformater les données sources au format CSV et à mettre en correspondance les attributs des ensembles de données originaux avec les noms des variables normalisées (colonnes). Cela a été fait en utilisant une version du logiciel personnalisé OpenTabulate, développé par l'équipe ECDO. Un dictionnaire des données des variables utilisées est fourni à la section 7. La méthodologie et les limites des techniques utilisées à chaque étape du processus de nettoyage des données sont décrites ci-dessous.
Analyse des adresses
Des méthodes de traitement du langage naturel ont été utilisées pour l'analyse et la séparation des chaînes d'adresse en variables d'adresse, telles que le numéro de rue et le code postal (qui est supprimé de la base de données finale publiée). Ces méthodes sont réputées pour leur performance et leur précision, mais, comme toutes les méthodes d'apprentissage statistique, elles ont également des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut entraîner une analyse incorrecte. À ce stade, aucune intégration avec d'autres sources d'adresses n'a été tentée; par conséquent, bien que les enregistrements d'adresses soient généralement corrects, des erreurs résiduelles peuvent être présentes dans la version actuelle de la base de données.
Lorsque des renseignements sur l'adresse étaient disponibles, les adresses ont été analysées en employant la même méthodologie que celle appliquée à d'autres bases de données de l'Environnement de couplage de données ouvertes (ECDO), telles que la Base de données ouverte sur les établissements d'enseignement et la Base de données ouvertes sur les installations culturelles et artistiques.
L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses de type logiciel ouvert, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, telles que le nom de rue et le numéro de rue. Parfois, les adresses ont été scindées de manière incorrecte en raison d'un formatage non conventionnel de l'adresse d'origineNote de bas de page 2.
Par exemple, un nombre limité d'entrées ont été modifiées manuellement lorsqu'il était clair que l'analyse n'avait pas été correctement effectuée. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue nord-ouest », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue nord-ouest », plutôt que le numéro civique 1035 et un nom de rue « 55e rue nord-ouest ». Bien que des efforts aient été déployés pour s'assurer que les résultats sont exacts, il est possible que les scripts utilisés pour traiter et analyser les adresses puissent accidentellement causer d'autres erreurs non détectées.
Suppression des doublons
Comme les données proviennent d'entités dont les juridictions se chevauchent géographiquement (p. ex. une province, une municipalité et un organisme du secteur privé), le même enregistrement peut apparaître dans plusieurs ensembles de données sources. La suppression des doublons a été effectuée en utilisant une correspondance de chaînes à la fois littérale et floue du nom de l'installation et du nom de la rue, subordonnée au numéro de voirie et à la province; par « subordonné », on entend une comparaison floue entre deux installations, à condition que les numéros de voirie et les provinces correspondent. La comparaison floue est effectuée en utilisant les distances de Levenshtein calculées au moyen du progiciel Python FuzzyWuzzyNote de bas de page 3, qui renvoie une cote de similarité entre 0 et 100 pour deux chaînes où une côte de 100 indique que la chaîne plus courte est une sous-chaîne de la plus longue chaîne. Une entrée est marquée comme un doublon lorsque cette côte atteint un seuil de similitude donné.
Si deux inscriptions avaient le même numéro d'immeuble et la même province, les noms de rue et d'installation étaient alors comparés. Si ceux-ci étaient presque identiques (c'est-à-dire que la somme des scores de similitude des noms d'installations et des noms de rues était au moins de 195 sur une possibilité de 200), les inscriptions étaient alors désignées comme des enregistrements en double. Les enregistrements en double reconnus étaient supprimés sans intervention manuelle. Le seuil choisi s'approchait du résultat maximal pour éviter le plus possible de supprimer des faux positifs. Lorsque des enregistrements en double étaient repérés, l'enregistrement qui comptait le plus de champs remplis était conservé. Au total, 5 937 doublons ont été supprimés.
Bien que des techniques de déduplication soient utilisées, il se peut que tous les doublons n'aient pas été supprimés. La modification des méthodes de déduplication pour rechercher les doublons restants générerait de nombreux faux positifs, ce qui nécessiterait une intervention manuelle additionnelle.
Identification des entrées erronées et autres étapes de nettoyage des données
L'identification des entrées erronées a été effectuée à la fois par programmation et manuellement. Les entrées de données qui ne pouvaient pas être traitées correctement par des techniques automatisées ont été filtrées et stockées dans un fichier distinct et corrigées manuellement ultérieurement. Les entrées de données ont été formatées par la suppression des espaces et de la ponctuation excédentaires, la normalisation des champs tels que le code postal et les noms de la province ou du territoire.
Classification et attribution des types d'installations récréatives et sportives
Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire les divers types d'installations récréatives et sportives. En l'absence d'une classification des installations récréatives et sportives largement adoptée et reconnus au Canada, l'un des principaux défis pour la mise en œuvre de la BDOIRS a été l'harmonisation des inscriptions en groupes comparables. L'attribution du type d'installation était en grande partie fondée sur les types d'installation fournis par les ensembles de données sources. Dans les cas où le type d'installation n'était pas clair ou n'était pas défini par la source, le type d'installation était classifié en fonction de recherches plus poussées ou en utilisant des métadonnées, comme le nom de l'ensemble de données.
La classification suivante des installations récréatives et sportives est utilisée pour la version 1.0 de la BDOIRS. Bien que la plupart des noms de classe soient plutôt explicites, d'autres précisions sont fournies ci-dessous. En outre, et le cas échéant, les types d'installations sont fournis dans les sources de données (p. ex. piscine extérieure, court de tennis, terrain de sport, etc.) sont également inclus dans la BDOIRS sans la moindre modification, réaffectation ou mise en correspondance avec une classification uniforme.
- sentiers : sentiers urbains et ruraux ou voies pour la marche, la randonnée pédestre ou le vélo.
- terrains de sport : terrains sur lesquels on peut pratiquer des sports.
- arénas : installations où des activités sportives et/ou récréatives ont lieu.
- parcs sportifs : aires de loisirs sont axées sur l'activité sportive.
- plages : plages au bord de l'eau.
- casinos : casinos ou installations de jeux de hasard.
- centres communautaires : centres communautaires et installations de loisirs.
- gymnases : salles de conditionnement physique publiques et privées.
- marinas : ports de plaisances.
- parcs : parcs et espaces verts, y compris les parcs municipaux et nationaux.
- terrains de jeux : espaces de jeux qui sont distincts des parcs en ce sens qu'ils ont été spécifiquement classés comme tels par l'éditeur des données. Comprend souvent de l'équipement de terrain de jeux.
- piscines : piscines intérieures et extérieures.
- pistes de course : pistes réservées à la course.
- patinoires : plus couramment des patinoires de glace.
- planchodromes : parcs utilisés pour la planche à roulettes.
- aires de jeux d'eau : espaces urbains réservés aux jeux d'eau.
- stades : installations où des activités sportives et/ou récréatives ont lieu.
- divers : installations qui ne correspondent à aucune des catégories qui précèdent.
La classification vise à définir de grandes catégories qui permettent de distinguer les principaux types d'installations tout en permettant la mise en correspondance exacte des types d'installations propres à la source. Les types d'installations sont déterminés à partir des types d'installations propres à la source et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement au besoin. Pour classer les installations en fonction des métadonnées sources, on a procédé de façon analytique au cas.
La catégorie de classification des terrains de sport regroupe plusieurs types de terrains de sport tels que les terrains de baseball, les terrains de football et autres. Le cas échéant, les renseignements détaillés sur le type de terrain de sport sont conservés dans la variable Type d'installation source.
Géocodage et imputation des noms de subdivision de recensement
En général, les données incluses dans la BDOIRS sont les données accessibles dans les sources originales sans imputation. L'imputation des noms de SDR et le géocodage, décrite ci-après, fait exception à la règle.
Les noms de subdivision de recensement (SDR)Note de bas de page 4 proviennent de deux attributs différents dans les données. Le premier attribut comprend les coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 5 de Python.
Le second attribut est le nom de la ville, pour lequel une mise en correspondance parfaite est faite entre le nom de la municipalité de chaque installation récréatives et sportives et une liste de noms de SDRNote de bas de page 6 .
Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet.
6. Couverture des bases de données
La version actuelle de la base de données de la BDOIRS (version 1.0), contient sous sa forme actuelle environ 182 000 installations récréatives et sportives.
Étant donné que le nombre total de toutes les installations récréatives et sportives du pays n'est pas connu avec une certitude raisonnable, la couverture obtenue avec les sources utilisées n'a pas pu être évaluée quantitativement en profondeur. Toutefois, si l'on examine la catégorie individuelle des terrains de golf, on constate que la BDOIRS compte 592 terrains de golf, soit environ 25 % des 2 182 terrains de golf estimés au CanadaNote de bas de page 7. De même, il y avait 1 303 patinoires et arénas dans la BDOIRS, soit environ 60 % des 2 183 patinoiresNote de bas de page 8 et arénas estimés au Canada. La répartition de cette dernière catégorie a révélé des tendances similaires entre les régions géographiques, 82 % à 87 % des arénas et des patinoires étant situés respectivement dans les provinces de l'Ontario et des Prairies, comparativement aux deux tiers estimés pour ces types d'installations dans l'ensemble.
En se basant sur les résultats ci-dessus, il est clair que la BDOIRS n'est pas une liste exhaustive des installations situées au Canada. Il faut s'y attendre, car tous les secteurs de compétence ne publient pas nécessairement de données sur les installations récréatives et sportives ou ne les catégorisent pas de la même façon. L'exception à cette règle est lorsque les sources prétendent énumérer toutes les installations d'un certain type au sein d'un secteur de compétence, de façon que ces installations et ces secteurs de compétence soient des catégories de types d'installations particulières; pour ces sources, on peut s'attendre à ce que la couverture soit assez complète. Toutefois, si des installations d'une certaine catégorie étaient omises par une source, alors ces installations pourraient être absentes de la base de données à moins qu'elles ne proviennent d'une source différente.
7. Dictionnaire de données
Variables des installations de culture et d'art
Variable – Index
- Nom
- Index
- Format
- Chaîne de caractères
- Source
- Générée à l'interne lors du traitement des données.
- Description
- Numéro d'enregistrement unique généré automatiquement lors du traitement des données.
Variable – Nom de l'installation
- Nom
- Nom_Installation
- Format
- Chaîne de caractères
- Source
- Fournie telle quelle dans les données originales.
- Description
- Nom de l'installation.
Variable – Type d'installation source
- Nom
- Type_Installation_Source
- Format
- Chaîne de caractères
- Source
- Fournie telle quelle dans les données originales.
- Description
- Type d'installation créé par les fournisseurs de données.
Variable – Type d'installation BDOIRS
- Nom
- Type_Installation_BDOIRS
- Format
- Chaîne de caractères
- Source
- Fournie telle quelle dans les données originales.
- Description
- Type d'installation déterminée à l'aide des critères de classification utilisés (voir la partie 5).
Variables de lieu
Variable – Unité
- Nom
- Unité
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Numéro du local.
Variable – Numéro de rue
- Nom
- Numéro_Rue
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Numéro d'immeuble.
Variable – Nom de rue
- Nom
- Nom_Rue
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Nom de la rue.
Variable – Genre de rue
- Nom
- Genre_Rue
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Genre de rue de l'adresse
Variable – Direction de rue
- Nom
- Direction_Rue
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Direction de la rue de l'adresse.
Variable – Code postal
- Nom
- Code_Postal
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Code postal de l'adresse
Variable – Ville
- Nom
- Ville
- Format
- Chaîne de caractères
- Source
- Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
- Description
- Nom de la ville ou municipalité (certains enregistrements peuvent indiquer le nom du quartier).
Variable – Province/territoire
- Nom
- Prov_Terr
- Format
- Chaîne de caractères
- Source
- Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
- Description
- Nom de la province ou du territoire.
Variable – Identificateur unique de province
- Nom
- PRIDU
- Format
- Nombre entier
- Source
- Converti du code de province.
- Description
- Identificateur unique de la province.
Variable – Nom de SDR
- Nom
- SDR_Nom
- Format
- Chaîne de caractères
- Source
- Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
- Description
- Nom de la subdivision de recensement.
Variable – Identificateur unique de la SDR
- Nom
- SDRIDU
- Format
- Nombre entier
- Source
- Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
- Description
- Identificateur unique de la subdivision de recensement.
Variable – Longitude
- Nom
- Longitude
- Format
- Flottant
- Source
- Fourni en l'état à partir des données d'origine ou ajouté par géolocalisation.
- Description
- Longitude
Variable – Latitude
- Nom
- Latitude
- Format
- Flottant
- Source
- Fourni en l'état à partir des données d'origine ou ajouté par géolocalisation.
- Description
- Latitude
Variable – Fournisseur de données
- Nom
- Fournisseur
- Format
- Texte (chaîne de caractères)
- Source
- Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
- Description
- Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.
8. Exactitude des données
Toutes les adresses ont été collectées auprès de sources gouvernementales faisant autorité, mises à la disposition du public sous forme de données ouvertes. En général, les ensembles de données obtenus ont été laissés tels quels, à l'exception d'un traitement d'uniformisation des sources afin de constituer une seule base de données.
Durant la phase du traitement des ensembles de données afin de créer la BDOIRS, plusieurs étapes ont été suivies pour accroître l'uniformité des données de sortie notamment la normalisation des genres de rue et le dédoublement des entrées. Il se pourrait que le processus utilisé pour normaliser les adresses ait inséré quelques erreurs, mais ces dernières devraient être infimes. De même, il est possible qu'il reste des entrées en double dans la base de données. La colonne de l'adresse complète est aussi fournie sans avoir subi de normalisation.
9. Contactez-nous
Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.
- Date de modification :