The Open Database of Addresses (ODA)
Metadata document: concepts, methodology and data quality

Version 1.0

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

Date de diffusion : 29 avril 2021

Table des matières

  1. Aperçu
  2. Sources de données
  3. Période de référence
  4. Population cible
  5. Méthodologie de compilation
  6. Dictionnaire de données
  7. Exactitude des données
  8. Représentation géographique

Remerciements

Ce projet a pu profiter d'une collaboration avec OpenAddresses, surtout sur le code pour la compilation et le traitement des adresses. Nous leur sommes très reconnaissants pour le travail accompli et les conseils essentiels qu'ils nous ont donnés.

1. Aperçu

En vue d'explorer l'utilisation des données ouvertes pour produire les statistiques officielles et de soutenir la recherche géospatiale dans divers domaines, le Laboratoire d'exploration et d'intégration des données (LEID) a entrepris un projet en vue de créer une base de données d'adresses, harmonisée et fondée sur les données ouvertes ayant été publiées par plusieurs ordres de gouvernement au CanadaNote de bas de page 1. Le présent document décrit en détail le processus de collecte, de compilation et d'uniformisation des divers ensembles de données d'adresses ayant servi à la création de la Base de données ouvertes d'adresses (BDOA), accessible en vertu de la Licence du gouvernement ouvert – Canada.

Statistique Canada reconnaît la contribution des nombreuses administrations locales qui produisent des listes d'adresses publiques, qui sont la source de la Base de données ouvertes d'adresses (BDOA). Ces adresses seront également intégrées dans un nouveau Registre national des adresses (RNA) d'adresses résidentielles et non résidentielles, que Statistique Canada rendra accessible plus tard cette année. Compilé à partir d'une multitude de sources, le RNA sera une source exhaustive et normalisée d'adresses et de codes géographiques connexes accessibles au public. Il fait partie de la Stratégie de données pour la fonction publique fédérale.

Dans sa version actuelle (version 1.0), la BDOA contient plus que 10 millions enregistrements individuels. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles, jusqu'à l'intégration complète dans un registre national d'adresses. La BDOA est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé à l'échelle provinciale ou territoriale.

De plus, les codes de compilation et de traitement utilisés pour générer la BDOA sont consultables sur Traitement des points d'adresse ouverts au Canada (TPAOC). Cela permet d'effectuer des mises à jour automatiques des données et, de cette manière, d'actualiser en temps réel une base de données d'adresses municipales exhaustive, au fur et à mesure que les municipalités et les administrations locales mettent à jour les fichiers de données ouvertes.

Cet ensemble de données figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire qui vise à accroître l'utilisation et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour relier ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de Statistique Canada à Environnement de couplage de données ouvertes.

2. Sources de données

Partout au Canada, les administrations locales créent et tiennent à jour des adresses municipales. La BDOA dérive son enregistrement directement de ces sources sûres, qui ont rendu ces enregistrements publics en vertu d'une licence pour l'utilisation des données ouvertes qui est compatible avec la Licence du gouvernement ouvert – Canada. Ainsi, de nombreuses sources de données ont servi à créer la BDOA. La compilation a prolongé les travaux amorcés par l'organisation OpenAddresses, qui présente des agrégats de données d'adresses ouvertes de partout dans le monde sur sa page GitHub. En tout, les données d'adresses provenant de 99 fournisseurs de données ont été utilisées (malgré un chevauchement géographique de certaines sources).

Les fournisseurs de données, qui comprennent divers ordres de gouvernement, sont indiqués dans le Tableau supplémentaire 1, accompagnés d'hyperliens vers les sources de données originales. Les sources de données sont attribuées à leur fournisseur respectif, conformément aux exigences de la licence. S'il y a lieu, la version de la licence est également indiquée. Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question.

3. Période de référence

Idéalement, la période de référence aurait été la période à laquelle fait référence les données d'adresses. Malheureusement, ces renseignements n'étaient pas toujours disponibles dans les portails de données ouvertes. La fréquence d'actualisation des bases de données originales varie, de même que d'une source à l'autre, certaines déclarant des mises à jour hebdomadaires et d'autres, des mises à jour semestrielles, annuelles ou irrégulières. Dans le Tableau supplémentaire 1, on utilise donc plutôt la date du téléchargement de chaque ensemble de données municipal ayant servi à la création de la BDOA. Les données ont été recueillies dans les portails de données ouvertes entre janvier et avril 2021. Il est important de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la période de référence des données. Si un utilisateur a besoin de renseignements précis sur la période de référence des données, il doit communiquer avec le fournisseur de données approprié, indiqué dans le Tableau supplémentaire 1.

4. Population cible

La BDOA vise à constituer un répertoire exhaustif et harmonisé d'adresses municipales qui sont disponibles grâce à des sources des données ouvertes d'administrations locales de tout le Canada. Les adresses peuvent répertorier des immeubles résidentiels, des édifices commerciaux ou des établissements institutionnels, ou simplement des terrains. De plus, les adresses attribuées aux bâtiments et aux terrains pourraient être multiples. La BDOA comprend toutes les adresses municipales sans double compte qu'il aura été possible de compiler à partir de sources de données ouvertes d'administrations publiques locales et provinciales qui sont mentionnées dans le Tableau supplémentaire 1.

5. Méthodologie de compilation

La méthodologie de compilation de la BDOA est presque entièrement automatisée afin de permettre une mise à jour potentiellement fréquente de la base de données. À mesure que les administrations locales seront plus nombreuses à augmenter la fréquence de mise à jour de leurs bases de données ouvertes d'adresses municipales, la BDOA deviendra complète en temps presque réelNote de bas de page 2.

Le code ayant servi à la collecte et au prétraitement s'inspire d'une version modifiée du pipeline de traitement mis au point par OpenAddresses. Ce processus télécharge les fichiers de données individuels et les transforme dans le même ensemble normalisé de colonnes faisant appel à un dictionnaire de mise en correspondance décrit dans les fichiers entrants JSON; il comprend un traitement mineur, au besoin, comme la séparation d'adresses en numéros de voirie distincts et des champs de noms de rue, ou encore la combinaison de champs provenant de données originales, au besoin. Pour chaque source, ce processus produit un fichier CSV de données d'adresses normalisées.

Les utilisateurs doivent noter qu'à l'intérieur des 99 ensembles de données obtenus, chaque fournisseur de données a joint un ensemble de variables différent aux données d'adresses. Dans certains cas, les divers champs qui composent l'adresse (numéro de rue, numéro de voirie, etc.) ont été fournis sous forme déjà séparée, alors que dans d'autres, ils ont dû être analysés à partir de champs d'adresse plus complets. De même, certains cas présentaient des genres de rue et leur direction normalisés en abréviations courantes, alors que d'autres fournissaient une forme entièrement développée. Enfin, les fournisseurs remettaient aussi des données dans une variété de formats de fichiers, allant de simples fichiers à valeurs séparées par des virgules (CSV) à des formats de fichiers géographiques, comme shapefiles ou geojson, ou encore des données accessibles par programmation, à l'aide d'une interface de programmation.

Les codes de compilation tiennent compte de ces différences et harmonisent les sources en un format normalisé. Ainsi, l'adoption ou la modification des normes de mise en forme des sources nécessiterait d'autres ajustements dans les codes de traitement.

Un autre traitement a été appliqué, en quatre étapes :

  1. Normalisation : les adresses municipales ont été analysées et normalisées en champs de nom de rue, de genre de rue et de direction de la rue (p. ex. « RUE PRINCIPALE NORD » en « PRINCIPALE », « RUE », « N »). Une version modifiée de l'outil RASK (Road Attribute Search Key) dont Statistique Canada se sert pour normaliser les adresses tirées de sources administratives pour le couplage d'enregistrements a été utilisée dans ce processus. Toute source n'ayant pas de colonne d'adresse complète avait enregistré ce renseignement en liant le bureau, le numéro de rue et le nom complet de l'adresse. Dans le cas des sources qui ne comportaient pas de noms de ville, ce nom a été imputé du le fichier source (p. ex. pour transformer « city_of_banff.csv » en « BANFF »). Les colonnes traitées et attribuées dans la base de données sont celles portant le suffixe « _pcs ».
  2. Épuration : les enregistrements n'ayant pas de coordonnées ou de noms de rue ont été abandonnés. Toutes les coordonnées ont été tronquées à des lieux à 5 décimales (correspondant à la précision au mètre près). Le dédoublement des fichiers, effectué au niveau des sources originales, consistait à abandonner les enregistrements ayant des coordonnées, des bureaux, un numéro de voirie et un nom de rue normalisé identiques.
  3. Jointure spatiale : tous les enregistrements ont fait l'objet d'une jointure spatiale avec le fichier de découpage géographique de la subdivision de recensement (SDR) de 2016 de Statistique Canada afin de leur attribuer une SDRidu, un nom de SDR et un PRidu. Un petit nombre d'enregistrements qu'il était impossible de situer dans des SDR a été abandonné.
  4. Fusion définitive : toutes les sources de données ont été regroupées pour former un seul ensemble de données d'adresses pancanadien. Les doublons ont été abandonnés de nouveau, selon les mêmes critères qu'à l'étape 2. Puisque parfois, dans les données originales, une même adresse municipale peut avoir plusieurs coordonnées représentatives, il aura fallu calculer un identificateur de groupe en mettant en commun les entrées ayant une même SDRidu, un même numéro de voirie et des éléments d'adresse traités, de sorte que les entrées ayant un même identificateur de groupe correspondent à la même adresse municipale et puissent être traitées par un utilisateur final, au besoin.

À l'étape 4, un identificateur unique est calculé et attribué à chaque enregistrement Cet identificateur unique est le résultat d'un hachage utilisant l'algorithme Blake2b de la bibliothèque hashlib de Python, généré à partir de la liaison des coordonnées et des champs d'adresse traités (le numéro de voirie, le bureau, et le nom de rue normalisé). ). Cela signifie que pour les besoins de la BDOA, un seul enregistrement est défini uniquement par ses coordonnées et son adresse municipale, et qu'il ne comporte aucun autre champ, comme le fournisseur ou la ville.

Dans certains cas, il a été nécessaire de télécharger et de prétraiter les données avant de les faire passer dans le pipeline de collecte initial (par exemple, pour tenir compte des fichiers étant formatés de telle manière que le pipeline ne puisse les lire, des problèmes d'encodage ou, dans le cas de Montréal, pour diviser les plages d'adresses en rangées individuelles). Les scripts de prétraitement et leur description sont disponibles sur la page GitHub du projet.

6. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOA exploratoire.

Variable – Latitude

Nom
latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude en fractions décimales de degrés de l'adresse, tronquée à 5 décimales près.

Variable – Longitude

Nom
longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude en fractions décimales de degrés de l'adresse, tronquée à 5 décimales près.

Variable - ID source

Nom
id_source
Format
Alphanumeric
Source
Fournie telle quelle dans les données originales.
Description
Objet ou identificateur de champ unique attribué aux enregistrements lors de leur consignation dans les sources des données originales.

Variable - ID BDOA

Nom
id
Format
Alphanumeric
Source
Générée à l'interne lors du traitement des données
Description
Identificateur unique attribué aux dérivés d'un condensé numérique calculé à partir des champs de coordonnées et d'adresse normalisés.

Variable - ID groupe

Nom
id_group
Format
Alphanumeric
Source
Générée à l'interne lors du traitement des données
Description
Identificateur de champ attribué aux enregistrements qui ont des renseignements communs quant à l'adresse (numéro de voirie, nom de rue, genre de rue, direction de la rue), mais des coordonnées géographiques différentes.

Variable – Numéro de rue

Nom
numero_rue
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Numéro de voirie de l'adresse, qu'il soit fourni ou analysé à partir de l'adresse complète.

Variable – Nom complet de la rue

Nom
rue
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de rue de l'adresse, y compris le genre de rue et la direction de la rue, le cas échéant, qu'il soit fourni ou analysé à partir de l'adresse complète.

Variable – Nom de la rue

Nom
nom_rue
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de rue de l'adresse, sans genre ni direction, comme prévu.

Variable – Genre de rue

Nom
type_rue
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Genre de rue de l'adresse, comme prévu.

Variable – Direction de rue

Nom
dir_rue
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Direction de la rue de l'adresse, comme prévu.

Variable – Unité

Nom
unite
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Numéro du local, .qu'il soit fourni ou analysé à partir de l'adresse complète.

Variable – Municipalité

Nom
ville
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de la municipalité.

Variable – Code postal

Nom
code_postal
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Code postal de l'adresse

Variable – Adresse complète

Nom
adr_complete
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales ou imputée
Description
Adresse complète, qu'elle soit fournie ou créée par liaison d'autres champs.

Variable – Municipalité traitée

Nom
ville_pcs
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de la municipalité, tiré du nom de fichier de la source originale, au besoin.

Variable – Nom de la rue traitée

Nom
nom_rue_pcs
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données
Description
Nom de rue normalisé de l'adresse, sans genre ni direction.

Variable – Type de la rue traitée

Nom
type_rue_pcs
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données
Description
Genre de rue normalisé de l'adresse.

Variable – Direction de la rue traitée

Nom
dir_rue_pcs
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données
Description
Direction normalisée de la rue de l'adresse.

Variable – Identificateur unique de la subdivision de recensement

Nom
sdridu
Format
Nombre entier
Source
Limites de la subdivision canadienne de recensement, 2016 (Produit GeoSuite de Statistique Canada)
Description
Identificateur unique de la subdivision de recensement.

Variable – Nom de subdivision de recensement

Nom
sdrnom
Format
Chaîne de caractères
Source
Limites de la subdivision canadienne de recensement, 2016 (Produit GeoSuite de Statistique Canada)
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de province

Nom
pridu
Format
Nombre entier
Source
Limites de la subdivision canadienne de recensement, 2016 (Produit GeoSuite de Statistique Canada)
Description
Identificateur unique de la province.

Variable – Fournisseur de données

Nom
fournisseur
Format
Texte (chaîne de caractères)
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

7. Exactitude des données

Toutes les adresses ont été collectées à partir de sources de données gouvernementales. En général, les ensembles de données obtenus ont été laissés tels quels, à l'exception d'un traitement d'uniformisation des sources afin de constituer une seule base de données.

Durant la phase du traitement des ensembles de données afin de créer la BDOA, plusieurs étapes ont été suivies pour accroître l'uniformité des données de sortie notamment la normalisation des genres de rue et le dédoublement des entrées. Il se pourrait que le processus utilisé pour normaliser les adresses ait inséré quelques erreurs, mais ces dernières devraient être infimes. De même, il est possible qu'il reste des entrées en double dans la base de données. La colonne de l'adresse complète est aussi fournie sans avoir subi de normalisation.

La BDOA expérimentale ne contient que des données ouvertes gouvernementales qui sont disponibles au moment de la compilation, et ne doit donc pas être interprétée comme un répertoire exhaustif et objectif de toutes les adresses du Canada. Présentement, la BDOA ne couvre pas tout le Canada. La base de données contient encore des espaces vides, car il y a des régions pour lesquelles on n'a pas pu trouver de données ouvertes gouvernementales sur les adresses. Certaines de ces lacunes pourraient être comblées à mesure que les administrations locales publient davantage d'adresses civiques sous forme de données ouvertes.

8. Représentation géographique

La base de données ouvertes d'adresses est consultable sur le site Web de Statistique Canada, avec les coordonnées présentées en latitudes et en longitudes obtenues à l'aide de l'ellipsoïde WGS84 standard.

Date de modification :

La Base de données ouvertes sur les installations culturelles et artistiques

Numéro de catalogue : 21260001
Numéro d'exemplaire : 2020001

La Base de données ouvertes sur les installations culturelles et artistiques (BDOICA) est une collection de données ouvertes comprenant le nom, le type et l'emplacement d'installations culturelles et artistiques à l'échelle du Canada. Elle est accessible en vertu de la Licence du gouvernement ouvert – Canada.

La BDOICA compile des données ouvertes et des données accessibles au public sur les installations de culture et d'art au Canada. Les sources de données comprennent les gouvernements provinciaux / territoriaux, les autorités municipales, ainsi que les associations professionnelles.

Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations culturelles et artistiques au Canada, en permettant une consultation de ces installations sous la forme de données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOICA sont des ensembles de données dont les sources incluent les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les associations professionnelles. Ces ensembles de données étaient disponibles soit en vertu de l'un des types existants de licence de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOICA.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOICA harmonise le type d'installation en attribuant, à chaque installation, un type parmi neuf. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches spécifiquement à cette fin.

La BDOICA utilise les neuf types d'installations suivants : « centre des arts ou de culture », « artiste », « site de festival », « galerie », « site patrimonial ou historique », « bibliothèque ou archive », « musée », « théâtre/salle de spectacle et salle de concert », et « divers ».

La BDOICA ne prétend pas à une couverture exhaustive des installations culturelles et artistiques et pourrait ne pas contenir tous les établissements entrant dans la portée de sa version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations restent également possibles. Bien que toutes les données de la BDOICA soient publiées à la même date, les dates à compter desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources était validé utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, on a effectué un géocodage pour certaines sources en utilisant les données d'adresse de la source.

On a mis en œuvre une déduplication pour supprimer les enregistrements en double, lorsque les portées de plusieurs sources se chevauchaient.

La version actuelle de la base de données (Version 1.0) contient environ 8 000 enregistrements. Les données ont été recueillies à partir des sources entre janvier 2020 et juillet 2020.

Voici les variables comprises dans la BDOICA :

  • Nom de l'installation
  • Type d'installation de source
  • Type d'installation de la BDOICA
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Ville
  • Province ou territoire
  • Identificateur unique de la province
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Longitude
  • Latitude
  • Index

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOICA.

Téléchargement de la BDOICA

Pour faciliter le téléchargement, la BDOICA est fourni sous forme de fichier CSV compressé.

Visualisant la BDOICA

Le contenu de la BDOICA peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

La Base de données ouvertes sur les installations culturelles et artistiques (BDOICA)
Document de métadonnées : concepts, méthodologie et qualité des données

Version 1.0

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

le 2 octobre, 2020

Table des matières

  1. Aperçu
  2. Sources de données
  3. Période de référence
  4. Population cible
  5. Méthodologie de compilation
  6. Couverture de la base de données
  7. Qualité des données
  8. Dictionnaire de données
  9. Contactez-nous

1. Aperçu

Cette Base de données ouvertes sur les installations culturelles et artistiques (BDOICA) expérimentale est l'un des nombreux ensembles de données en cours de création dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire du Laboratoire d'exploration et d'intégration des données (LEID) de Statistique Canada. Cette initiative exploratoire vise à accroître l'utilisation, l'accessibilité et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour coupler ces ensembles de données. Cette initiative vise également à explorer les données ouvertes pour les statistiques officielles et à appuyer la recherche géospatiale dans divers domaines. Les ensembles de données et le code de l'ECDO sont disponibles sur le site Web de Statistique Canada à l'adresse suivante : Environnement de couplage de données ouvertes

La BDOICA est une base de données sur les installations culturelles et artistiques diffusée sous forme de données ouvertes. Les sources de données comprennent les différents ordres de gouvernement au CanadaNote de bas de page 1 ainsi que les associations professionnelles. Le présent document décrit en détail le processus de collecte, de compilation et de normalisation des ensembles de données individuels des installations culturelles et artistiques qui ont servi à créer la BDOICA. La BDOICA est offerte dans le cadre de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (Version 1.0), la BDOICA contient environ 8 000 enregistrements individuels. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOICA est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.

2. Sources de données

De nombreuses sources de données ont été utilisées pour créer la BDOICA. Les sources de données utilisées sont détaillés dans un fichier CSV « Sources de données » situé dans le dossier de données compressé disponible pour le téléchargement sur le site web de la BDOICA. Les liens vers les ensembles de données originales, les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires sont donnés dans le fichier CSV « Sources de données ». Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOICA comprend également un ensemble de listes accessibles au public d'installations culturelles et artistiques dont l'inclusion a été autorisée par les fournisseurs de données.

Les données ouvertes se distinguent des autres données accessibles au public en raison des conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, la facilité d'utilisation à des fins légitimes, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, comme la mention de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'absence d'utilisation commerciale. Les licences de données ouvertes comprennent, par exemple, Creative Commons, MIT, Gplv3 et la Licence du gouvernement ouvert du Canada. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.

Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes.

3. Période de référence

Le CSV « Sources de données » fournit, lorsque cela est connu, la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). De plus, le CSV « Sources de données » présente la date à laquelle chaque ensemble de données utilisé dans la BDOICA a été téléchargé. Les données ont été recueillies entre janvier 2020 et juillet 2020. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la date de référence des données. Si l'utilisateur nécessite des renseignements précis sur la date de référence des données, il doit communiquer avec le fournisseur de données concerné.

4. Population cible

Aux fins de la présente base de données, les installations culturelles et artistiques sont des installations dont l'activité ou l'utilisation principale est d'ordre culturel ou artistique. La population cible comprend seulement les installations de culture ou d'art physiques qui offrent des programmes ou des services au grand public.

En ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les installations de la BDOICA se trouvent principalement dans les sous-secteurs suivants :

  • 711 - Arts d'interprétation, sports-spectacles et activités connexes
  • 712 - Établissements du patrimoine

Les installations sont incluses lorsque leurs principales activités sont liées à des fins artistiques ou culturelles, sans égard à la source de financement, au statut privé ou public, au type d'exploitant, à l'emplacement ou à d'autres attributs. Toutefois, les installations qui ne sont pas ouvertes au grand public ou qui sont principalement de nature commerciale ne sont pas incluses. Ainsi, un théâtre qui offrait des spectacles de ballet serait couvert, alors qu'une école de ballet qui offrait de la formation et des spectacles seulement à des élèves payants ne le serait pas.

5. Méthodologie de compilation

Cette section présente un aperçu du processus suivi pour compiler les données de la BDOICA.

Nettoyage et standardisation des données

La première composante de traitement de la BDOICA comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Cela a été fait en utilisant une version du logiciel personnalisé OpenTabulate, développé par l'équipe ECDO. Un dictionnaire de données des variables utilisées est présenté à la section 8.

En raison des différents systèmes de classification et attributs de données utilisés dans les ensembles de données sources et de la nécessité de normaliser par l'application de plusieurs étapes de traitement, il existe un risque d'introduction d'erreurs.

La méthodologie et les limites des techniques utilisées dans chaque étape du processus de nettoyage de données sont décrites ci-dessous. Les techniques de nettoyage banales, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Analyse des adresses

L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, comme le nom de rue et le numéro de rue. À l'occasion, les adresses ne seront pas séparées correctement en raison du formatage non conventionnel de l'adresse originale. Il est possible que des inscriptions ayant été analysées de façon erronée n'aient pas été détectées, malgré les efforts déployés pour les relever et les corriger dans la base de données finale. Les inscriptions dont le numéro d'immeuble est composé de deux nombres séparés par un trait d'union ou une espace font exceptions. Ces inscriptions indiquent habituellement que l'analyseur d'adresses a mal analysé une adresse, par exemple, dans l'inscription « 123 100 ave », « 123 100 » est considéré comme le numéro d'immeuble et « ave », comme le nom de rue ou alors une unité n'est pas identifiée correctement (comme dans l'entrée « 3-100 rue principale »). Ces nombres sont automatiquement séparés, et, si le nom de rue est une variante du mot « rue » ou « avenue », le nombre de droite est considéré comme le nom de rue. Autrement, le nombre de gauche est inscrit dans la colonne des unités.

Un nombre limité d'inscriptions ont été modifiées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue no », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue no », plutôt que le numéro 1035 et le nom de rue « 55e rue no ». Bien que des efforts aient été déployés pour assurer que les données soient correctes, il est possible que les scripts utilisés pour traiter et analyser les adresses aient entraîné par inadvertance d'autres erreurs non détectées. Si de telles erreurs sont détectées par les utilisateurs ou par l'équipe ECDO, elles seront corrigées dans les versions futures de la BDOICA.

Suppression des enregistrements en double

La suppression des enregistrements en double est réalisée au moyen d'une mise en correspondance floue et parfaite du nom de l'installation et du nom de rue, subordonnée au numéro de rue et au nom de la province ou terroir. Par subordonnée, on veut dire qu'une comparaison floue entre deux installations est faite à condition que les numéros et les provinces ou territoires concordent. La comparaison floue est faite au moyen du progiciel FuzzyWuzzyNote de bas de page 2 de Python, qui détermine un score de similitude variant de 0 à 100 entre deux chaînes; un score de 100 signifie qu'une chaîne courte est une sous-chaîne d'une chaîne plus longue. Une valeur seuil du résultat de la comparaison est choisie de façon empirique, indiquant si une inscription est désignée comme un enregistrement en double.

Si deux inscriptions avaient le même numéro d'immeuble et la même province, les noms de rue et d'installation étaient alors comparés. Si ceux-ci étaient presque identiques (c'est-à-dire que la somme des scores de similitude des noms d'installations et des noms de rues était au moins de 195 sur une possibilité de 200), les inscriptions étaient alors désignées comme des enregistrements en double. Les enregistrements en double reconnus étaient supprimés sans intervention manuelle. Le seuil choisi s'approchait du résultat maximal pour éviter le plus possible de supprimer des faux positifs. Lorsque des enregistrements en double étaient repérés, l'enregistrement qui comptait le plus de champs remplis était conservé. Au total, 2 435 enregistrements en double ont été supprimés.

Identification des inscriptions incorrectes

Une fois les adresses analysées, les données étaient traitées au moyen d'une paire de filtres. Ainsi, les inscriptions dont le code postal ou le code de province n'était pas valide ont été relevées, puis inscrites dans un fichier séparé de la base de données pour être traitées ultérieurement. La plupart de ces enregistrements sont corrigés manuellement et sont réintroduits dans la base de données. Le choix repose sur le fait que les erreurs dans les codes postaux et les provinces peuvent être détectées et corrigées beaucoup plus facilement.

Autres étapes du nettoyage des données

  • Formatage de la saisie des données (suppression de l'espace blanc excédentaire et ponctuation), normalisation des codes postaux et des adresses, nom des provinces et territoires.
  • Pendant le traitement, la séparation des données nettoyées et des entrées dont le code postal ou le format de code de province/territoire à deux lettres est incorrect et leur correction manuelle.

Sélection du dossier à conserver en cas de doublons

Dans certains cas, une installation était mentionnée dans plus d'une source. Dans de tels cas, l'enregistrement contenant le plus d'informations disponibles a été conservé. Lorsque les renseignements entre les sources ne correspondaient pas, des outils de validation ont été utilisés pour décider lesquels conserver.

Classification utilisée et désignation de type d'installations culturelles et artistiques

Les sources de données originales utilisent diverses normes, classifications et nomenclature pour décrire le type d'installation culturelle et artistique. Malheureusement, il n'y a pas au Canada de classification universelle des installations culturelles et artistiques. Les classifications suivantes pour les installations culturelles et artistiques sont actuellement utilisées pour la Version 1.0 de la BDOICA :

  • Centre des arts ou de culture : Établissements dont l'activité principale est la promotion de la culture et des arts.
  • Artiste : Artistes individuels engagés dans la création d'œuvres artistiques.
  • Site de festival : Sites où se tiennent des festivals artistiques ou culturels.
  • Galerie : Établissements dont l'activité principale consiste à exposer des œuvres artistiques.
  • Site patrimonial ou historique : Sites d'importance culturelle, artistique ou historique.
  • Bibliothèque ou archives : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des documents écrits.
  • Divers : Établissements associés d'une façon ou d'une autre à la promotion ou à la prestation de la culture ou des arts qui ne font partie d'aucune des catégories susmentionnées.
  • Musée : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des collections d'artefacts, d'œuvres d'art et d'autres objets d'importance artistique, culturelle ou historique.
  • Théâtres/salles de spectacle et salles de concert : Établissements dont l'activité principale est l'exécution publique d'œuvres artistiques ou culturelles.

La classification vise à définir de grandes catégories qui permettent de distinguer les principaux types d'installations tout en permettant la mise en correspondance exacte des types d'installations propres à la source. Les types d'installations sont déterminés à partir des types d'installations propres à la source et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement au besoin. Pour classer les installations en fonction des métadonnées sources, on a procédé de façon analytique au cas par cas.

Géocodage et imputation des noms de subdivision de recensement

En général, les données incluses dans la BDOICA sont les données accessibles dans les sources originales sans imputation. L'imputation des noms RSD et le géocodage, décrite ci-après, fait exception à la règle.

Les noms de subdivision de recensement (SDR)Note de bas de page 3 proviennent de deux attributs différents dans les données.

Le premier attribut comprend les coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 4 de Python.

Le second attribut est le nom de la ville, pour lequel une mise en correspondance parfaite est faite entre le nom de la municipalité de chaque installation culturelle ou artistique et une liste de noms de SDR. Les noms de villes comportant au moins dix entrées qui n'ont pas reçu un nom de SDR par ce processus ont été attribués manuellement un nom de SDR à l'aide de noms de lieux dans GéoSuite.

Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, par opposition à l'adresse municipale.

Bien qu'on ait tâché d'assurer l'exactitude des coordonnées géographiques, il n'existe aucune garantie entendue et des erreurs et inexactitudes sont possibles.

Type d'installation fourni dans les ensembles de données sources

Les types d'installations tels que fournis dans les sources de données (p. ex., centre de culture ou d'exposition, bibliothèque communautaire, centre d'art, etc.) sont inclus dans la BDOICA sans modification, de nouvelle attribution ou de mise en correspondance avec une classification uniforme.

6. Couverture de la base de données

La base de données de la version actuelle de la BDOICA (Version 1.0) contient environ 8 000 installations culturelles et artistiques.

Comme on ne connaît pas avec une certitude raisonnable le nombre total d'installations culturelles et artistiques qu'il y a au pays, on n'a pas pu évaluer de façon quantitative la couverture obtenue à l'aide des sources. Toutefois, bon nombre des sources sont censées indiquer tous les établissements d'un certain type dans un secteur de compétence. Par conséquent, à l'intérieur de ces catégories de types d'établissements et de secteurs de compétence, la couverture devrait être assez complète. Toutefois, si des établissements d'une certaine catégorie ont été omis dans une source, il se pourrait qu'ils soient absents de la base de données, à moins qu'ils proviennent d'une autre source.

7. Qualité des données

Toutes les données relatives aux installations culturelles et artistiques figurant dans la BDOICA ont été recueillies auprès de sources de données gouvernementales, soit à partir de Portails de données ouvertes ou de pages Web publiques. Sauf indication contraire, les ensembles de données sous-jacents sont considérés tels quels. L'exactitude et l'exhaustivité des données sont généralement fonction des ensembles de données sources utilisés.

Classification des établissements

L'attribution du type d'installation BDOICA a été largement basée sur les types d'installations fournis par les fournisseurs de données sources. Dans les cas où les types d'installations n'étaient pas clairs ou n'étaient pas définis par le fournisseur, ils ont été classés avec l'aide des recherches supplémentaires.

Doublons

Certains ensembles de données sources se chevauchent; les ensembles de données qui ne couvrent qu'un type particulier d'installation artistique ou culturelle pour toute une province, par exemple, peuvent chevaucher des données fournies uniquement pour des villes particulières. Bien que des techniques de déduplication soient utilisées, il se peut que tous les enregistrements en double n'aient pas été supprimés. La modification des méthodes de déduplication pour trouver les enregistrements en double restants génère de nombreux faux positifs, ce qui exige une intervention manuelle supplémentaire. De plus amples renseignements sont disponibles à la sous-section Suppression des enregistrements en double ci-dessus.

Corrigeant les inscriptions incorrectes

Quelques inscriptions comportant des noms de province/territoire et des codes postaux erronés ont été détectées et corrigées manuellement. De plus amples renseignements sur l'identification des inscriptions erronées sont également fournis à la sous-section Identification des inscriptions incorrectes.

Analyse des adresses

On a fait appel à des méthodes de traitement du langage naturel pour analyser et séparer les chaînes d'adresse en variables d'adresse, comme le code postal et le numéro de voirie. Les méthodes sont reconnues pour leur rendement et leur exactitude ultramodernes, mais, comme toutes les méthodes d'apprentissage statistique, elles comportent aussi des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut donner une analyse inexacte. Après un examen manuel de la base de données, nous n'avons relevé aucune analyse inexacte. À ce stade-ci, les enregistrements des adresses dans la base de données devraient être dûment analysés.

8. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOICA.

Variables des installations de culture et d'art

Variable – Index

Nom
Index
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données.
Description
Numéro d'enregistrement unique généré automatiquement lors du traitement des données.

Variable – Nom de l'installation

Nom
Nom_Installation
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'installation

Variable – Type d'installation source

Nom
Type_Installation_Source
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation créé par les fournisseurs de données

Variable – Type d'installation BDOICA

Nom
Type_Installation_BDOICA
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation déterminée à l'aide des critères de classification utilisés (voir la partie 5)

Variables de lieu

Variable – Unité

Nom
Unité
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro du local.

Variable – Numéro de rue

Nom
Numéro_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro d'immeuble.

Variable – Nom de rue

Nom
Nom_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la rue (type et direction).

Variable – Ville

Nom
Ville
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la ville ou municipalité (certains enregistrements peuvent indiquer le nom du quartier).

Variable – Province/territoire

Nom
Prov_Terr
Format
Chaîne de caractères
Source
Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
Description
Nom de la province ou du territoire.

Variable – Identificateur unique de province

Nom
PRIDU
Format
Nombre entier
Source
Converti du code de province.
Description
Identificateur unique de la province.

Variable – Nom de SDR

Nom
SDR_Nom
Format
Chaîne de caractères
Source
Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de la SDR

Nom
SDRIDU
Format
Nombre entier
Source
Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
Description
Identificateur unique de la subdivision de recensement.

Variable – Longitude

Nom
Longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude.

Variable – Latitude

Nom
Latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude.

Variable – Fournisseur de données

Nom
Fournisseur
Format
Texte (chaîne de caractères)
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

9. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Date de modification :

La Base de données ouvertes sur les établissements de soins de santé

Numéro de catalogue : 13260001
Numéro d'exemplaire : 2020001

La Base de données ouvertes sur les établissements de soins de santé (BDOESS) est une collection de données ouvertes comprenant les noms, les types et les emplacements des établissements de soins de santé au Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert du Canada.

La BDOESS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les établissements de soins de santé au Canada. Les sources de données comprennent les régies régionales de la santé, les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les organismes de santé publique et de soins de santé professionnels. Cette base de données vise à fournir un meilleur accès à une liste harmonisée des établissements de soins de santé au Canada, en permettant une consultation de ces établissements sous la forme de données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOESS sont des ensembles de données dont les sources incluent les régies régionales de la santé, les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les organismes de santé publique et de soins de santé professionnels. Ces ensembles de données étaient disponibles soit en vertu de l'un des types existants de licence de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Dans certains cas, les données ont été obtenues directement auprès de sources administratives. Les détails des sources utilisées sont disponibles dans les métadonnées de la BDOESS.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOESS harmonise le type d'établissement en attribuant, à chaque établissement de soins de santé, un type parmi trois. Ce processus a été mis en œuvre sur la base du type d'établissement fourni par la source de données, ainsi qu'en utilisant d'autres recherches spécifiquement à cette fin. La BDOESS utilise les trois types d'établissements suivants : « services de soins de santé ambulatoires », « hôpitaux » et « établissements de soins infirmiers et de soins pour bénéficiaires internes ». On notera, toutefois, que les médecines douces et de remplacement (par exemple les herboristes) et certains domaines spécialisés (par exemple les chiropraticiens, les dentistes ou les spécialistes de la santé mentale) ne font pas partie de la portée de la version actuelle de la BDOESS (version 1.1).

La BDOESS ne prétend pas à une couverture exhaustive des établissements de santé et pourrait ne pas contenir tous les établissements entrant dans la portée de sa version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'établissement et de géolocalisation des établissements restent également possibles. Bien que toutes les données soient publiées à la même date, les dates à compter desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources était validé utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, on a effectué un géocodage pour certaines sources en utilisant les données d'adresse de la source. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, au lieu de l'adresse municipale.

On a mis en œuvre une déduplication pour supprimer les enregistrements en double, lorsque les portées de plusieurs sources se chevauchaient.

La version actuelle de la base de données (version 1.1) contient environ 7 000 enregistrements. Les données ont été recueillies à partir des sources entre novembre 2019 et mars 2020 pour la diffusion initiale, avec des données supplémentaires collectées ou autrement mises à jour de mai à juin 2020 pour la version 1.1.

Voici les variables comprises dans la BDOESS :

  • Index
  • Nom de l'établissement
  • Type d'établissement source
  • Type d'établissement BDOESS
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Code postal
  • Ville
  • Province ou territoire
  • Adresse municipale du format source
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Identificateur unique de la province ou territoire
  • Latitude
  • Longitude

Pour obtenir de plus amples renseignements sur la façon dont les adresses et les variables ont été compilées, veuillez consulter les métadonnées qui accompagnent la BDOESS.

Téléchargement de la BDOESS

Pour faciliter le téléchargement, la BDOESS est fournie sous la forme d'un fichier compressé au format CSV (valeurs séparées par des virgules).

Visualisant la BDOESS

Le contenu de la BDOESS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

La Base de données ouvertes sur les établissements de soins de santé (BDOESS)
Document de métadonnées : concepts, méthodologie et qualité des données

Version 1.1

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

le 7 août, 2020

Table des matières

1. Aperçu

La Base de données ouvertes sur les établissements de soins de santé (BDOESS) est une base de données pancanadienne sur les établissements de soins de santé, compilée par le Centre des projets spéciaux sur les entreprises (CPSE) de Statistique Canada. Le présent document traite de la méthodologie employée pour créer la BDOESS et porte sur la première mise à jour de celle-ci (version 1.1) en août 2020. La première version de la BDOESS a été publié en avril 2020 et les principales mises à jour de la version 1.1 comprennent l'ajout de 5 nouvelles sources de données, des mises à jour des entrées avec la collaboration des fournisseurs de données, et une déduplication améliorée.

La base de données repose à la fois sur des données ouvertes et des données accessibles au public, avec la permission du propriétaire des données (un ensemble de données est désigné comme étant ouvert si les données sont distribuées en vertu d'une licence de données ouvertes). La plupart des données proviennent des administrations municipales et régionales, des gouvernements provinciaux et territoriaux, d'organismes fédéraux ou d'organismes sans but lucratif indépendants et spécialisés dans le domaine de l'information sur la santé. Les données sont obtenues au moyen du moissonnage du Web, du téléchargement ou elles sont obtenues directement de leur source.

Le principal objectif de la production de la BDOESS est la diffusion de ces renseignements grâce à l'harmonisation et à l'intégration des données de géolocalisation et, dans une faible mesure, à l'ajout de ces données à celles recueillies à partir des diverses sources.

La version 1.1 de la BDOESS renferme 7 033 enregistrements individuels. Cela représente une réduction d'environ 2 000 enregistrements par rapport à la version 1.0. Cette différence est principalement due à la déduplication améliorée (plus de 1 600 entrées supprimées) appliquée dans la version 1.1, mais aussi à la suppression de certains enregistrements à la demande des fournisseurs de données et au remplacement de la source de données utilisée pour la province de Québec. Les données obtenues au moyen du moissonnage du Web dans la version 1.0 ont été remplacées par une source ouverte dans la version 1.1. La BDOESS est présentée sous forme de fichier CSV (valeurs séparées par des virgules) compressé et devrait être mise à jour à intervalles réguliers, à mesure que de nouveaux ensembles de données seront disponibles ou que d'autres améliorations seront apportées.

La BDOESS figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO), une initiative du CPSE. L'ECDO est une initiative exploratoire qui vise à accroître l'utilisation et l'harmonisation des données ouvertes et accessibles au public, provenant de sources faisant autorité, en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique. L'ECDO fournit également un code à source ouverte qui relie ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de l'Environnement de couplage de données ouvertes de Statistique Canada

2. Population cible

Un établissement de soins de santé est un lieu physique dont l'activité première est la prestation de soins de santé. Les établissements de soins de santé au Canada qui assurent des services de santé sont inclus dans cet ensemble de données. Plus précisément, en ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les industries suivantes sont visées :

  • 621 – Services de soins de santé ambulatoires
  • 622 – Hôpitaux
  • 623 – Établissements de soins infirmiers et de soins pour bénéficiaires internes

Les établissements sont inclus lorsque leurs activités principales sont liées aux soins de santé, quelle que soit leur source du financement, qu'ils soient privés ou publics, peu importe le type d'exploitant, l'emplacement ou les autres attributs non énumérés ici. En outre, comme un seul type est attribué à chaque établissement, il est possible qu'il offre plusieurs types de services mais qu'il ne soit répertorié que comme un seul. Toutefois, les médecines douces (p. ex. les herboristes) et les domaines spécialisés (p. ex. les chiropraticiens, les dentistes, les spécialistes de la santé mentale, etc.) ne sont pas inclus dans la version actuelle de la BDOESS (version 1.1). Cependant, lorsque les sources utilisées contenaient ces installations hors de portée, certaines d'entre elles pouvaient toujours être présentes dans la base de données BDOESS.

Les établissements qui font partie de domaines indirectement liés à la prestation de soins de santé globaux, comme les pharmacies, l'assistance sociale, etc., ne sont pas non plus visés par la version courante de la BDOESS.

3. Sources des données

Les sources de données ouvertes sont décrites en détail à l'annexe A et les sources de données accessibles au public figurent à l'annexe B. Les liens vers les ensembles de données originaux, les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires sont également donnés aux annexes A et B. Cinq sources supplémentaires ont été ajoutées dans la mise à jour 1.1. À la demande de certains des fournisseurs de données, certaines entrées ont été mises à jour ou supprimées.

Presque toutes les sources de données utilisées pour créer cette base de données sont des sources accessibles au public, comme les administrations municipales, les gouvernements provinciaux et territoriaux, les autorités sanitaires et les organismes de santé, ainsi que des organismes sans but lucratif indépendants, spécialisés dans le domaine de l'information sur la santé. Les données ont été obtenues soit sur des portails de données ouvertes situés sur des sites Web, soit par moissonnage Web, ou encore elles ont été fournies directement par la source. Dans la plupart des cas, les sources ont été découvertes à l'aide des principaux moteurs de recherche ou par l'intermédiaire de contacts professionnels. On a cherché des sources dans toutes les provinces et tous les territoires du Canada.

Les données ouvertes se distinguent des autres données accessibles au public en raison des conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, la facilité d'utilisation à des fins légitimes, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, comme la mention de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'absence d'utilisation commerciale. Les licences de données ouvertes comprennent, par exemple, Creative Commons, MIT, Gplv3 et la Licence du gouvernement ouvert du Canada. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.

Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes. Les sources des données ouvertes sont décrites en détail à l'annexe A et les autres sources de données accessibles au public sont présentées à l'annexe B.

Les liens menant aux ensembles de données originales de la version actuelle de la BDOESS (version 1.1), les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires figurent également aux annexes A et B. Pour en savoir plus sur chaque licence, les utilisateurs peuvent consulter directement les renseignements donnés sur le portail des fournisseurs de données.

4. Période de référence et dates des dernières mises à jour

En principe, la date de référence de la base de données représenterait la date à laquelle tous les établissements de soins de santé existants à cette date ont été intégrés dans l'ensemble de données. Dans l'idéal, il s'agirait de la même date pour tous les ensembles de données utilisés, mais ce n'est pas le cas. La date de référence à laquelle une source particulière était à jour ou a été mise à jour peut varier selon le fournisseur. Dans certains cas, de tels détails ne faisaient pas partie des renseignements transmis par les fournisseurs de données.

Les annexes A et B indiquent la date à laquelle le fournisseur a mis à jour chaque ensemble de données sources pour la dernière fois (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). Comme il n'existait qu'une version de toutes les sources de données, c'est elle qui a été utilisée et qui est considérée être la toute dernière version qui soit disponible.

Les utilisateurs sont priés de ne pas interpréter la dernière date de mise à jour comme la date de référence des données. S'ils ont besoin de renseignements précis sur la période de référence des données, ils devraient communiquer avec les fournisseurs de données appropriés, dont le nom figure à l'annexe A, Sources des données ouvertes, et à l'annexe B, Autres sources de données accessibles au public.

5. Méthode de compilation

Cette section présente un aperçu du processus suivi pour compiler les données de la BDOESS.

Nettoyage des données

La principale composante de traitement de la base de données comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec le nom des variables (colonnes) défini pour cette base de données. Un dictionnaire de données sur les variables employées pour cette base de données est présenté à la partie 8, Dictionnaire de données. Voici les mesures prises pour nettoyer les données :

  • Analyse et normalisation des adresses
    • Les données d'adresses concaténées ont été analysées et séparées dans les variables de lieux respectives au moyen de libpostal, une solution à la fine pointe de traitement du langage naturel pour l'analyse des adresses. Des erreurs ont été commises lors de l'analyse d'un petit nombre d'adresses et elles ont été corrigées manuellement.
    • Formatage de la saisie des données (suppression de l'espace blanc excédentaire et ponctuation), normalisation des codes postaux et des adresses, nom des provinces et territoires.
    • La saisie de certaines données qui avaient été éliminées par filtrage grâce à des méthodes de nettoyage automatisées a été corrigée manuellement. Voir les détails à la partie 8.
  • Suppression des doublons
    • Les doublons sont supprimés au moyen de la mise en correspondance floue de chaînes de caractères en fonction de critères comprenant le nom de l'établissement, le nom de la rue, le numéro de voirie et les coordonnées géographiques. Les critères ont été établis de façon empirique dans le but d'éviter les faux positifs.
  • Identification des entrées erronées
    • Les entrées erronées ont été repérées à l'aide de programmes et de façon manuelle. Les entrées de données qui n'ont pas pu être traitées correctement par des techniques automatisées ont été filtrées et stockées dans un fichier distinct, avant d'être corrigées manuellement.
  • Sélection du dossier à conserver en cas de doublons
    • Dans certains cas, un établissement était mentionné dans plus d'une source. Dans de tels cas, l'enregistrement contenant le plus d'informations disponibles a été conservé. Lorsque les renseignements entre les sources ne correspondaient pas, des outils de validation ont été utilisés pour décider lesquels conserver.

Pour la mise à jour de la version 1.1, un processus de déduplication plus rigoureux a été mis en place afin de supprimer un certain nombre de doublons qui existaient dans la première version. Ce processus a été réalisé en utilisant le package Python Record Linkage Toolkit pour effectuer diverses comparaisons de chaînes sur les différentes colonnes de la base de données et le package Scikit Learn pour effectuer une classification d'apprentissage automatique afin d'identifier les enregistrements potentiellement en double. Les entrées ne contenant pas suffisamment d'informations pour être classées de cette manière ont été traitées en considérant comme des doublons potentiels toutes les paires d'enregistrements dans la même province et dont les scores de comparaison de noms d'installations dépassaient un certain seuil. Tous les doublons potentiels identifiés de cette manière ont ensuite été vérifiés manuellement avant d'être supprimés. Pour les besoins de cette base de données, l'unité d'analyse est un établissement de soins de santé plutôt qu'un service particulier, et donc dans les cas où un établissement (tel qu'un complexe hospitalier) contient plusieurs services individuels, ceux-ci sont réduits à une seule entrée. À la suite de ce processus, plus de 1 600 doublons ont été supprimés.

Au cours de la validation, des changements peuvent avoir été apportés aux noms et adresses des installations lorsque cela a été jugé approprié. Cela peut entraîner des divergences occasionnelles entre les colonnes des numéros et noms de rue et la colonne de l'adresse source originale. Pour en savoir plus sur le logiciel de traitement des données, voir la page Github du CPSE « OpenTabulate ».

Détermination des types d'établissements de soins de santé

Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire le type d'un établissement de soins de santé. Malheureusement, il n'existe aucune classification universelle des établissements de soins de santé au Canada. Chacune des autorités sanitaires possède sa propre méthode pour classer ses établissements, selon divers systèmes de classification. Voici la classification des établissements de soins de santé qui est actuellement utilisée pour la base de données :

  • Services de soins de santé ambulatoires : Établissements dont l'activité principale consiste à dispenser directement ou indirectement des soins de santé à des malades ambulatoires. (Par exemple : clinique, centre de santé mentale.)
  • Hôpitaux : Établissements reconnus comme des hôpitaux agréés dont l'activité principale consiste à fournir des services diagnostiques et thérapeutiques aux bénéficiaires internes ainsi qu'à héberger ces derniers dans des conditions particulières. (Par exemple : service d'urgence, hôpital général.)
  • Établissements de soins infirmiers et de soins pour bénéficiaires internes : Établissements dont l'activité principale consiste à fournir des soins et des services infirmiers, des services de surveillance ou des soins divers aux malades. (Par exemple : maison de repos.)

La classification a pour but de définir des catégories larges qui permettent d'établir une distinction entre les principaux types d'établissements, tout en permettant la mise en correspondance exacte des types d'établissements propres à la source. Les types d'établissements sont déterminés à partir des types d'établissements propres à la source (p. ex. les centres de traitement du cancer sont classés comme des « hôpitaux ») et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement, au besoin. Pour classer les établissements en fonction des métadonnées sources, on a procédé de façon analytique au cas par cas.

Le tableau 1 illustre l'utilisation de mots-clés pour attribuer des catégories de types aux établissements de soins de santé en fonction de la classification employée pour la BDOESS.

Tableau 1 Exemples de critères d'attribution des types d'établissements de soins de santé (selon les mots-clés)
Variables Condition Valeur Classification
Type d'établissement contient les mots-clés  « centre de santé communautaire » Services de soins de santé ambulatoires
Type d'établissement contient les mots-clés « hôpital », « centre de cancérologie », « centre de santé » Hôpitaux
Type d'établissement contient les mots-clés « vie active des personnes âgées », « maison de repos », « soins de longue durée » Établissements de soins infirmiers et de soins pour bénéficiaires internes

Géocodage et détermination de la subdivision de recensement (SDR ou municipalité)

Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, par opposition à l'adresse municipale.

Note : Bien qu'on ait tâché d'assurer l'exactitude des coordonnées géographiques, il n'existe aucune garantie entendue et des erreurs et inexactitudes sont possibles.

La subdivision de recensement (SDR)Note de bas de page 1 (ou la municipalité) provient des coordonnées géographiques obtenues en établissant un lien avec les polygones de SDR à l'aide d'une opération de jointure spatiale en utilisant le package Python GeoPandas ou en utilisant le nom de la ville qui figure dans le champ d'adresse de l'enregistrement à l'aide de GéoSuite.

6. Couverture de la base de données

La base de données de la version actuelle de la BDOESS (version 1.1) renferme 7 033 établissements de soins de santé.

Comme on ne connaît pas avec une certitude raisonnable le nombre total d'établissements de soins de santé qu'il y a au pays, on n'a pas pu évaluer de façon quantitative la couverture obtenue à l'aide des sources. Toutefois, bon nombre des sources sont censées indiquer tous les établissements d'un certain type (p. ex. hôpital de soins actifs, soins en établissement) dans un secteur de compétence. Par conséquent, à l'intérieur de ces catégories de types d'établissements et de secteurs de compétence, la couverture devrait être assez complète. Toutefois, si des établissements d'une certaine catégorie ont été omis dans une source, p. ex. des cliniques de consultation externe, il se pourrait qu'ils soient absents de la base de données, à moins qu'ils proviennent d'une autre source.

7. Qualité des données

L'exactitude et l'exhaustivité des données sont généralement fonction des ensembles de données sources utilisés. Sauf indication contraire, les ensembles de données sous-jacents sont considérés tels quels.

Classification des établissements
L'attribution du type d'établissement de BDOESS a été largement basée sur les types d'établissements fournis par les fournisseurs de données sources. Dans les cas où les types d'établissements n'étaient pas clairs ou n'étaient pas définis par le fournisseur, ils ont été classés avec l'aide des recherches supplémentaires.
Doublons
Certains ensembles de données fournissent des données pour lesquelles les lignes ne représentent pas des établissements uniques. Bien qu'on ait recours à des techniques de déduplication, il est prévu qu'il reste quelques doublons.
Analyse des adresses
On a fait appel à des méthodes de traitement du langage naturel pour analyser et séparer les chaînes d'adresse en variables d'adresse, comme le code postal et le numéro de voirie. Les méthodes sont reconnues pour leur rendement et leur exactitude ultramodernes, mais, comme toutes les méthodes d'apprentissage statistique, elles comportent aussi des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut donner une analyse inexacte. Après un examen manuel de la base de données, nous n'avons relevé aucune analyse inexacte. À ce stade-ci, les enregistrements des adresses dans la base de données devraient être dûment analysés.
Coordonnées géographiques
Certains établissements qui n'avaient pas de coordonnées géographiques ont été géocodées à l'aide de l'API Nominatim d'OpenStreetMap. L'exactitude du géocodage a été validée manuellement grâce aux services cartographiques propriétaires disponibles sur Internet. Dans certains cas, les coordonnées des établissements ont également été déterminées manuellement à partir des services cartographiques en ligne.

8. Dictionnaire de données

Le présent dictionnaire de données décrit les variables qui figurent dans la BDOESS. La base de données est présentée en format CSV. Chaque établissement est répertorié par ligne et ses attributs sont indiqués dans les colonnes. Les variables des colonnes correspondantes sont décrites dans le dictionnaire de données ci-dessous.

Variables des établissements de soins de santé

Variable – Index

Nom
index
Format
Alphanumérique
Source
Attribuée par série
Description
Numéro de série unique pour chaque établissement. Les entrées supplémentaires de la version 1.1 sont identifiées par le préfixe "S" suivi d'un numéro de série attribué

Variable – Nom de l'établissement

Nom
nom_établissement
Format
Chaîne
Source
Fournie telle quelle à partir des données originales
Description
Nom de l'établissement de santé

Variable – Type d'établissement source

Nom
type_établissement_source
Format
Chaîne
Source
Fournie telle quelle à partir des données originales
Description
Type d'établissement de santé attribué par l'autorité sanitaire régionale

Variable – Type d'établissement BDOESS

Nom
type_établissement_bdoess
Format
Chaîne
Source
Imputée à partir des métadonnées ou des données sources
Description
Valeur déterminée à l'aide des critères de classification utilisés (voir la partie 5)

Variable – Fournisseur

Nom
fournisseur
Format
Chaîne
Source
Attribuée en fonction de l'identité du fournisseur
Description
L'identité ou le nom du fournisseur de données

Variables de lieu

Variable – Numéro d'unité

Nom
numéro_unité
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Numéro d'unité municipale ou de bureau

Variable – Numéro de rue

Nom
numéro_rue
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Numéro civique

Variable – Nom de la rue

Nom
nom_rue
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Nom de la rue (type et direction)

Variable – Code postal

Nom
code_postal
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Code postal de l'établissement

Variable – Ville

Nom
ville
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Nom de la ville.

Variable – Province ou territoire

Nom
province
Format
Chaîne
Source
Convertie en codes à deux lettres après l'analyse d'une chaîne d'adresse complète ou fournie telle quelle ou encore indiquée par le fournisseur
Description
Nom de la province ou du territoire

Variable – Adresse municipale du format source

Nom
adresse_municipale_format_source
Format
Chaîne
Source
Adresse municipale selon la source de données fournie telle quelle
Description
Adresse municipale dans les données sources

Variable – Nom de la SDR

Nom
sdrnom
Format
Chaîne
Source
Imputée à partir des coordonnées géographiques et des noms de villes
Description
Nom de la subdivision de recensement

Variable – Identificateur unique de la SDR

Nom
sdridu
Format
Nombre entier
Source
Imputée à partir du nom de la SDR à l'aide de Géosuite 2016
Description
Identificateur unique de la subdivision de recensement

Variable – Identificateur unique de la province

Nom
pridu
Format
Nombre entier
Source
Imputée à partir des deux premiers chiffres de l'identificateur unique de la SDR
Description
Identificateur unique de la province

Variable – Latitude

Nom
latitude
Format
Flottant
Source
Fournie telle quelle à partir des données originales ou de la valeur corrigée si la valeur source a été jugée inexacte pendant la validation
Description
Latitude

Variable – Longitude

Nom
longitude
Format
Flottant
Source
Fournie telle quelle à partir des données originales ou de la valeur corrigée si la valeur source a été jugée inexacte pendant la validation
Description
Longitude

9. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Annexe A : Sources de données ouvertes

Sources de données ouvertes
Fournisseur de données Province ou territoire Lien Lien vers la licence ou les conditions d'utilisation Dernière mise à jour par le fournisseur Aperçu Nouvelle source pour la BDOESS version 1.1
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Emergency Rooms in BC Open Government Licence - British Columbia 12/24/2019 Services d'urgence en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Hospitals in BC Open Government Licence - British Columbia 12/25/2019 Hôpitaux en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Residential Care Facilities Open Government Licence - British Columbia 12/26/2019 Soins en établissement en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Walk-in Clinics in BC Open Government Licence - British Columbia 12/27/2019 Cliniques sans rendez-vous en Colombie-Britannique Non
Moncton (Municipalité) Nouveau-Brunswick Ville de Moncton - Établissements de soins aux personnes âgées Ville de Moncton - Conditions d'utilisations des ensembles de données 3/19/2010 Établissements de soins aux personnes âgées de la région du Grand Moncton Oui
Moncton (Municipalité) Nouveau-Brunswick Ville de Moncton - Cliniques médicales Ville de Moncton - Conditions d'utilisations des ensembles de données 3/19/2010 Cliniques médicales de la région du Grand Moncton Oui
Nouveau-Brunswick (province) Nouveau-Brunswick Nouveau-Brunswick numérique - Foyers de soins agrées Licence du gouvernement ouvert - Nouveau-Brunswick 7/16/2020 Liste des foyers de soins agrées au Nouveau-Brunswick Oui
Nouvelle-Écosse (Province) Nouvelle-Écosse Open Data Nova Scotia - Hospitals Nova Scotia Open Government Licence 2/15/2019 Hôpitaux en Nouvelle-Écosse Non
Île-du-Prince-Édouard (province) Île-du-Prince-Édouard PEI Health Facilities PEI Health Facilities 4/17/2020 Établissements de soins de santé à l'Île-du-Prince-Édouard Oui
Île-du-Prince-Édouard (Province) Île-du-Prince-Édouard Open Data Prince Edward - Health PEI Facility Locations Licence du gouvernement ouvert – Île-du-Prince-Édouard 8/8/2019 Établissements de soins de santé à l'Île-du-Prince-Édouard Non
Québec (Québec) (Municipalité) Québec Données Québec - Ville de Québec - Lieux publics Creative Commons - Attribution 4.0 International (CC BY 4.0) 2/24/2020 Hôpitaux à Québec (Québec) Non
Québec (Province) Québec Santé et services sociaux Québec - Fichier cartographique des installations - M02 Données Quebéc - License Creative Commons (CC BY) 5/20/2020 Localisation des installations du réseau de la santé et des services sociaux Oui
Gatineau (Québec) (Municipalité) Québec Données Québec - Ville de Gatineau - Lieux publics Creative Commons - Attribution 4.0 International (CC BY 4.0) 2/25/2019 Hôpitaux à Gatineau (Québec) Non
Nouvelle-Écosse (Province) Nouvelle-Écosse Open Data Nova Scotia - Long Term Care and Residential Care Facilities Nova Scotia Open Government Licence 2/15/2019 Soins enétablissement en Nouvelle-Écosse Non
Ontario (Province) Ontario Ontario GeoHub - Ministry of Health Service Provider Locations
(via: Catalogue de données de l'Ontario - Emplacement des hôpitaux)
Licence du gouvernement ouvert – Ontario 10/15/2019 Établissements de soins de santé en Ontario Non
Régie régionale de la santé, Horizon (Nouveau-Brunswick) Nouveau-Brunswick Nouveau-Brunswick numérique - Hôpitaux au Nouveau-Brunswick opérés par le réseau de santé Horizon Licence du gouvernement ouvert- Nouveau-Brunswick 3/18/2020 Hôpitaux du Nouveau-Brunswick exploités par Horizon Non
Régie régionale de la santé, Vitalité (Nouveau-Brunswick) Nouveau-Brunswick Nouveau-Brunswick numérique - Hôpitaux au Nouveau-Brunswick opérés par le réseau de santé Vitalité Licence du gouvernement ouvert- Nouveau-Brunswick 3/18/2020 Hôpitaux du Nouveau-Brunswick exploités par Vitalité Non
Alberta (Province) Alberta Alberta Open Government - Hospital services in Alberta Open Government Licence - Alberta 7/1/2018 Hôpitaux et établissements de soins de santé en Alberta Non
Manitoba (Province) Manitoba Manitoba Government - Rural Health Care Facilities in Manitoba (renonciation) 6/30/2017 Établissements de soins de santé au Manitoba Non

Annexe B : Autres sources de données accessibles au public ou sources de données fournies directement

Autres sources de données accessibles au public ou sources de données fournies directement
Fournisseur de données Province ou territoire Lien Lien vers la licence ou les conditions d'utilisation Dernière mise à jour par le fournisseur Aperçu
Institut canadien d'information sur la santé Canada Fourni directement par courriel (renonciation) Non disponible Établissements de santé au Canada
Manitoba (Province) Manitoba Gouvernement du Manitoba - Information au sujet des délais d'attente - Carte des offices régionaux de la santé (ORS) du Manitoba Gouvernement du Manitoba -Droit d'auteur (renonciation) Non disponible Hôpitaux au Manitoba
Manitoba - Office régional de la santé de Winnipeg Manitoba Office régional de la santé de Winnipeg - Lieux et services Office régional de la santé de Winnipeg - Terms of Use and Privacy Statement Non disponible Locations d'établissements gérés par l'Office régional de la santé de Winnipeg
Manitoba - Office régional de la santé d'Entre-les-Lacs et de l'Est Manitoba Interlake-Eastern Regional Health Authority - Hospital Locations s.o. Non disponible Locations d'établissements gérés par l'Office régional de la santé d'Entre-les-Lacs et de l'Est
Manitoba - Office régional de la santé du Nord Manitoba Northern Health Region s.o. Non disponible Locations d'établissements gérés par l'Office régional de la santé du Nord
Manitoba - Santé Prairie Mountain Manitoba Prairie Mountain Health - Locations Map Prairie Mountain Health - Legal Notice and Disclaimer Non disponible Locations d'établissements gérés par Santé Prairie Mountain
Manitoba - Santé Sud Manitoba Santé Sud - Trouver des soins Santé Sud - Avertissement - Conditions d'utilisation Non disponible Locations d'établissements gérés par Santé Sud
Nunavut (territoire) Nunavut The Government of Nunavut - Qikiqtani General Hospital s.o. Non disponible Un seul hôpital au Nunavut
Agence dela santé publique du Canada Canada Fourni directement par courriel (renonciation) Non disponible Hôpitaux au Canada
Terre-Neuve-et-Labrador (Province) Terre-Neuve-et-Labrador Government of Newfoundland and Labrador - Services in Your Region Government of Newfoundland and Labrador- Disclaime r/ Copyright / Privacy Statement Non disponible Établissements de soins de santé à Terre-Neuve-et-Labrador
Territoires du Nord-Ouest (territoire) Territoires du Nord-Ouest Government of Northwest Territories - Hospitals and Health Centres Government of Northwest Territories - Terms of use (renonciation) Non disponible Établissements de soins de santé aux Territoires du Nord-Ouest
Manitoba (Province) Manitoba. Interlake-Eastern Regional Health Authority s.o. Non disponible Établissements de soins de santé au Manitoba
Yukon (territoire) Yukon Fourni directement par courriel (renonciation) Non disponible Établissements de soins de santé au Yukon
Saskatchewan (Province) Saskatchewan Saskatchewan Health Authority - Locating Facility and Service Information s.o. Non disponible Établissements de soins de santé en Saskatchewan
Date de modification :

La Base de données ouvertes sur les établissements d'enseignement (BDOEE)
Document de métadonnées : concepts, méthodologie et qualité des données

No 37260001 au catalogue
No d'exemplaire 2022001

Version 2.1

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

Date de diffusion : 28 novembre 2022

Table des matières

Remerciements

Une première version de la base de données a été réalisée grâce au financement de Services aux Autochtones Canada (SAC) et de Relations Couronne-Autochtones et Affaires du Nord Canada (RCAANC). Cette version mise à jour, qui comprend les écoles de langue officielle en situation minoritaire, a été réalisée grâce au financement du Secrétariat du Conseil du Trésor du Canada (SCT) et en consultation avec Patrimoine canadien (PCH). Ces organisations nous ont fait part de leurs précieux commentaires, et nous les en remercions.

1. Aperçu

En vue d'explorer l'utilisation des données ouvertes pour produire les statistiques officielles et de soutenir la recherche géospatiale dans divers domaines, le Laboratoire d'exploration et d'intégration des données (LEID) a entrepris un projet en vue de créer une base de données sur les établissements d'enseignement qui soit accessible, harmonisée et fondée sur les données ouvertes ayant été publiées par plusieurs ordres de gouvernement au CanadaNote de bas de page 1. Le présent document décrit en détail le processus de collecte, de compilation et d'uniformisation des divers ensembles de données sur les établissements d'enseignement ayant servi à la création d'une mise à jour à la deuxième version de la Base de données ouvertes expérimentale sur les établissements d'enseignement (BDOEE), accessible en vertu de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (version 2.1), la BDOEE contient 18 982 enregistrements individuels. Pour cette mise à jour de la base de données, des renseignements sur les écoles publiques des minorités de langues officielles (EMLO) ont été ajoutés à la version 2.0 existante de la BDOEE. Une EMLO s'entend d'une école anglophone au Québec ou d'une école francophone à l'extérieur du Québec. Au total, 967 enregistrements existants ont été désignés comme des enregistrements d'EMLO, et 38 nouveaux enregistrements ont été ajoutés à la version 2.1. Comme les données des EMLO ont été recueillies plus récemment que les données de la BDOEE, certains établissements dont l'adresse a changé l'ont fait mettre à jour. De plus, les coordonnées de latitude et de longitude des EMLO ont été mises à jour dans les enregistrements appariés de la BDOEE pour lesquels il manquait des données. On a ajouté des renseignements sur les RMR avec une jonction spatiale en utilisant le paquetage SFNote de bas de page 2 dans R pour tous les enregistrements comportant des données sur les coordonnées à des fins de concordance avec les EMLO. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOEE est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.

Cet ensemble de données figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative qui vise à accroître l'utilisation et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour relier ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de Statistique Canada à L'Environnement de couplage de données ouvertes.

2. Sources de données

De nombreuses sources de données ont été utilisées pour créer la BDOEE. Les fournisseurs de données, qui comprennent divers ordres de gouvernement, sont indiqués dans le matériel supplémentaire dans le Tableau 1, y compris l'attribution à chaque source de données conformément aux exigences de la licence. S'il y a lieu, la version de la licence est également indiquée. Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOEE comprend également un ensemble de listes accessibles au public d'établissements d'enseignement dont l'inclusion a été autorisée par les fournisseurs de données.

En raison de l'inclusion de la variable EMLO dans la version 2.1 de la BDOEE, toutes les sources d'information sur les EMLO sont incluses dans le tableau 2 du matériel supplémentaire. Pour chaque province et territoire où de multiples sources de données sur le statut d'EMLO ont été trouvées, on a choisi une seule source de données primaire qui contenait le plus grand nombre d'enregistrements et d'attributs utiles comme les niveaux scolaires et l'information sur les adresses.

En plus des sources primaires énumérées au Tableau 2, la validation a été effectuée en comparant les listes aux pages Web des conseils scolaires de la minorité linguistique officielle. Cela a permis d'ajouter un petit nombre d'établissements qui manquaient dans les sources de données initiales. Les sources supplémentaires utilisées sont énumérées dans le Tableau 3 du matériel supplémentaire

3. Période de référence

Le matériel supplémentaire présente la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (lorsque celle-ci est connue), ainsi quela date à laquelle chaque ensemble de données utilisé dans la BDOEE a été téléchargé. Les données ont été recueillies entre août 2019 et mars 2021 pour les données de la BDOEE, et de novembre 2021 à mars 2022 pour le statut EMLO. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la période de référence des données. Si l'utilisateur nécessite des renseignements précis sur la période de référence des données, il doit communiquer avec le fournisseur de données concerné.

4. Population cible

Un établissement d'enseignement est un lieu physique dont l'activité première consiste à donner un enseignement à un ensemble d'élèves ou de participants. Tous les établissements d'enseignement au Canada sont pris en compte dans cet ensemble de données. Cela inclut tous les niveaux d'éducation, les écoles privées et publiques sans exclusions quant au mode de financement, au type d'exploitant, au domaine, à la dénomination, au type d'élève, au lieu, etc.

Compte tenu de cette définition, la base de données couvre des établissements tels que les services d'éducation de la petite enfance, la maternelle, les établissements primaires, secondaires et postsecondaires, et des centres de formation professionnelle précis (comme les écoles de coiffure). La base de données n'inclut pas les établissements d'enseignement virtuels.

Pour le statut de l'EMLO, la population cible est limitée aux écoles publiques de minoritées de langue officielle de la maternelle à la 12e année. Cela peut inclure à la fois les écoles traditionnelles et les écoles alternatives si elles sont contrôlées par des conseils ou des autorités scolaires de langue officielle minoritaire.

Seule une modification minime des ensembles de données originaux a été réalisée. Au fur et à mesure que le travail sur la BDOEE expérimentale avancera, les définitions et les seuils évolueront. Il importe de rappeler aux utilisateurs que, dans la plupart des cas, il est possible d'obtenir directement les données non modifiées dans les portails de données ouvertes des divers fournisseurs de données.

5. Méthodologie de compilation

La première composante de traitement de la base de données comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Un dictionnaire de données des variables utilisées est présenté à la section 6. Dictionnaire de données. Afin de compiler les données dans une seule base de données, les activités suivantes ont été effectuées :

  • Les données d'adresse concaténées ont été analysées et séparées dans les composantes qui les correspondent (p. ex., unité, numéro et nom de la rue, nom de la ville, etc.) au moyen de libpostal, une solution de traitement du langage naturel pour l'analyse des adresses.
  • Déduplication au moyen de la mise en correspondance floue et parfaite de chaînes de caractères. Cette étape est réalisée de manière prudente afin d'éviter les faux positifs (pour plus de détails, voir Standardisation des données).

Les fichiers et les champs de données originaux ont été convertis dans des formats et des champs normalisés à l'aide du logiciel personnalisé OpenTabulate. Un nombre limité d'inscriptions ont été modifiées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue no », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue no », plutôt que le numéro 1035 et le nom de rue « 55e rue no ». Bien que des efforts aient été déployés pour assurer que les données soient correctes, il est possible que les scripts utilisés pour traiter et analyser les adresses aient entraîné par inadvertance d'autres erreurs non détectées. Si de telles erreurs sont détectées, elles seront corrigées dans les versions futures de la BDOEE.

En général, les données incluses dans la BDOEE sont les données accessibles dans les sources originales sans imputation. Le géocodage des entrées dont les coordonnées sont manquantes, et l'imputation des noms RSD et les niveaux de la CITE, décrite ci-après, fait exception à la règle.

Dans la version 2 de la BDOEE, l'identifiant unique est passé d'un nombre entier à un hachage calculé à partir du nom de l'établissement, de l'adresse et de l'identifiant de la source (si disponible) de l'enregistrement.

Géocodage

Les enregistrements qui ne comportaient pas de géocoordonnées provenant de la source ont été géocodés à l'aide du géocodeur ESRI ArcGIS Online (AGOL) et du géocodeur OpenStreetMap (Nominatim). Le géocodeur AGOL renvoie les coordonnées, ainsi qu'un score et un type de géocodage. Seuls les enregistrements dont le score est supérieur à 90 et dont le type d'adresse indique que les coordonnées sont soit une adresse, une sous-adresse, un point d'intérêt ou une intersection ont été retenus pour la base de données finale. Les enregistrements qui ne pouvaient pas être géocodés avec le niveau de précision décrit ci-dessus ont ensuite été transmis au géocodeur Nominatim. Les écoles ont été recherchées à l'aide du nom de l'école, de la ville et de la province, et ont été conservées si le nom de l'école obtenu correspondait de près au nom de l'école d'origine. La colonne Geo_Source indique si les coordonnées d'un enregistrement ont été fournies par la source originale ou si elles ont été géocodées.

Imputation des niveaux de la CITE

Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire le niveau d'éducation ou les années scolaires. La BDOEE utilise la Classification internationale type de l'éducation (CITE) pour fournir une définition normalisée du niveau d'éducation. Cela a requis la conversion des années scolaires ou du niveau d'éducation d'un établissement d'éducation à un niveau de CITE.

Les niveaux de la CITE ont été dérivés à partir des années scolaires indiquées dans les données du fournisseur, si des années sont accessibles. Autrement, le niveau d'éducation est converti en années scolaires, qui sont ensuite mises en correspondance avec les niveaux de la CITE. Les entrées dans les données d'origine qui ne contenaient pas d'informations sur le niveau d'éducation n'ont pas reçu d'attributs de CITE, alors, ces champs sont vides dans la BDOEE.

Le Tableau 1 présente la mise en correspondance directe des niveaux de la CITE avec les années scolaires, et le Tableau 2 présente les années scolaires comprises dans un niveau d'éducation par province et territoire. Il convient de souligner que la définition de la « maternelle » comme niveau d'éducation varie selon les sources de données, et que certaines de ces écoles offrent une éducation à la petite enfance. Pour éviter les faux positifs, des valeurs ne sont pas attribuées dans la colonne CITE010 pour les établissements qui indiquent accueillir des élèves du préscolaire, décrit comme un niveau d'éducation (et non une année scolaire). Par exemple, les services de garde d'enfants en Alberta comprennent la maternelle et peuvent également inclure des services pour les enfants plus jeunes, mais ils n'ont été mis en correspondance qu'avec la CITE020. Malgré le fait que certains de ces établissements offrent une éducation à la petite enfance, la notion du préscolaire semble varier entre les fournisseurs de données et les écoles. Le Tableau 2 en témoigne, le « préscolaire » étant associé à la maternelle lorsqu'il est converti en une année scolaire.

Tableau 1 : Variables du dictionnaire de données et niveaux de la CITE correspondants
Variable Nom Niveau de la CITE Années scolaires
Éducation de la petite enfance CITE010 010 Préscolaire
Maternelle CITE020 020 Maternelle
Primaire CITE1 1 1 à 6
Secondaire de premier cycle CITE2 2 7 à 9
Secondaire de deuxième cycle CITE3 3 10 à 12
Postsecondaire CITE4+ 4+ -
Tableau 2 : Définition de la conversion du niveau d'éducation en années scolaires selon la province/territoire
Province / territoire Préscolaire / maternelle Primaire Secondaire de premier cycle Secondaire de deuxième cycle
Terre-Neuve-et-Labrador, Île-du-Prince-Édouard, Nouvelle-Écosse, Alberta, Territoires-du-Nord-Ouest, Nunavut Maternelle 1 à 6 7 à 9 10 à 12
Nouveau-Brunswick Maternelle 1 à 5 6 à 8 9 à 12
Québec Maternelle 1 à 6 7 à 11
Ontario Maternelle 1 à 8 9 à 12
Manitoba Maternelle 1 à 4 5 à 8 9 à 12
Saskatchewan Maternelle 1 à 5 6 à 9 10 à 12
Colombie-Britannique, Yukon Maternelle 1 à 7 8 à 12

Imputation des noms de subdivision de recensement (SDR)

Les noms de subdivision de recensement (SDR)Note de bas de page 3 proviennent des coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 4 de Python.

Type d'établissement fourni dans les ensembles de données sources

Le type d'établissement fourni (p. ex., public, privé, confessionnel, etc.) a été utilisé tel qu'il fût indiqué dans l'ensemble de données source sans tentative d'interprétation, de nouvelle attribution ou de mise en correspondance avec une classification uniforme. Par rapport à l'utilisation de la CITE pour normaliser les niveaux d'éducation, il n'existe aucune norme liée au type d'établissement. Lorsque la source de données n'avait pas de colonne de type mais que la source de données elle-même correspondait à un type particulier (par exemple, un fichier d'écoles publiques ou un fichier d'écoles privées), le type d'établissement a été défini manuellement.

Standardisation des données

En raison des différentes normes adoptées dans les données originales, les mesures prises pour normaliser les données peuvent donner lieu à des erreurs. Les principes clés de la méthodologie utilisée sont d'éviter les faux positifs et les modifications importantes des données. La méthodologie et les limites de chaque technique sont décrites ci-dessous. Les techniques de nettoyage banales, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Analyse des adresses

L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, comme le nom de rue et le numéro de rue. À l'occasion, les adresses ne seront pas séparées correctement en raison du formatage non conventionnel de l'adresse originale. Il est possible que des inscriptions ayant été analysées de façon erronée n'aient pas été détectées, malgré les efforts déployés pour les relever et les corriger dans la base de données finale. Les inscriptions dont le numéro d'immeuble est composé de deux nombres séparés par un trait d'union ou une espace font exceptions. Ces inscriptions indiquent habituellement que l'analyseur d'adresses a mal analysé une adresse, par exemple, dans l'inscription « 123 100 ave », « 123 100 » est considéré comme le numéro d'immeuble et « ave », comme le nom de rue ou alors une unité n'est pas identifiée correctement (comme dans l'entrée « 3-100 rue principale »). Ces nombres sont automatiquement séparés, et, si le nom de rue est une variante du mot « rue » ou « avenue », le nombre de droite est considéré comme le nom de rue.

Pour les inscriptions d'EMLO où seule une adresse de case postale a été fournie, les adresses ont été supprimées et remplacées par les adresses de voirie, qui ont été trouvées au moyen de recherches manuelles sur Internet.

Finalement, une quantité limitée d'inscriptions n'ayant pas été analysées correctement ont été relevées lors d'une vérification manuelle, puis corrigées.

Suppression des enregistrements en double

La suppression des doublons a été effectuée à l'aide du paquet Record Linkage Toolkit en Python, où les distances de Levenshtein et de Cosine ont été calculées sur les champs de nom et d'adresse pour les installations au sein de la même SDR. Les paires d'enregistrements dont la métrique de similarité des chaînes de caractères était supérieure à 0,9 ont été signalées pour inspection et supprimées s'il s'agissait de doublons.

Pour les inscriptions d'EMLO, on a inspecté manuellement les paires d'enregistrements pour déterminer si les appariements indiquaient de vrais ou de faux doublons. En effectuant des recherches sur Internet pour comparer les noms et les adresses entre les paires appariées et, dans certains cas, en vérifiant la réalité de terrain au moyen de sites cartographiques, on a établi que la plupart des paires d'enregistrements étaient de faux doublons. En outre, on a constaté que plusieurs paires appartenaient à la même école, mais couvraient des années scolaires différentes — elles ont été indiquées séparément. En fin de compte, seules les inscriptions qui semblaient être des doublons évidents (noms et adresses très semblables et renseignements égaux sur les années scolaires) ainsi que les établissements dont les noms et les adresses correspondaient parfaitement ont été choisis en vue d'être supprimés.

6. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOEE exploratoire.

Variable – Numéro d'enregistrement

Nom
Index
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données.
Description
Numéro d'enregistrement unique généré automatiquement lors du traitement des données.

Variable – Source ID

Nom
Source_ID
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
L'identifiant unique de l'enregistrement tel qu'il figure dans la source de données originale, si disponible.

Variable – Nom de l'établissement

Nom
Nom_Établissement
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'établissement.

Variable – Type d'établissement

Nom
Type_Établissement
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'établissement (p. ex. public, privé, gouvernemental, etc.).

Variable – Nom de l'autorité

Nom
Nom_Autorité
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'autorité.

Variable – Éducation de la petite enfance

Nom
CITE010
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de la petite enfance telle que la définit le niveau de la CITE au Tableau 1.

Variable – Maternelle

Nom
CITE020
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de maternelle telle que la définit le niveau de la CITE au Tableau 1.

Variable – Primaire

Nom
CITE1
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves du primaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Secondaire de premier cycle

Nom
CITE2
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves au premier cycle du secondaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Secondaire de deuxième cycle

Nom
CITE3
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves au deuxième cycle du secondaire tel que le définit le niveau de la CITE au  Tableau 1.

Variable – Postsecondaire

Nom
CITE4Plus
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de niveau postsecondaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Désignation d'une école des minorités de langue officielle

Nom
Statut_EMLO
Format
Booléen
Source
Mise en correspondance des enregistrements avec une base de données des écoles publiques des minorités de langues officielles de la maternelle à la 12e année.
Description
Une école de minorité de langue officielle est une école anglophone au Québec ou une école francophone dans les autres provinces et territoires. Une valeur de 1 indique que l'enregistrement est une EMLO.

Variables de lieu

Variable – Adresse complète

Nom
Adr_Complète
Format
Chaîne de caractères
Source
Une combinaison de composants d'adresses ou fournis tels quels.
Description
Adresse complète de l'établissement.

Variable – Unité

Nom
Unité
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro du local.

Variable – Numéro de la rue

Nom
Numéro_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro d'immeuble.

Variable – Nom de la rue

Nom
Nom_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la rue (type et direction).

Variable – Ville

Nom
Ville
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la municipalité.

Variable – Province/territoire

Nom
Prov_Terr
Format
Chaîne de caractères
Source
Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
Description
Nom de la province ou du territoire.

Variable – Code postale

Nom
Code_Postale
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Code postale.

Variable – Identificateur unique de province

Nom
PRIDU
Format
Nombre entier
Source
Converti du code de province.
Description
Identificateur unique de la province.

Variable – Nom de SDR

Nom
SDR_Nom
Format
Chaîne de caractères
Source
Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de la SDR

Nom
SDRIDU
Format
Nombre entier
Source
Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
Description
Identificateur unique de la subdivision de recensement.

Variable – Longitude

Nom
Longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude.

Variable – Latitude

Nom
Latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude.

Variable – Source géocoordonnées

Nom
Geo_Source
Format
Chaîne de caractères
Source
Créé sur la base des origines des géocoordonnées.
Description
Une indication pour savoir si la latitude et la longitude ont été fournies dans la source originale, ou si elles ont été géocodées pour la BDOEE.

Variable – Fournisseur de données

Nom
Fournisseur
Format
Chaîne de caractères
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

7. Exactitude des données

Toutes les données relatives aux établissements d'enseignement figurant dans la BDOEE ont été collectées à partir de sources de données gouvernementales, soit à partir de portails de données ouverts, soit de pages web publiques. En général, les ensembles de données obtenus ont été laissés tels quels, à l'exception d'un traitement d'uniformisation des sources afin de constituer une seule base de données.

Quelques exceptions s'appliquent aux inscriptions d'EMLO. Certaines inscriptions qui ne figuraient pas dans les sources de données d'origine ont été ajoutées après avoir été comparées aux pages Web des conseils scolaires de langue officielle en situation minoritaire. Lorsqu'il manquait des renseignements sur les écoles, comme l'adresse ou le conseil scolaire, les données ont été complétées au moyen de recherches manuelles.

L'imputation des niveaux de la CITE est réalisée de manière prudente afin d'éviter les faux positifs. En conséquence, les pourcentages des niveaux de la CITE ayant des valeurs non vides diffèrent selon le niveau.

Des méthodes de traitement du langage naturel sont utilisées pour effectuer l'analyse et la séparation des chaînes de caractères d'adresse en variables d'adresse, comme le numéro et le code postal. Les méthodes sont reconnues pour offrir un grand rendement et une grande exactitude, mais, comme pour toutes les méthodes d'apprentissage statistique, elles présentent également des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut entraîner une analyse erronée. À cette étape, il n'y a eu aucune autre tentative d'intégration à d'autres sources d'adresses; ainsi, bien qu'on s'attende généralement à ce que les enregistrements d'adresse soient corrects, des erreurs résiduelles peuvent être présentes dans la version actuelle de la base de données.

Enfin, il convient de souligner que le type d'établissement, qui distingue les établissements publics, privés et d'autres types d'établissements, a des interprétations différentes selon la province et le fournisseur de données. À titre d'exemple, les écoles religieuses peuvent être financées par l'État dans une juridiction, mais pas dans une autre.

8. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Date de modification :

La Base de données ouvertes sur les établissements d'enseignement

Numéro de catalogue : 37-26-0001
Numéro d'exemplaire : 2022001

Base de données ouvertes sur les établissements d'enseignement

La Base de données ouvertes sur les établissements d'enseignement (BDOEE) est une collection de données ouvertes comprenant le nom, le type et l'emplacement d'établissements d'enseignement à l'échelle du Canada, et elle est accessible en vertu de la Licence du gouvernement ouvert – Canada.

La BDOEE regroupe des données qui proviennent principalement de portails de données ouvertes et de pages Web d'administrations municipales et provinciales. Cette base de données vise à accroître l'accès national à une collection harmonisée de micro-enregistrements touchant une variété de sujets d'intérêt public. Cet ensemble de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les intrants de la BDOEE sont, pour la majeure partie, des ensembles de données fournis par des sources municipales, régionales ou provinciales et qui sont accessibles au grand public par l'intermédiaire de portails ouverts gouvernementaux en vertu de divers types de licences de données ouvertes, ou sinon ces ensembles de données sont publiés sur leur site Web.

Plus particulièrement, la version actuelle de la BDOEE a été créée en rassemblant les microdonnées sur les établissements d'enseignement à partir des portails de données ouvertes, des sites Web provinciaux ou territoriaux (avec la permission des fournisseurs de données), et d'un ministère fédéral.

La version actuelle de la base de données (version 2.1) contient environ 19 000 enregistrements. La collecte de données auprès des fournisseurs de données indiqués ci-dessus a eu lieu d'août 2019 à mars 2022. Les ensembles de données individuels ont été recueillis auprès de leurs sources respectives, puis traités et harmonisés dans la BDOEE. Dans les ensembles de données originaux, chaque fournisseur de données a joint un ensemble de variables différent. Pour consulter la liste exhaustive des variables offertes par un fournisseur de données en particulier, veuillez consulter les sources originales. Vous trouverez un lien vers ces dernières dans le document de métadonnées qui accompagne la BDOEE.

Voici les variables comprises dans la BDOEE :

  • Nom de l'établissement
  • Type d'établissement
  • Nom de l'autorité
  • Niveau de la Classification internationale type de l'éducation (CITE)
  • Statut d'École des minorités de langues officielles (EMLO)
  • Adresse
  • Unité
  • Numéro de la rue
  • Nom de la rue
  • Nom de la municipalité
  • Province
  • Code postale
  • Identificateur unique de province
  • Nom de la subdivision de recensement.
  • Identificateur unique de la subdivision de recensement.
  • Nom de la région métropolitaine de recensement
  • Identificateur unique de la région métropolitaine de recensement
  • Longitude
  • Latitude
  • Source de géocodage
  • Identificateur source
  • Identificateur unique

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOEE.

Téléchargement de la BDOEE

Pour faciliter le téléchargement, la BDOEE et le document de métadonnées qui l'accompagnent sont en format de fichier CSV compressé.

Visualisation de la BDOEE

Le contenu de la BDOEE peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Date de modification :

La BDOI – Une base de données ouverte sur les immeubles expérimentale
Document de métadonnées : concepts, méthodologie et qualité des données

Version 2.0

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

Date de diffusion : le 1er mars 2019

Table des matières

1. Aperçu

En vue d'explorer l'utilisation des données ouvertes pour établir les statistiques officielles et de soutenir la recherche géospatiale dans divers domaines; des travaux ont été entrepris pour créer une base de données sur les empreintes d'immeubles qui soit accessible, harmonisée et axée sur les données ouvertes ayant été publiées par plusieurs ordres de gouvernement au CanadaNote de bas de page 1. Le présent document décrit en détail le processus de la collecte, de la compilation et d'uniformisation des divers ensembles de données sur les empreintes d'immeubles ayant servi à la création de la Base de données ouvertes sur les immeubles (BDOI), disponible en vertu de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (version 2.0), la BDOI contient environ 4,4 millions d'empreintes d'immeubles, par rapport à environ 4,3 millions d'empreintes dans la version 1.0. Cette hausse s'explique par l'ajout de quatre municipalités dans la version 2.0. Les quatre municipalités supplémentaires et leurs attributions respectives sont fournies à la fin de la table à l'annexe A. Cet ensemble de données vectorielles est fourni sous forme de fichier « shapefile » compressé à l'échelle provinciale ou territoriale.

L'ensemble de données est accessible à partir du site Web de Statistique Canada, à Données ouvertes sur les immeubles : une initiative exploratoire.

2. Sources de données

Plusieurs sources de données ont été utilisées pour créer la BDOI. Les fournisseurs de données qui comprennent les ordres de gouvernement municipal, régional et provincial sont indiqués dans le tableau 1. Les sources de données sont attribuées à leur fournisseur respectif, conformément aux exigences de la licence, à l'annexe A. Si applicable, la version de la licence est également indiquée. Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent aller consulter directement les portails de données ouvertes des fournisseurs de données en question

Tableau 1 : Liste des fournisseurs de données compris dans la version actuelle de la Base de données ouvertes sur les immeubles (BDOI)

Alberta

  1. Airdrie
  2. Banff
  3. Canmore
  4. Chestermere
  5. Cochrane
  6. Edmonton
  7. Grande Prairie
  8. Lethbridge
  9. Strathcona County

Colombie-Britannique

  1. Chilliwack
  2. Courtenay
  3. Kamloops
  4. Kelowna
  5. Nanaimo
  6. New Westminster
  7. North Vancouver
  8. Prince George
  9. Saanich
  10. Squamish
  11. Surrey
  12. Vancouver
  13. Victoria
  14. Whistler
  15. White Rock

Nouveau-Brunswick

  1. Fredericton
  2. Moncton
  3. Saint John

Territories du Nord-Ouest

  1. Yellowknife

Nouvelle-Écosse

  1. Cape Breton
  2. Halifax
  3. Nova Scotia

Ontario

  1. Barrie
  2. Brampton
  3. Brantford
  4. Burlington
  5. Caledon
  6. Cambridge
  7. Durham Region
  8. Guelph
  9. Hamilton
  10. Huron County
  11. Kingston
  12. Kitchener
  13. Muskoka
  14. Newmarket
  15. Niagara Falls
  16. Niagara Region
  17. Norfolk County
  18. Oakville
  19. Ottawa
  20. St. Catharines
  21. Toronto
  22. Waterloo
  23. Waterloo Region
  24. Welland
  25. York Region

Québec

  1. Longueil
  2. Montréal
  3. Québec
  4. Repentigny
  5. Rimouski
  6. Rouyn-Noranda
  7. Shawinigan
  8. Sherbrooke

Saskatchewan

  1. Regina

3. Période de référence

Idéalement, la période de référence aurait été la période à laquelle fait référence les données sur les immeubles. Malheureusement, ces renseignements ne sont généralement pas disponibles dans les portails de données ouvertes. À l'annexe A, on utilise donc plutôt la date du téléchargement de chaque ensemble de données municipal ayant servi à la création de la BDOI. Les données ont été recueillies dans les portails de données ouvertes entre janvier 2018 et août 2018 pour la version 1.0, et des données supplémentaires ont été recueillies en février 2019 pour la version 2.0.  Il est important de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la période de référence des données. Si un utilisateur a besoin de renseignements précis sur la période de référence des données, il doit communiquer avec le fournisseur de données approprié, indiqué à l'annexe A.

4. Population cible

Le but de la BDOI est de constituer un référentiel centralisé et harmonisé des empreintes d'immeubles dont les données proviennent de sources ouvertes de gouvernements d'un bout à l'autre du Canada. En compilant cette base de données, on a donné priorité aux immeubles où des activités importantes (p. ex. des activités économiques) sont susceptibles de se produire. Les empreintes inférieures à 10 m2 ont donc été supprimées, car on les juge trop petites pour intéresser la plupart des utilisateurs. Au fur et à mesure que le travail sur la BDOI expérimentale avance, les définitions et les seuils évoluent. Il est important de rappeler aux utilisateurs qu'il est toujours possible d'obtenir directement les données non modifiées dans les portails de données ouvertes des divers fournisseurs de données.

5. Méthodologie de compilation

Les ensembles de données individuels sur les immeubles ont été téléchargés du portail de données ouvertes respectif du gouvernement les ayant publiés. Les fournisseurs des 65 ensembles de données obtenus ont chacun joint un ensemble de variables différent pour l'empreinte d'immeubles. Seules les variables ayant été publiées par toutes les sources de données ont été incluses dans la base de données finale. Avant de fusionner l'ensemble de données, les données ont été uniformisés et nettoyés afin d'assurer l'harmonisation des mesures et des unités. Dans les rares cas où des ensembles de données municipaux se chevauchent sur le plan géographique, une zone-tampon de cinq mètres a été appliquée à l'un des ensembles de données, et tous les immeubles d'un autre ensemble de données qui empiétent sur cette zone-tampon ont été supprimés.

6. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOI exploratoire.

Variable – Identificateur de l'objet

Nom
OBJECTID (alias FID)
Format
Code d'identification de l'objet (spécifique à ArcGIS)
Source
Générée à l'interne lors du traitement des données
Description
Identification unique d'objet ou de champ générée automatiquement lors du traitement des données

Variable – Forme

Nom
Shape
Format
Géométrie (spécifique à ArcGIS)
Source
Générée automatiquement à partir des propriétés géométriques des ensembles de données polygonales
Description
Décrit le type de données vectorielles dans l'ensemble de données

Variable – Longitude

Nom
Longitude
Format
Double
Source
Générée d'après le centre du polygone de l'immeuble
Description
Longitude, en degrés décimaux, du centre du polygone de l'immeuble

Variable – Latitude

Nom
Latitude
Format
Double
Source
Générée d'après le centre du polygone de l'immeuble
Description
Latitude, en degrés décimaux, du centre du polygone de l'immeuble

Variable – Identificateur unique de la subdivision de recensement

Nom
SDRIDU
Format
Nombre entier
Source
Limites de la subdivision canadienne de recensement, 2016 (Produit GeoSuite de Statistique Canada)
Description
Numéro d'identification de la subdivision de recensement où l'immeuble est situé

Variable – Nom de la subdivision de recensement

Nom
SDRNOM
Format
Texte (chaîne)
Source
Limites de la subdivision canadienne de recensement, 2016 (Produit GeoSuite de Statistique Canada)
Description
Nom de la subdivision de recensement

Variable – Fournisseur de données

Nom
Fourn_donn
Format
Texte (chaîne)
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant
Description
Nom de la municipalité, région ou province/territoire ayant fourni l'ensemble de données

Variable – Identificateur unique de l'immeuble

Nom
Imm_ID
Format
Texte (chaîne)
Source
Générée en enchaînant l'identificateur unique de la subdivision de recensement avec un code séquentiel à 6 chiffres unique à chaque immeuble de cette subdivision de recensement
Description
Identificateur unique de chaque immeuble, d'après la subdivision de recensement où il est situé

Variable – Périmètre

Nom
Shape_Length
Format
Flottant
Source
Calculée à l'aide des attributs géométriques du polygone de l'immeuble
Description
Périmètre de l'immeuble en mètres (nom spécifique à ArcGIS)

Variable – Superficie

Nom
Shape_Area
Format
Flottant
Source
Calculée à l'aide des attributs géométriques du polygone de l'immeuble
Description
Superficie de l'immeuble en mètres carrés (nom spécifique à ArcGIS)

7. Cliché d'enregistrements

Voici un exemple de l'affichage des enregistrements en format tableau.

Un exemple de l'affichage des enregistrements en format tableau
OBJECTIDNote de bas de tableau 1 ShapeNote de bas de tableau 1 Longitude Latitude SDRIDU SDRNOM Fourn_donn Imm_ID Shape_Length Shape_Area
1 Polygon -115.561757 51.18907 4815035 Banff Banff 48150350000001 16.560241 16.963528
2 Polygon -115.569331 51.171372 4815035 Banff Banff 48150350000002 87.531972 330.625531
3 Polygon -115.569616 51.178173 4815035 Banff Banff 48150350000003 104.044015 573.938947
Note de bas de tableau 1

Les champs sont indexés automatiquement par le logiciel GIS utilisé lors du traitement.

Retour à la premiere référence de la note de bas de tableau 1

8. Exactitude des données

Toutes les empreintes d'immeubles de la BDOI sont tirées de sources gouvernementales de données ouvertes. En général, les ensembles de données obtenus des divers portails de données ouvertes ont été laissés tels quels, à l'exception d'un traitement d'uniformisation des sources afin de constituer une seule base de données. On prévient les utilisateurs que les méthodologies utilisées ainsi que la quantité de renseignements disponibles sur ces méthodologies varient d'un fournisseur de données à l'autre. Pour en savoir davantage sur les méthodologies d'un fournisseur de données, il suffit de visiter le site Web, dont le lien se trouve à l'annexe A.

Durant la phase du traitement des ensembles de données afin de créer la BDOI, plusieurs étapes ont été suivies pour accroître l'exactitude des données et l'uniformité des données de sortie. Quelques immeubles dont la géométrie a été jugée improbable ont été supprimés. Les variables calculées par les fournisseurs de données ont été recalculées à l'aide de géométries sous-jacentes afin d'assurer l'harmonisation des mesures et des unités (en particulier, la superficie et le périmètre de l'immeuble, et dans certaines mesures, la latitude et la longitude également). Rappelons aux utilisateurs que dans les cas où les ensembles de données d'origine se chevauchent sur le plan géographique, les résultats dépendent du choix de la largeur de la zone-tampon entre les deux ensembles (cinq mètres) et des segments d'immeubles qui seront supprimés pour éviter le dédoublement. Le choix des segments à conserver repose sur plusieurs facteurs heuristiques. La préférence a été accordée aux ensembles de données dont les polygones semblent être plus détaillés ou qui comptent un plus grand nombre d'immeubles.

La BDOI expérimentale ne contient que des données ouvertes gouvernementales qui sont disponibles au moment de la compilation, et ne doit donc pas être interprétée comme un répertoire exhaustif et objectif de tous les immeubles du Canada. Présentement, la BDOI ne couvre pas tout le Canada; la plupart des données viennent de plus grandes  villes canadiennes. La base de données contient encore des espaces vides, car il y a des régions pour lesquelles on n'a pas pu trouver de données ouvertes gouvernementales sur les immeubles.

9. Représentation géographique

La Base de données ouverte sur les immeubles (BDOI) est disponible sur le site Web de Statistique Canada, dans la représentation géographique suivante :

  • Projection : conique conforme de Lambert
  • Abscisse fictive : 6200000,000000
  • Ordonnée fictive : 3000000,000000
  • Méridien central : -91,866667
  • Parallèle standard 1 : 49,000000
  • Parallèle standard 2 : 77,000000
  • Latitude d'origine : 63,390675
  • Unité linéaire : mètre (1,000000)
  • Système de référence géodésique : nord-américain 1983 (NAD83)
  • Méridien d'origine : Greenwich
  • Mesure angulaire : degré
  • Sphéroïde : GRS 1980

Le Système de référence géodésique nord-américain de 1983 (NAD83) est une correction du Système de référence géodésique nord-américain de 1927 (NAD27) qui reflète plus de précision de l'arpentage géodésique.

Annexe A : Attributions de licence

Attributions de licence
Municipalité / région / province Province / territoire Version de la licence (si fournie) Lien vers la licence d'utilisation des données Date du téléchargement des données Énoncé d'attribution (en langue d'origine)
Banff Alb. 2.0 About Banff Open Data (anglais seulement) 22/01/2018 Contains information licensed under the Open Government Licence – Banff.
Barrie Ont. 1.0 Open Government Licence – Barrie (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – Barrie.
Brampton Ont.   City of Brampton Open Data Terms of Use (anglais seulement) 22/01/2018 Copyright © 2012, The City of Brampton (All rights reserved.) All intellectual property and other rights in and to the Dataset belong to the City of Brampton.
Brantford Ont. 1.0 Open Government Licence – Brantford (anglais seulement) 22/01/2018 Contains information licensed under the Open Government Licence – Brantford.
Burlington Ont.   Terms of Use for Open Data Burlington (anglais seulement) 22/01/2018 Contains information provided by the City of Burlington under Terms of Use for Open Data Burlington.
Caledon (Region of Peel) Ont. 1.0 Open Data Licence for The Regional Municipality of Peel (anglais seulement) 24/01/2018 Contains public sector Information made available under The Regional Municipality of Peel's Open Data Licence - Version 1.0.
Cambridge Ont. 2.0 City of Cambridge - Open Data Licence Version (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence City of Cambridge.
Canmore Alb.   Town of Canmore Open Data Licence (anglais seulement) 22/01/2018 Contains information licensed under the Town of Canmore Open Data Licence.
Cape Breton N.-É. 1.0 Open Data & Information Government Licence – PVSC & Participating Municipalities (anglais seulement) 07/02/2018 Contains information licensed under the Open Data & Information Government Licence PVSC & Participating Municipalities.
Chestermere Alb.   Chestermere Building Footprints (anglais seulement) 22/01/2018 Contains information made available by the city of Chestermere.
Chilliwack C.-B.   City of Chilliwack - Open Data - Terms of Use (anglais seulement) 22/01/2018 All right, title and interest (including all copyright, patent, and other intellectual property rights) remain vested in the City of Chilliwack at all times.
Cochrane Alb.   City of Cochrane - Open Data Licence (anglais seulement) 22/01/2018 Contains information licensed under the Open Data Licence – Town of Cochrane.
Durham Region Ont. 1.0 Region of Durham - Open Data Licence (anglais seulement) 21/03/2018 Contains public sector Information made available under The Regional Municipality of Durham's Open Data Licence.
Edmonton Alb. 2.1 City of Edmonton Open Data Terms of Use (anglais seulement) 22/01/2018 Contains information provided by the city of Edmonton under the City of Edmonton Open Data Terms of Use.
Fredericton N.-B.   New Brunswick - Open Data Policy (anglais seulement) 22/01/2018 Contient de l'information fournie par la ville de Fredericton.
Grande Prairie Alb. 1.0 City of Grande Prairie Open Data License (anglais seulement) 22/01/2018 Contains information licensed under the Open Data License – City of Grande Prairie.
Guelph Ont. 1.0 City of Guelph Open Government Licence (anglais seulement) 22/01/2018 Contains information provided by the City of Guelph under an open government license.
Halifax N.-É. 1.0 Halifax - Open Data Licence (anglais seulement) 24/01/2018 Contains information licenced under the Open Government Licence – Halifax.
Hamilton Ont. 1.1 Hamilton - Open Data Licence Terms and Conditions (anglais seulement) 22/01/2018 Contains public sector Data made available under the City of Hamilton's Open Data Licence.
Huron County Ont. 1.0 https://www.arcgis.com/home/item.html?id=2b3c6868201545b1aa50f87ee2b4d937 (anglais seulement) 20/03/2018 Contains information licensed under the Open Government Licence – The County of Huron.
Kamloops C.-B. 1.0 Open Government Licence - Kamloops (anglais seulement) 18/07/2018 Contains information licensed under the Open Government Licence - Kamloops.
Kelowna C.-B. 2 Open Government Licence - City of Kelowna (anglais seulement) 22/01/2018 Contains information licensed under the Open Government Licence City of Kelowna.
Kingston Ont. 1.0 City of Kingston Open Data Licence (anglais seulement) 22/01/2018 Contains information licensed under the Open Data Licence – City of Kingston.
Kitchener Ont. 1.0 Kitchener - Open data (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence - The Corporation of the City of Kitchener.
Lethbridge Alb. 1.0 City of Lethbridge - Open Data License (anglais seulement) 22/01/2018 Contains information licenced under the City of Lethbridge – Open Data License.
Longueuil Qc CC 4.0 Données Quebec - Licence Creative Commons (anglais seulement) 20/03/2018 Contient de l'information fournie par la ville de Longueuil et visée par CC BY.
Moncton N.-B.   Moncton - Terms of Use (anglais seulement) 24/01/2018 Contient de l'information fournie par la ville de Moncton sous les conditions d'utilisation de la ville de Moncton.
Montréal Qc CC 4.0 Données Quebec - Licence Creative Commons 22/01/2018 Contient de l'information fournie par la ville de Montréal et visée par CC BY.
Muskoka Ont. 1.0 District Municipality of Muskoka – Open Data Licence (anglais seulement) 24/01/2018 Contains information provided by the District Municipality of Muskoka under licence.
Nanaimo C.-B. 2.0 City of Nanaimo - Open Data Catalogue Licence (anglais seulement) 24/01/2018 Contains information licenced under the Open Government Licence – Nanaimo.
New Westminster C.-B. 1.0 New West Open Data - Licence (anglais seulement) 24/01/2018 Contains information licenced under the Open Government Licence - City of New Westminster.
Newmarket Ont. 1.0 Town of Newmarket Open Data Licence (anglais seulement) 24/01/2018 Contains information licensed under the Open Data Licence - Town of Newmarket.
Niagara Falls Ont.   Niagara Falls - Open Data - Terms and Conditions (anglais seulement) 07/02/2018 Contains publicly available information provided by the City of Niagara Falls under the City of Niagara Falls Terms of Use.
Niagara Region Ont. 2 Open Government License 2.0 (Niagara Region) (anglais seulement) 20/07/2018 Contains information licensed under the Open Government Licence - Niagara Region.
Norfolk County Ont.   Norfolk County's Open Data Licence (anglais seulement) 20/03/2018 Contains public sector Information made available under Norfolk County's Open Data Licence.
North Vancouver C.-B. 2.0 District of North Vancouver - Open Data - Buildings Metadata (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence - North Vancouver.
Nova Scotia N.-É. 1.0 Open Government Licence – Nova Scotia (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – Nova Scotia.
Oakville Ont.   Town of Oakville Open Data Licence (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – Town of Oakville.
Ottawa Ont. 2.0 Ottawa - Open Data Licence Version (anglais seulement) 24/01/2018 Contient de l'information visée par la Licence du gouvernement ouvert – Ville d'Ottawa.
Prince George C.-B. 2.0 Open Government License – City of Prince George (anglais seulement) 24/01/2018 Contains information licensed under the Open Government License – City of Prince George.
Québec Qc CC 4.0 Données Quebec - Licence Creative Commons 18/07/2018 Contient de l'information fournie par la ville de Québec et visée par CC BY.
Regina Sask.   Open Government Licence - City of Regina (anglais seulement) 24/01/2018 Contains information licenced under the Open Government Licence – City of Regina.
Repentigny Qc CC 4.0 Données Quebec - Licence Creative Commons 24/01/2018 Contient de l'information fournie par la ville de Repentigny et visée par CC BY.
Rimouski Qc CC 4.0 Données Quebec - Licence Creative Commons 18/07/2018 Contient de l'information fournie par la ville de Rimouski et visée par CC BY.
Saanich C.-B.   Saanich Data Catalogue Licence (anglais seulement) 24/01/2018 Contains information licenced under the Open Government Licence - District of Saanich.
Saint John N.-B. 01.0 Open Government Licence – City of Saint John (anglais seulement) 24/01/2018 Contient de l'information visée par la Licence du gouvernement ouvert – ville de Saint John.
Shawinigan Qc CC 4.0 Données Quebec - Licence Creative Commons 20/03/2018 Contient de l'information fournie par la ville de Shawinigan et visée par CC BY.
Sherbrooke Qc CC 4.0 Données Quebec - Licence Creative Commons 14/03/2018 Contient de l'information fournie par la ville de Sherbrooke et visée par CC BY.
Squamish C.-B. 2.0 District of Squamish - Open Data (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence - Squamish.
St. Catharines Ont. CC 4.0 Creative Commons - Attribution 4.0 International (anglais seulement) 07/02/2018 Contains information provided by the city of St. Catharines licensed under CC BY.
Strathcona County Alb. 1.0 Open Government Licence - Strathcona County (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – Strathcona County.
Surrey C.-B. 2.0 Open Government Licence - Surrey (anglais seulement) 24/01/2018 Contains information licensed under the Open Government License – City of Surrey.
Toronto Ont. 1.0 City of Toronto - Open Data Licence (anglais seulement) 22/01/2018 Contains information licensed under the Open Government License – Toronto.
Vancouver C.-B. 1.0 City of Vancouver - Open data catalogue (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – Vancouver.
Victoria C.-B. 1 City of Victoria - Open Data Licence (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – City of Victoria.
Waterloo Ont.   City of Waterloo - Open Data User Licence (anglais seulement) 24/01/2018 Contains information provided by the City of Waterloo under licence.
Waterloo Region Ont. 2.0 Region of Waterloo - Open Data (anglais seulement) 24/01/2018 Contains information provided by the Regional Municipality of Waterloo under licence.
Welland Ont. 2.0 Open Government Licence – City of Welland (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – City of Welland.
White Rock C.-B. 2.0 City of White Rock - Open Data (anglais seulement) 24/01/2018 Contains information licensed under the Open Government Licence – British Columbia.
Yellowknife T.N.-O. 1.0 City of Yellowknife - Open Data License & Terms of Use (anglais seulement) 24/01/2018 Contains public sector Datasets made available under the City of Yellowknife's Open Data License v.1.
York Region Ont. 1.0 York Region - Building Footprints (anglais seulement) 24/01/2018 Contains public sector Information made available under The Regional Municipality of York's Open Data Licence.
Ajouts dans la version 2.0
Airdrie Alb. 1.0 Open Data Licence - City of Airdrie (anglais seulement) 11/02/2019 Contains information licensed under the Open Data Licence – City of Airdrie
Courtenay C.-B. 2.0 Open Government Licence – City of Courtenay (anglais seulement) 11/02/2019 Contains information licensed under the Open Government Licence – City of Courtenay
Whistler C.-B. 2.0 Resort Municipality of Whistler - Open Data Portal Terms of Use (anglais seulement) 11/02/2019 Contains information licensed under the Open Government Licence – Resort Municipality of Whistler.
Rouyn-Noranda Qc CC 4.0 Données Quebec - Licence Creative Commons 11/02/2019 Contient de l'information fournie par la ville de Rouyn-Noranda et visée par CC BY.
Date de modification :

La Base de données ouvertes sur les immeubles

Numéro de catalogue : 34-26-0001
Numéro d'exemplaire : 2018001

La base de données ouvertes sur les immeubles

La Base de données ouverte sur les immeubles (BDOI) est une collection de données ouvertes sur les immeubles, en particulier les empreintes d'immeubles, disponible en vertu de la Licence du gouvernement ouvert du Canada.

La BDOI réunit 65 ensembles de données provenant de diverses sources gouvernementales de données ouvertes. Cette base de données vise à améliorer l'accès à un référentiel harmonisé des empreintes d'immeubles d'un bout à l'autre du Canada.

Sources de données et méthodologie

Les données d'entrée de la BDOI proviennent d'ensembles de données offerts au grand public par des sources municipales, régionales et provinciales par l'entremise de portails de gouvernement ouvert régis par divers types de licences de données ouvertes. La version actuelle (version 2.0) de la base de données contient environ 4,4 millions d'enregistrements et comprend des provinces et des territoires dont les données ouvertes sur les empreintes d'immeubles ont été recueillies durant la période de la collecte (de janvier à août 2018 pour la version 1.0, et en février 2019 pour les ajouts à la version 2.0).

Chaque ensemble de données a été téléchargé de son portail de données ouvertes respectif, puis traité et uniformisé avant d'être intégré à la BDOI. De l'ensemble de données d'origine, chaque fournisseur de données a son propre ensemble de variables sur les empreintes d'immeubles. Seules les variables qui peuvent être calculées et uniformisées pour toutes les empreintes, dépendamment du fournisseur ont été retenues. Pour consulter une liste complète des variables publiées par un fournisseur de données, il suffit de visiter le portail de données ouvertes, dont le lien se trouve dans le document de métadonnées qui accompagne la BDOI.

Les variables suivantes sont comprises dans la BDOI :

  • Latitude
  • Longitude
  • Superficie
  • Périmètre
  • Fournisseur de données
  • Identificateur unique de subdivision de recensement
  • Nom de la subdivision de recensement
  • Identificateur unique de l'immeuble

Pour de plus amples renseignements sur la manière dont les empreintes et les variables ont été compilées, veuiller consulter le document de métadonnées qui accompagne la BDOI.

Téléchargement de la BDOI

Pour faciliter le téléchargement, la BDOI et le document de métadonnées qui l'accompagnent sont divisés par province et par territoire en format de fichier shapefile compressé.

Date de modification :

Centre de statistiques sur le Canada et le monde

Le Centre de statistiques sur le Canada et le monde fournit des informations sur l'activité économique et financière du Canada avec le monde. Il regroupe des données provenant de plusieurs produits de Statistique Canada et les présente dans un seul outil d'analyse interactif.

L'information est présentée par thème, dont le commerce, l'investissement, l'emploi et les voyages. Le Centre de statistiques fournit aussi des liens vers des données et des renseignements plus détaillés concernant les définitions, les concepts et les méthodes.

Date de modification :