Tirer des avantages pour le public à partir des données administratives : une méthode d’amélioration de l’analyse à l’aide de données couplées
Par : Sarry Zheng et Howard Swerdfeger, École de la fonction publique du Canada
La vie quotidienne des Canadiens est de plus en plus façonnée par de nouvelles technologies et de nouveaux services qui sont fondés sur les données. En utilisant ces technologies et ces services, le gouvernement du Canada est en mesure d'accéder à des données provenant de sources multiples afin de mieux répondre aux besoins des citoyens et d'éclairer la prise de décisions.
L'Environnement de fichiers couplables de Statistique Canada est l'un des moyens permettant d'améliorer l'analyse. Il s'agit d'un environnement au niveau des entreprises qui permet de coupler les données administratives aux renseignements sur les entreprises et les particuliers dans l'ensemble du Canada. Cet outil permet d'accéder à des renseignements plus précis et à des analyses plus complètes. Il permet également de réduire le fardeau d'enquête et de réponse des ministères et des industries privées.
Qu'entend-on par données couplées?
Les données couplées découlent d'un processus par lequel les enregistrements de différentes sources de données sont réunis en un seul fichier à l'aide d'identificateurs comme le nom, la date de naissance, l'adresse et d'autres caractéristiques. Ce processus est également connu sous le nom de couplage d'enregistrements, d'appariement de données et de résolution d'entités, entre autres termes. L'idée initiale du couplage de données remonte aux années 1950. Cette technique est utilisée dans de nombreux domaines tels que l'entreposage de données, les renseignements organisationnels et la recherche médicale.
Types de couplage
Il existe deux types de couplage : l'appariement statistique et l'appariement exact.
- L'appariement statistique permet de créer un fichier qui reflète la répartition de la population sous-jacente. Les enregistrements qui sont combinés ne correspondent pas nécessairement à la même entité, comme une personne ou une entreprise. On suppose que la relation des variables dans la population sera semblable à la relation dans le fichier. Cette méthode est fréquemment utilisée dans les études de marché.
- L'appariement exact consiste à coupler les renseignements relatifs à un enregistrement particulier dans un fichier aux renseignements d'un autre fichier afin de créer un seul fichier contenant les renseignements exacts pour chaque enregistrement. Il en existe deux sous-types : le couplage d'enregistrements déterministe et le couplage d'enregistrements probabiliste.Note de bas de page 1
- Le couplage d'enregistrements déterministe permet de coupler des enregistrements à partir d'identificateurs communs entre les sources de données.
- Le couplage d'enregistrements probabiliste permet de coupler des enregistrements lorsque leurs colonnes ne sont pas toutes identiques, selon la probabilité que les enregistrements correspondent.
Couplage d'enregistrements probabiliste
Le couplage d'enregistrements probabiliste est une méthode pouvant servir à coupler des fichiers de données et à créer un ensemble de paires potentielles lorsqu'un ensemble de données ne contient pas d'identificateur unique, qu'il est incomplet ou qu'il comporte des erreurs. Comme nous pouvons le voir à la figure 1, les premiers enregistrements sont identiques, tandis que les deuxièmes et les troisièmes enregistrements correspondent, mais ne sont pas identiques. L'objectif de tout algorithme de couplage d'enregistrements probabiliste est de reproduire la capacité d'un être humain d'affirmer avec une grande certitude que ces entités sont les mêmes.
Description - Figure 1 Exemple d'ensembles de données à joindre pour effectuer un couplage probabiliste
Nom de l'entreprise | Adresse | Ville | Prov. | Code postal | No de permis | Nombre de produits |
---|---|---|---|---|---|---|
ABC inc. | 1072, rue Booth | Saskatoon | Sask. | S5P 1E4 | 1111 | 50 |
XYZ ltée | 118, Hammer Way | Richmond | C.-B. | V7A 5E5 | 1112 | 3 |
613 Canada inc. | 210, rue Glasgow | Ottawa | Ont. | K1A 0E4 | 1113 | 500 |
Appariement des identificateurs identiques, seuil de 97 %
Nom_entreprise | Addr. | Ville | Prov. | C.P. |
---|---|---|---|---|
ABC inc. | 1072, rue Booth | Saskatoon | Sask. | S5P 1E4 |
XYZ limitée | 118, Hammer Way | Richmond | C.-B. | V7A 5E5 |
613 Canada Incorporated | 10200 - 210, rue Glassgow | Ottawa | ON | K1A 0E4 |
Pratiques normalisées
L'un des outils que Statistique Canada utilise pour effectuer des couplages d'enregistrements probabilistes est le logiciel SAS appelé G-Coup. Ce logiciel représente une mise en œuvre directe de l'algorithme de couplage d'enregistrements de Fellegi-Sunter, qui est offert comme application Windows.
À mesure que la puissance de calcul s'accroît, ce qui permet de coupler de plus grands ensembles de données en moins de temps et de les rendre accessibles sur des ordinateurs de bureau, la mise au point de nouveaux modèles théoriques et l'amélioration des méthodologies et des logiciels existants sont de plus en plus répandues. Par exemple, la trousse d'outils de couplage d'enregistrements dans Python (anglais seulement) et l'outil reclin (anglais seulement) dans R sont deux exemples de logiciels ouverts faciles à utiliser qui s'intègrent bien à la méthode de couplage d'enregistrements de Fellegi-Sunter.
Algorithme de Fellegi-Sunter
Depuis sa publication, l'algorithme de Fellegi-Sunter (1969)Note de bas de page 2 est devenu l'approche utilisée de facto pour faire le couplage d'enregistrements probabiliste. Ce modèle consiste à estimer les poids d'appariement pour chaque colonne individuelle et à combiner ces poids d'appariement en une probabilité d'appariement globale. En supposant que les variables doivent être indépendantes étant donné l'état de l'appariement, on peut combiner le modèle avec le théorème de Bayes et le quantifier à l'aide de deux paramètres clés pour chaque colonne, soit les probabilités et , où :
- est la probabilité que les valeurs d'une colonne donnée ne correspondent pas, mais que les enregistrements soient les mêmes.
- est la probabilité que les valeurs d'une colonne donnée soient les mêmes, mais pas les enregistrements.
Selon le théorème de Bayes
où :
- est la probabilité d'un appariement d'enregistrements.
- est la probabilité d'appariement de certains éléments d'information.
En développant le dénominateur,
où :
- est la probabilité que deux enregistrements ne correspondent pas, ou .
Comme nous avons plusieurs colonnes ou plusieurs lignes de données disponibles, nous pourrions utiliser et pour calculer les probabilités et de la e colonne.
M. Yvan P. Fellegi a été statisticien en chef de Statistique Canada de 1985 à 2008. Au cours de son mandat, il a mis en application de nouvelles méthodes de collecte et de compilation de statistiques nationales. Il a aussi défendu haut et fort l'indépendance de l'organisme par rapport à la politique. En juin 2008, à la retraite de M. Fellegi, le Gouvernement canadien l'a nommé statisticien en chef émérite.
Comparaisons de chaînes
L'algorithme de Fellegi-Sunter a au moins un désavantage qui se règle habituellement lors des applications pratiques. Dans la pratique, pour de nombreuses colonnes, les probabilités et ne sont souvent pas fondées sur la probabilité que deux colonnes soient identiques, mais plutôt sur l'utilisation d'une fonction de distance appropriée pour mesurer la similarité entre deux colonnes, puis pour calculer le seuil. Les probabilités et seraient alors fondées sur ces seuils.
Pour les chaînes, il existe plusieurs fonctions de distance courantes, chacune pouvant être utile pour combiner des données et tenir compte des différences prévues (fautes d'orthographe) dans l'ensemble de données. Certaines de ces fonctions sont résumées ci-dessous :
Fonctions de distance | Nom de l'entreprise | Nom_entreprise |
---|---|---|
Jaro-Winkler | La société Odyssée d'Homère | La société Odyssée d'Homer |
Sous-chaîne commune la plus longue | La société Nain tracassin | Société Nain tracassin et fils |
Distance de Levenshtein | Quasimodo et Esmeralda inc. | Quazimodo et Ezmeralda inc. |
Cosinus | Les entreprises William « Bill » S. Preston et Ted « Theodore » Logan | Les entreprises Ted « Theodore » Logan et William « Bill » S. Preston |
Couplage d'unités lexicales | Cabinet d'avocats Legal Eagle | Legal Eagle (2017) avocats |
Couplage d'unités lexicales
Bien que la combinaison de l'algorithme de Fellegi-Sunter et de mesures traditionnelles de la distance des chaînes soit très utile, elle présente plusieurs lacunes possibles :
- Pour les colonnes qui comportent des niveaux catégoriques et qui ne sont pas réparties uniformément, seul le taux d'appariement moyen est pris en compte pour le paramètre u. Il faut penser à apparier la colonne de la ville avec la valeur « Williamstown », ce qui est bien plus porteur de renseignements que l'appariement de la valeur « Toronto ».
- La plupart des algorithmes de distance des chaînes fonctionnent sur le plan des caractères. Ils partent du principe que les distances sémantiques sont des fonctions des caractères qui composent une chaîne, tandis que, en français comme en anglais, l'information est transmise aux lecteurs par les mots.
L'algorithme de couplage d'unités lexicales et le progiciel R permettent de corriger ces problèmes. L'algorithme peut aider à relever les enregistrements où plusieurs niveaux catégoriques sont présents. Il permet également d'indiquer les colonnes comportant plusieurs mots à la fois, comme le nom ou l'adresse d'une entreprise.
L'algorithme de base consiste à accomplir les étapes suivantes :
- Segmentez en unités lexicales les mots dans la colonne et comptez les occurrences de chaque unité lexicale dans l'ensemble de données.
Description - Figure 2 : Mots segmentés en unités lexicales dans chaque colonne
Mots segmentés en unités lexicales dans chaque colonne id Addresse 1 742, Evergreen Terrace Springfield 2 19, rue Plympton, Springfield 3 744, Evergreen Terr, Springfield 4 100, Industrial Way Springfield … … Nettoyez et segmentez
Nettoyez et segmentez - Unités lexicales id Unité lexicale 1 742 1 Evergreen 1 Terrace 1 Springfield 2 19 2 Pympton 2 Rue 2 Springfield 3 744 3 Evergreen 3 Terrace … … Dénombrez les unités lexicales
Dénombrez les unités lexicales Unité lexicale N Springfield 24 Evergreen 12 Terrace 12 Plympton 6 Industrial 4 … … - Répétez la procédure de segmentation en unités lexicales et de dénombrement pour un autre ensemble de données.
- Créez une jointure externe complète pour les unités lexicales à deux mots.
Jointure externe complète pour les unités lexicales Unité lexicale N_a N_b U_prob Springfield 24 7 500 3,7% Evergreen 12 2 0,0005% Terrace 12 500 0,12% Plympton 6 1 0,00013% Industrial 4 8 0,00067% - Utilisez cette option pour estimer la probabilité pour chaque unité lexicale, où et représentent le nombre d'occurrences de l'unité lexicale t dans l'ensemble de données a ou b, et et représentent le nombre d'enregistrements dans l'ensemble de données a et b.
- Estimez la probabilité m dans son ensemble ou indépendamment pour chaque unité lexicale.
- Joignez le fichier fusionné des unités lexicales dénombrées aux deux ensembles de données originaux, en calculant la probabilité que deux enregistrements soient identiques étant donné qu'ils ont une unité lexicale en commun.
Voici quelques-unes des limites de la technique de couplage d'unités lexicales :
- Comme toutes les méthodes liées à l'algorithme de Fellegi-Sunter, cette technique présuppose que les éléments d'information sont indépendants. Le couplage d'unités lexicales part du principe que les mots sont indépendants. Par exemple, alors que les mots « recherche et développement » apparaissent souvent ensemble et ne devraient pas être traités indépendamment, cet algorithme traiterait ces mots comme des unités indépendantes et distinctes.
- Cet algorithme ne tient pas compte de l'ordre des mots. Ainsi, la combinaison « Bill et Ted » serait considérée comme identique à « Ted et Bill ».
- L'algorithme a de la difficulté à trouver des correspondances si une simple faute d'orthographe se trouve dans un mot d'identification important. Par exemple, cet algorithme pourrait avoir plus de difficulté à trouver la paire d'enregistrements « café Starbucks » et « Café Starbacks » que la paire d'enregistrements « café Starbucks coffee » et « Cofé Starbucks ».
Pour en savoir plus sur cette technique, consultez TokenLink sur GitHub (en anglais).
Pour commencer
L'Environnement de fichiers couplables (EFC) de Statistique Canada offre un soutien aux utilisateurs et aux partenaires pour leurs recherches et leurs rapports selon le principe du recouvrement des coûts. Pour en savoir plus sur ce service offert, communiquez avec l'équipe de l'EFC.
Les ministères qui souhaitent extraire de la valeur des données sur leurs parties réglementées en utilisant des données couplées doivent tenir compte de trois choses.
Identificateurs uniques
Songez à recueillir des identificateurs uniques, comme le numéro d'entreprise, auprès de vos parties réglementées. Bien qu'il soit possible de coupler des données sans identificateurs uniques au moyen de caractéristiques comme le nom ou l'adresse de l'entreprise, cela peut entraîner des erreurs dans le processus de couplage. Le taux d'erreur est souvent lié à la qualité des données et au mécanisme de collecte des données.
Statistiques sommaires
Déterminez quelle mesure sommaire demander. S'il existe un risque d'erreur dans le processus de couplage, certaines mesures sommaires sont plus efficaces que d'autres pour prévenir les valeurs aberrantes. Comme mesures de la tendance centrale et de la variation, pensez à demander la médiane et l'intervalle interquartile plutôt que la moyenne arithmétique et l'écart-type, car les deux premières mesures sont plus efficaces que les deux dernières pour prévenir les valeurs aberrantes.
Granularité et taille des données
Tenez compte des éventuelles suppressions de données. Si un ministère demande que les données soient résumées à un niveau très détaillé et qu'il n'y a pas un grand nombre de parties réglementées, il se pourrait qu'on supprime les cellules d'un tableau sommaire pour protéger la confidentialité des entités et se conformer à la Loi sur la statistique. En général, plus les ensembles de données sont grands, plus le niveau d'agrégation des données peut être affiné.
Remerciements
L'Environnement de fichiers couplables de Statistique Canada; Zhuo (Sarah) Zhang, Robert Dorling, Ministre des pêches et océans Canada
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Jeudi, le 17 novembre
14 h 00 à 15 h 00 HNE
MS Teams – le lien sera fourni aux participants par courriel
Inscrivez-vous à la présentation Rencontre avec le scientifique des données. À bientôt !
- Date de modification :