Le recueil du symposium est disponible. Veuillez consulter la page du catalogue de la série des symposiums internationaux de Statistique Canada : receuil pour accéder aux articles des présentations.
Toutes les heures indiquées dans l'horaire correspondent à l'Heure avancée de l'est (HAE) : UTC-4
Jeudi 3 novembre 2022
09 h 45 – 10 h 00
Mot d'ouverture
- Eric Rancourt, Directeur General, Direction des méthodes statistiques modernes et Science des données, Statistique Canada, Canada
10 h 00 – 11 h 00
Séance 1 -- Discours principal
Président de session : Eric Rancourt
- Briser le cycle de l'invisibilité dans les données
Grace Sanico Steffan, Nations Unies Haut-Commissariat aux droits de l'homme (HCDH), Suisse-
Résumé
Pendant trop longtemps, de nombreux États ont été réticents à recueillir des données désagrégées sur de nombreuses questions relatives aux droits de la personne et aux groupes marginalisés. Par exemple, le manque de données désagrégées par race ou origine ethnique, ainsi que par genre, par âge et par d'autres facteurs, masque l'incidence disproportionnée de certaines lois, politiques et pratiques sur les groupes raciaux ou ethniques, dans tous les domaines de la vie, du logement et de l'éducation à l'emploi, à la santé et au système de justice pénale. Cela entrave également l'élaboration de réponses législatives et politiques faisant écho aux expériences vécues des groupes raciaux ou ethniques et aux formes intersectionnelles de discrimination raciale et aux autres formes de discrimination auxquelles ils sont confrontés. Le manque de données désagrégées sur la réalisation des droits fondamentaux, comme l'alimentation, l'eau et l'assainissement, le logement et la santé, illustre les modalités cachées de l'oubli des groupes marginalisés.
Le travail du secteur des droits de la personne de l'ONU sur des indicateurs en la matière vise à mettre à disposition des indicateurs pertinents, fiables et comparables internationalement sur les progrès (ainsi que sur les retards) dans la jouissance des droits de la personne par toutes et tous. La note d'orientation de l'ONU sur l'approche des données fondée sur les droits de la personne (ADPBD) montre comment les données peuvent être produites, conformément aux normes internationales en matière de droits de la personne et de statistiques, tout en plaçant les personnes au centre. Ce travail attire l'attention sur les droits de la personne et sur leurs contributions pratiques et normatives pour assurer une participation suffisante, en particulier des groupes vulnérables et à risque, à toutes les étapes du cycle de vie des données. Cette approche améliore également la visibilité autour des groupes laissés pour compte et renforce l'égalité et la non-discrimination. La ADPBD met en évidence le lien entre les normes relatives aux droits de la personne et les principes éthiques et professionnels propres aux données, en particulier les Principes fondamentaux de la statistique officielle. Elle s'articule autour de six principes clés : la participation, l'auto-identification, la désagrégation des données, la confidentialité, la transparence et la reddition de comptes que les systèmes statistiques nationaux doivent opérationnaliser. En outre, grâce à la ADPBD, la communauté statistique peut fournir des statistiques pertinentes, ce qui constitue un bien public et s'avère essentiel pour respecter le droit des personnes à l'information.
-
11 h 00 -- 11 h 15
Pause du matin
11 h 15 -- 12 h 45
Séance 2A -- Échantillonnage des populations difficiles à atteindre
Président de session : François Brisebois
- Échantillonnage des populations difficiles à atteindre
Mark S. Handcock, Université de Californie à Los Angeles, États-Unis-
Résumé
Dans de nombreuses situations, les stratégies habituelles d'échantillonnage d'enquête échouent parce que les populations cibles ne sont pas accessibles par l'intermédiaire de bases de sondage bien définies. En général, on ne dispose pas de base de sondage pour la population cible dont les membres sont peu nombreux ou stigmatisés au sein de la population dans son ensemble, de sorte qu'il est extrêmement coûteux de communiquer avec eux par l'intermédiaire des bases disponibles. Nous abordons des problèmes statistiques liés à l'étude de populations difficiles à atteindre ou « cachées ». Ces populations se caractérisent par la difficulté d'établir, à partir d'elles, des échantillons d'enquête à l'aide de méthodes probabilistes standard. Dans un contexte démographique, on peut notamment citer, comme exemples de telles populations, les travailleurs non réglementés et les migrants. Dans un contexte comportemental et social, on peut notamment citer, comme exemples de telles populations, les consommateurs de drogues injectables, les hommes ayant des rapports sexuels avec des hommes et les travailleuses du sexe. Les populations difficiles à atteindre sont mal desservies par les méthodologies d'échantillonnage actuelles, principalement en raison du manque de solutions de rechange pratiques pour résoudre ces difficultés méthodologiques. Nous nous concentrerons sur les populations pour lesquelles une certaine forme d'information sur les réseaux sociaux peut être utilisée pour faciliter la collecte de données. Dans de telles situations, des méthodes statistiques sophistiquées sont nécessaires pour permettre de déduire les caractéristiques de la population à partir des données recueillies. Nous examinons l'échantillonnage temps-emplacement, l'échantillonnage en réseau adaptatif, y compris l'échantillonnage axé sur les répondants, ainsi que les méthodes indirectes et les métaméthodes. Nous abordons également des méthodes assistées par modèle et des idées de capture-recapture. Il s'agit d'un travail conjoint avec Ian E. Fellows, Krista J. Gile et Henry F. Raymond.
-
11 h 15 -- 12 h 45
Séance 2B – Stratégies de contrôle de la divulgation pour des données désagrégées
Président de session : Steven Thomas
- Contrôle de la divulgation statistique et groupes présentant un intérêt particulier : une perspective européenne
Peter-Paul de Wolf, Statistics Netherlands, Pays-Bas-
Résumé
Dans le contexte de la disponibilité de sources de données plus vastes et plus diverses, telles que les données administratives, les instituts statistiques en Europe sont enclins à publier des statistiques sur des groupes plus petits qu'auparavant. En outre, des épisodes mondiaux à forte incidence, comme la crise de la COVID-19 et la situation en Ukraine, peuvent également nécessiter des statistiques sur des groupes particuliers de personnes. La publication sur de petits groupes ciblés soulève non seulement des questions sur la qualité statistique des chiffres, mais aussi sur le risque de divulgation statistique. Le principe du contrôle de la divulgation statistique ne dépend pas de la taille des groupes sur lesquels les statistiques sont basées. Cependant, le risque de divulgation dépend de la taille du groupe : plus un groupe est petit, plus le risque est élevé. Les méthodes traditionnelles de gestion du contrôle de la divulgation statistique et de la taille réduite des groupes comprennent la suppression de données et le regroupement des catégories (c'est-à-dire, leur agrégation). Pour l'essentiel, ces méthodes consistent à augmenter la taille (moyenne) des groupes. Des approches plus récentes incluent des méthodes de perturbation des données visant à maintenir des groupes de petite taille, tout en réduisant suffisamment le risque de divulgation. Dans cet article, nous mentionnerons quelques exemples européens de statistiques sur des groupes présentant un intérêt particulier et évoquerons les implications sur le contrôle de la divulgation statistique. Nous aborderons, en outre, certains problèmes liés à l'utilisation de méthodes de perturbation des données, à savoir leur incidence sur le risque de divulgation et sur l'utilité, ainsi que les défis liés à une bonne communication à ce sujet.
-
- Méthodologie de vérification automatisée pour contrôler les risques de divulgation de résultats de recherche sur des microdonnées
Joseph Chien, Australian Bureau of Statistics, Australie-
Résumé
L'Australian Bureau of Statistics (ABS) s'est engagé à améliorer l'accès aux microdonnées personnelles et d'entreprises grâce à son laboratoire de données virtuel (le DataLab). Le DataLab aide les chercheurs à entreprendre des recherches complexes et le nombre de sessions a considérablement augmenté depuis 2019-2020 : il a atteint 15 520 sessions en 2020-2021 et 24 037 sessions en 2021-2022. Pour garantir le respect des règles de confidentialité et de protection de la vie privée, les résultats du DataLab doivent respecter des procédures strictes, afin de minimiser les risques de divulgation. Actuellement, les autorisations de sortie consistent en un processus de vérification manuel qui n'est ni tranposable à grande échelle, ni économiquement performant, ni exempt d'erreur humaine. Il existe également un risque que le nombre croissant de résultats, issus de différents projets, puisse potentiellement introduire des risques de divulgation résiduelle, même si ces résultats ont individuellement satisfait aux critères stricts en la matière. Pour automatiser le processus et rendre la vérification des résultats transposable à grande échelle, l'ABS a exploré la possibilité de fournir des outils de vérification des résultats utilisant sa méthodologie de perturbation des données, en vue de garantir que les résultats des différents projets sont systématiquement protégés, minimisant ainsi les risques de divulgation résiduelle et réduisant les coûts associés à la vérification des résultats.
-
- Limitation de la divulgation statistique et publications renforçant l'équité : Quelques exemples du Recensement de 2020
John M. Abowd, United States Census Bureau, États-Unis-
Résumé
L'une des principales utilisations légales des données du recensement décennal aux États-Unis est de fournir des données sur la population, la race et l'ethnicité suffisamment granulaires pour étayer le redécoupage des circonscriptions électorales. Les principaux défis en matière d'exactitude sont liés au respect des exigences « une personne, un vote » (dénombrement égal dans les circonscriptions) et « protection égale » (circonscriptions qui soutiennent les droits de vote des minorités tels que définis dans la loi sur les droits de vote de 1965). Le principal défi concernant la limitation de la divulgation est l'exigence de publier les données avec une granularité géographique suffisante pour que de nouvelles circonscriptions électorales, qui peuvent avoir des populations très hétérogènes allant de moins de 1 000 personnes à plus de 1 000 000 de personnes, puissent être tirées d'une même publication de données. Le U.S. Census Bureau travaille avec une organisation non partisane (la National Conference of State Legislatures), tout au long de la décennie précédant un recensement de la population, pour définir les besoins en matière de données. Depuis 1990, ceux-ci incluent la publication, au niveau de l'îlot de recensement, d'une désagrégation géographique avec une population moyenne d'environ 50 personnes (avec des îlots présentant au moins une unité d'habitation ou des logements collectifs). Cet article explique comment le fichier résumé des données de redécoupage du recensement de 2020 (P.L. 94-171) a abordé ce double défi.
-
- Risque d'attaque par reconstruction en utilisant les données de recensement de Statistique Canada
Matthew Abado et George Steffan, Statistique Canada, Canada-
Résumé
La publication de données présentant un degré de désagrégation plus important peut accroître la transparence et fournir des renseignements importants sur les groupes sous-représentés. L'élaboration d'options d'accès plus facilement disponibles augmente la quantité de renseignements disponibles pour les chercheurs ainsi que la quantité d'information qu'ils peuvent produire. Accroître l'étendue et la profondeur de l'information diffusée permet une meilleure représentation de la population canadienne, mais impose également à Statistique Canada une plus grande responsabilité quant à la manière dont cela est fait, qui se doit de préserver la confidentialité; il est donc utile d'élaborer des outils qui nous permettent de quantifier le risque lié à la granularité accrue des données.
Afin d'évaluer le risque d'une attaque par reconstruction de base de données sur les données de recensement publiées par Statistique Canada, nous appliquons la stratégie du U.S. Census Bureau, qui met en avant une méthode qui utilise un solveur de satisfaisabilité booléenne (SAT) pour reconstruire les attributs individuels des résidents d'un îlot hypothétique du recensement américain, basé uniquement sur un tableau de statistiques récapitulatives. Nous prévoyons d'étendre cette technique pour tenter de reconstruire une petite fraction des microdonnées de recensement de Statistique Canada. Dans cette présentation, nous aborderons nos conclusions, les défis liés à l'élaboration d'une attaque par reconstruction et l'effet de nos mesures de confidentialité existantes pour atténuer ces attaques. En outre, nous prévoyons de comparer notre stratégie actuelle à d'autres méthodes potentielles utilisées pour protéger les données, en particulier la publication de données tabulaires perturbées par un mécanisme aléatoire, tel que la confidentialité différentielle.
-
11 h 15 -- 12 h 45
Séance 2C – Aborder les données désagrégées en pratique
Présidente de session : Hélène Bérard
- L'enquête Trajectoires et Origines 2 : les défis posés par une enquête sur la diversité des populations en France
Odile Rouhban et Jérôme Lê, Institut National de la Statistique et des Études Économiques, France-
Résumé
L'enquête Trajectoires et Origines 2 a été menée par l'Insee (Institut national de la statistique et des études économiques) et l'Ined (Institut national d'études démographiques) en 2019-2020 afin de mieux connaitre les parcours et les conditions de vie des immigrés et descendants d'immigrés en France. Comme la première édition (2008-2009), l'enquête se veut représentative des grands groupes d'immigration présents en France et de leur descendance. L'enquête menée il y a dix ans a permis de très nombreuses études et travaux de recherche croisant des thèmes variés : trajectoires migratoires, accès à l'emploi, éducation, vie conjugale, opinions politiques et religieuses, expériences de discrimination. L'enjeu de cette nouvelle édition était de rester dans la continuité de la première enquête, et d'observer les évolutions concernant ces problématiques, tout en prenant en compte les nouveaux groupes d'immigration émergents en France et en identifiant les petits-enfants d'immigrés.
La réalisation de TeO2 traduit la multiplicité des enjeux de cette enquête et la complexité pour la statistique publique d'identifier et de cibler la population ayant un lien à la migration. Dès la genèse de l'enquête, le processus de validation auprès du Conseil national de l'information statistique a donné lieu à de nombreux débats sur les statistiques ethniques en France, puis sur l'identification des petits-enfants d'immigrés. Ensuite, d'un point de vue méthodologique, la difficulté à identifier les populations-cible dans les données existantes a requis des stratégies d'échantillonnage innovantes. Au cours de la collecte, la spécificité des populations interrogées (plus mobiles, non francophones) a nécessité des protocoles spécifiques pour aller chercher des individus parfois difficiles à atteindre. Enfin, la chaîne de redressement et de pondération a dû prendre en compte la complexité des échantillons construits pour l'enquête.
-
- Les enfants qui naissent en situation de vulnérabilité: défis rencontrés dans une enquête longitudinale québécoise
Catherine Fontaine, Karine Dion, Institut de la statistique du Québec, Canada-
Résumé
Grandir au Québec, également appelée Étude longitudinale des enfants du Québec, 2ème édition (ELDEQ 2) est une enquête probabiliste de la population qui a débuté au printemps 2021. Elle vise à suivre le développement d'environ 4 500 enfants du Québec dès l'âge de 5 mois. La première édition de l'étude (ELDEQ 1), débutée en 1998, a permis d'identifier des facteurs expliquant la vulnérabilité observée dans le développement de certains enfants. Entre autres, Desrosiers et Ducharme (2006) ont montré que les enfants issus de familles économiquement défavorisées ou ayant une mère peu scolarisée ont plus de chances d'afficher un retard sur le plan du vocabulaire à la maternelle. Les constats issus de l'ELDEQ1, la prise en compte de la littérature ainsi que la consultation d'experts en développement de l'enfant ont concouru à prendre l'orientation suivante pour la réalisation de la seconde étude: une sous-population d'intérêt composée d'enfants vulnérables devrait pouvoir être étudiée dans le temps avec un bon niveau de précision. Appelée « les enfants nés en situation de pauvreté socioéconomique », cette sous-population a présenté maints défis quant à sa définition, sa mesure et son niveau de participation lors de la première année de collecte de données de cette nouvelle étude. La présentation exposera la manière dont Grandir au Québec a placé ce sous-groupe d'enfants au coeur de ses préoccupations, de la conception de la méthodologie jusqu'aux stratégies de collecte, ajustées pour tenir compte des contraintes découlant de la pandémie de COVID-19.
-
- Vers un système de données statistiques intégrées sur l'éducation et la formation
Giovanna Brancato, Donatella Grassi, Claudia Busetti, Italian National Statistical Institute (ISTAT), Italie-
Résumé
L'éducation et la formation sont un facteur clé pour la croissance d'une société et un des secteurs avec des investissements élevés dans le plan national italien de redressement et de résilience établi pour se remettre de la crise liée à la pandémie de COVID-19. Il s'agit d'un phénomène complexe, dont les déterminants sont attribuables à plusieurs conditions familiales et socio-économiques interdépendantes, nécessitant ainsi des renseignements statistiques à l'appui pour l'élaboration de politiques et leurs processus de surveillance. L'Institut national italien de la statistique (Istat) conçoit un registre statistique thématique sur l'éducation et la formation (TRE&T). Il suit le parcours des personnes du préprimaire à l'enseignement supérieur, marquant les événements pertinents dans la vie de l'étudiant (réalisations, changements de programme, stages, décrochages, etc.). Il comprend également des données sur les facteurs touchant l'éducation et la formation, p. ex. les aptitudes d'apprentissage, les caractéristiques des institutions d'éducation et de formation et de leur personnel, et les conditions socio-économiques. Le TRE&T fait partie d'un système Istat plus important de registres statistiques, ce qui permet de relier les données sur l'éducation et la formation avec des renseignements d'autres registres, p. ex. des événements démographiques, la profession et le revenu. De nombreux problèmes de méthodologie et de qualité doivent être résolus lors de la conception et de la mise en œuvre du TRE&T. Premièrement, la couverture doit être évaluée et ajustée en intégrant des microdonnées du registre aux macro-données d'autres sources. Le suivi en amont et en aval des individus est traité pour corriger le couplage d'enregistrements et les exigences en matière de protection de la vie privée. L'intégration des sources peut mener à un manque de cohérence des microdonnées et à une incohérence des estimations, lesquelles doivent être correctement gérées lors du processus de production statistique. Le TRE&T fournira, conjointement avec un système réaménagé d'enquêtes sur l'éducation et la formation, le nouveau paradigme de la production statistique sur le sujet.
-
- Nouvelles mesures désagrégées de la disparité en matière de santé entre les groupes dans des données d'enquête complexes
Mark Louie F. Ramos, Barry I. Graubard, Joseph L. Gastwirth, National Cancer Institute, États-Unis-
Résumé
Les disparités en matière de santé entre des groupes raciaux ou ethniques, ou des groupes avantagés ou désavantagés sur le plan socio-économique peuvent être particulièrement difficiles à mesurer à l'aide de statistiques de tendance centrale tel que la moyenne ou la médiane. Par exemple, même de petites différences inter-groupes de la moyenne de variables de santé pertinentes, comme l'indice de masse corporelle (IMC), peuvent indiquer une disparité importante vécue de manière systémique entre les membres d'un groupe comme le montrent les différences dans les quantiles relatifs de la distribution de l'IMC. Dans cette étude, nous adaptons les transformations de la courbe de Lorenz et un analogue de l'indice de Gini, proposé par Gastwirth (2016) pour l'analyse des inégalités en matière de revenus, pour fournir des graphiques et certaines mesures analytiques des disparités en matière de santé entre de tels groupes. Un peu comme l'idée derrière la méthode classique de régression de Peters-Belson pour le partitionnement de la disparité à l'aide de covariables explicatives, cette approche décrit le comportement de la variable de la santé pour le groupe désavantagé lorsqu'elle est appliquée au groupe avantagé et quantifie l'ampleur de la disparité potentiellement attribuable à l'appartenance au groupe. Les équations d'estimation pour la courbe de Lorenz et l'indice de Gini pour les données obtenues des enquêtes sur échantillon complexes obtenues par Binder et Kovacevic (1995) sont modifiées pour tenir compte de l'utilisation du groupe avantagé comme distribution de référence. Les approches de l'estimation des variances des mesures proposées sont explorées à l'aide d'études de simulation. Le nouveau diagramme et les mesures connexes sont utilisés pour comparer l'IMC de femmes de divers groupes raciaux ou ethniques dans la National Health and Nutrition Examination Survey (NHANES) aux États-Unis. Si le temps le permet, des analyses similaires d'autres disparités en matière de santé seront décrites.
-
- Créer un panel pour mieux comprendre les expériences de diverses populations au Canada
Agnes Waye et Cilanne Boulet, Statistique Canada, Canada-
Résumé
En 2021, Statistique Canada a lancé le Plan d'action sur les données désagrégées, une initiative pluriannuelle pour renforcer des méthodes de collecte de données plus représentatives, améliorer les statistiques sur diverses populations afin de mener des analyses intersectionnelles et appuyer les efforts du gouvernement et de la société visant à atténuer les inégalités connues et à intégrer les facteurs d'égalité et d'inclusion dans la prise de décisions. Dans le cadre de cette initiative, nous montons une série d'enquêtes sur les gens et leurs communautés, un nouveau panel probabiliste conçu précisément pour recueillir des données qui peuvent être désagrégées selon le groupe de minorités visibles. Ce nouvel outil nous permettra de combler les lacunes dans les données et de répondre aux questions émergentes relatives à la diversité. Cette présentation donnera un aperçu de la conception d'une série d'enquêtes sur les gens et leurs communautés.
-
12 h 45 – 13 h 15
Pause de l'après-midi
13 h 15 – 14 h 45
Séance 3A – Méthodes de nouvelle génération fondées sur les données pour la science de l'équité - Séance de table ronde
Animateur : Andrew Gibson, Agence de la santé publique du Canada, Canada
-
-
Résumé
Les inégalités découlant de la colonisation, du racisme et de la pauvreté, les inégalités fondées sur le genre ainsi que d'autres structures sociétales oppressives et discriminatoires sont au nombre des grandes préoccupations de bien des gens. Différentes initiatives sont lancées pour aborder les conséquences et les causes sous-jacentes de ces inégalités. Toutefois, les chercheurs et les décideurs constatent que les méthodes servant à mesurer et à éliminer les inégalités ne sont pas encore parfaitement adéquates pour permettre de pleinement appuyer cet effort. D'importants travaux sont en cours pour améliorer la situation, ce qui inclut notamment le perfectionnement des méthodes de désagrégation des données. Mais qu'est-ce que l'avenir nous réserve? Quelles sont les méthodes de prochaine génération fondées sur les données qui pourraient servir pour la science de l'équité et que nous n'utilisons pas encore, mais qui présentent un grand potentiel à court, à moyen et à long terme, et de quoi avons‑nous besoin pour pouvoir recourir à ces méthodes? Au cours de la table ronde, nous allons évoquer et commenter ce que l'avenir nous réserve dans ce domaine d'études. Andrew Gibson, directeur exécutif pour la science des données à l'Agence de la santé publique du Canada, présentera les participants et animera la discussion. Les participants sont :
- Fatima Mussa (gestionnaire de projet, Institut de la santé publique et des populations, Instituts de recherche en santé du Canada) discutera des éléments nécessaires pour faire progresser les méthodes dans le domaine de la science de l'équité, ainsi que de la façon dont les personnes et entités qui financent les travaux de recherche peuvent appuyer l'innovation dans ce domaine.
- Eric Rancourt (directeur général, Direction des méthodes statistiques modernes et Science des données, Statistique Canada) parlera de la manière dont les approches et les cadres traditionnels doivent être adaptés ou élargis afin que l'on puisse y intégrer des méthodes modernes tout en veillant constamment à ce que les données puissent mener à des conclusions valides.
- Ayaz Hyder, Ph. D. (professeur adjoint, département des sciences de la santé environnementale, College of Public Health, et Core Faculty, Translational Data Analytics Institute, Université d'État de l'Ohio) abordera les moyens d'opérationnaliser la valeur fondamentale de l'équité en vue de mobiliser les collectivités, et d'élaborer et de traduire des outils d'analyse de données et de modélisation informatique, puis de les mettre en pratique dans le domaine de la santé publique.
- Wanda Phillips-Beck, Ph. D. (chercheuse boursière dans le cadre du programme Seven Generations, First Nations Health and Social Secretariat of Manitoba) présentera la façon dont la mise en place de cadres de rechange, tels que les méthodologies de recherche autochtones, et l'opérationnalisation et la mise en pratique des valeurs fondamentales de respect, d'honnêteté et d'humilité dans le contexte du couplage de mégadonnées et de l'élaboration de plateformes de modélisation des maladies constituent une manifestation concrète de l'équité.
Chaque participant disposera de 10 minutes pour présenter son sujet, ce qui sera suivi d'une discussion en groupe.
-
13 h 15 – 14 h 45
Séance 3B -- Intégration de données
Président de session : Wesley Yung
- Analyse secondaire des données catégoriques couplées
Li-Chun Zhang, University of Southampton, Royaume-Uni-
Résumé
Le couplage est important pour l'intégration des données provenant de sources différentes. Cependant, les faux liens et les liens manqués sont généralement inévitables sans clés d'identification, ce qui peut entraîner des inférences trompeuses si les données couplées sont traitées comme s'il s'agissait de véritables observations conjointes. Nous considérons l'analyse des données catégoriques couplées du point de vue de l'utilisateur secondaire, les données couplées devant être préparées par quelqu'un d'autre, ni les variables de la clé de correspondance ni les enregistrements non liés n'étant disponibles pour l'analyste. En particulier, notre approche permet aux probabilités de couplage correct de varier d'un enregistrement à l'autre, sans supposer que l'on puisse estimer cette probabilité pour des enregistrements couplés individuels, et elle s'adapte à la situation générale dans le cadre de laquelle les fichiers distincts à coupler sont de tailles différentes, chacun d'eux contenant des enregistrements qui ne peuvent pas être couplés correctement. L'apparieur de données doit simplement fournir une estimation du taux global d'erreur de couplage dans l'ensemble de données couplées en question. Des méthodes de régression logistique, de test d'indépendance et de modélisation log-linéaire des tableaux de contingence sont élaborées, illustrées et appliquées.
-
- Intégration de données calées de façon multiple d'après le biais
Jae-Kwang Kim, Iowa State University, États-Unis-
Résumé
L'inférence statistique valide est notoirement difficile lorsque l'échantillon est sujet à un biais de sélection. Nous abordons ce problème difficile en utilisant plusieurs modèles candidats pour la fonction de score de propension combinée à la vraisemblance empirique. En intégrant plusieurs modèles de score de propension (SP) dans la contrainte de calage du biais interne dans la configuration de vraisemblance empirique, le biais de sélection peut être éliminé en toute sécurité, tant que les modèles candidats multiples contiennent le véritable modèle de SP. La contrainte de calage du biais pour le modèle multiple de SP dans la vraisemblance empirique est appelée le calage multiple d'après le biais. Les modèles multiples de SP peuvent inclure à la fois des modèles ignorables et non ignorables. Dans le cadre de la configuration de l'intégration de données, les conditions d'un calage multiple d'après le biais peuvent être réalisées. Les propriétés asymptotiques sont abordées et quelques études de simulation limitées sont présentées, à des fins de comparaison avec les méthodes existantes.
-
- Modélisation des erreurs de mesure intra-annuelles dans les données administratives et d'enquête couplées
Arnout van Delden, Statistics Netherlands, Pays-Bas-
Résumé
Statistics Netherlands (CBS) produit un résultat mensuel basé sur des données d'enquête et un résultat trimestriel basé sur des données administratives. Ces résultats partagent la variable Chiffre d'affaires. Des études antérieures ont montré que le chiffre d'affaires trimestriel basé sur les données fiscales administratives a une valeur relativement plus élevée au quatrième trimestre de l'année que les données d'enquête. Idéalement, ces deux estimations devraient être rendues cohérentes l'une avec l'autre. Pour ce faire, une première étape correspond à la disponibilité d'un instrument d'analyse permettant d'expliquer les différences trimestrielles dans les résultats. Van Delden et coll. (2020) ont élaboré un modèle à cette fin.
Ce modèle original décrit la population comme un mélange (de groupes) d'unités. Chaque groupe d'unités a des erreurs de mesure systématiques et aléatoires différentes relativement aux données administratives et d'enquête. Certaines unités déclarent presque les mêmes valeurs pour les deux sources, tandis que d'autres présentent des différences trimestrielles. Nous avons constaté que le modèle original ne rendait compte que d'une partie des effets saisonniers et ne fournissait pas encore de résultats suffisants pour tous les secteurs économiques et toutes les années. Récemment, nous avons élaboré un modèle adapté estimant les niveaux de chiffre d'affaires relatifs au cours d'une année, alors que le modèle original estimait les niveaux de chiffre d'affaires absolus. L'utilisation de niveaux de chiffre d'affaires relatifs conduit à ce que l'on appelle des données compositionnelles, que nous modélisons à nouveau comme un mélange de groupes d'unités. À l'aide de données simulées, nous avons testé dans quelle mesure le modèle de mélange adapté était estimé de manière fiable. Nous appliquons actuellement le modèle à des données réelles pour estimer les proportions de groupes inconnues, afin de voir si les effets trimestriels peuvent être expliqués. De plus, nous testons si les effets de groupe trimestriels estimés se stabilisent au fil des ans.
-
13 h 15 – 14 h 45
Séance 3C -- Adaptation de méthodes d'enquête pour des populations difficiles à joindre
Président de session : Peter Wright
- Estimateurs bayésiens fondés sur le plan de sondage et assistés par un modèle de la taille, du total et de la moyenne d'une population difficile à joindre depuis un échantillon par liens avec un échantillon initial en grappes
Martin Humberto Félix Médina, Universidad Autonoma de Sinaloa, Mexique-
Résumé
Dans le cadre de cette étude, nous présentons des estimateurs de type Horvitz-Thompson et de type multiplicité fondés sur le plan de sondage de la taille, du total et de la moyenne d'une variable réponse associée aux éléments d'une population cachée, tels que des toxicomanes et des travailleuses du sexe, à utiliser avec la variante d'échantillon par liens qui utilise un échantillon initial en grappes (Félix-Medina et Thompson, Jour. Official Stat., 2004). Dans cette variante d'échantillonnage, on construit une base de sondage des lieux où les éléments de la population tendent à se rassembler. La base de sondage n'a pas besoin de couvrir toute la population. Un échantillon initial des lieux est sélectionné et on demande aux personnes dans ces sites de nommer d'autres membres de la population. Comme le calcul des estimateurs fondés sur le plan nécessite de connaître le nombre de lieux dans la base de sondage qui sont liés à chaque personne échantillonnée et que cette information n'est pas observable, nous étudions un modèle bayésien qui nous permet d'estimer ce nombre pour chaque personne dans l'échantillon et, par conséquent, de calculer les estimateurs de Horvitz-Thompson et de multiplicité. L'estimation du nombre de sites liés à chaque personne échantillonnée, ainsi que l'estimation de la taille, du total et de la moyenne est réalisée au moyen de l'échantillonnage de Gibbs. Toutefois, l'inférence est réalisée dans le cadre de l'approche fondée sur le plan de sondage. Les résultats d'une petite étude numérique indiquent que le rendement des estimateurs proposés est acceptable.
-
- Évaluer les méthodes d'échantillonnage pour les minorités ethniques
Mariel McKone Leonard, Deutsches Zentrum für Integrations- und Migrationsforschung (DeZIM), Allemagne-
Résumé
Pour la plus grande partie de l'histoire de la recherche en sciences sociales, les méthodologistes et les statisticiens d'enquête ont mis l'accent sur l'élaboration et le perfectionnement de méthodes d'échantillonnage de membres de la population « générale ». Alors qu'ils sont censés être représentatifs de tous les adultes non institutionnalisés au sein d'une société, il est tacitement reconnu que les membres des sous-groupes démographiques sont « difficiles à joindre » pour de nombreuses raisons, y compris les obstacles en matière d'échantillonnage, de langue et d'accès. Bien que leur exclusion de la recherche en sciences sociales soit préjudiciable à la qualité des données d'enquête (Willis et coll., 2014) et aux droits de l'homme (Commission européenne, 2021), de nombreuses études ont de la difficulté à appliquer des méthodes d'échantillonnage probabiliste nécessitant des ressources considérables à ces populations, ce qui se traduit par leur exclusion continue.
Heureusement, les méthodologistes et les statisticiens, en particulier ceux qui travaillent dans le domaine de la santé publique et de l'épidémiologie, ont suggéré et élaboré un certain nombre de méthodes d'échantillonnage pour améliorer la représentation de sous-groupes démographiques dans les enquêtes sur la population (Reichel et Morales, 2017). Alors qu'un nombre toujours croissant de publications discutent de ces méthodes et les font progresser, peu d'études ont comparé directement ces méthodes de manière empirique. Par conséquent, les chercheurs visant à améliorer la représentation des sous-groupes démographiques dans leurs études peuvent être submergés par les possibilités méthodologiques tout en étant incertains de la manière d'évaluer au mieux leurs options.
Dans cet article, je présenterai une discussion comparant plusieurs des méthodes les plus fréquemment recommandées avec une évaluation de la représentativité de chaque méthode ainsi que du rapport coût-efficacité. Je présenterai également des leçons apprises de plusieurs études qui ont élaboré des échantillons de minorités ethniques et raciales en Allemagne.
-
- Mesurer le travail informel des femmes et des jeunes dans des contextes non urbains : données du Salvador
Ivette Contreras Gonzalez, Valentina Costa et Amparo Palacios-Lopez, World Bank, et Lelys Dinarte-Diaz, World Bank et CESifo, États-Unis-
Résumé
Mesurer le travail informel est essentiel pour l'élaboration des politiques, plus particulièrement dans les pays à faibles revenus où le travail informel représente une part importante de l'emploi total. Par exemple, le secteur informel compte pour environ 70 % des emplois avec une augmentation au fil du temps dans les marchés émergents et les économies en développement (Banque mondiale, 2018). Malgré la pertinence du travail informel dans le marché du travail, il manque toujours une description ou une définition universellement acceptée du « caractère informel » ainsi que d'outils d'enquête précis pour la saisir. En premier lieu, de nombreuses enquêtes reposent sur la notion d'activités principale et seconde sur le marché du travail et n'utilisent pas des questions de sélection appropriées pour définir « l'activité », ce qui peut se révéler problématique pour saisir les membres du ménage qui s'engagent dans un travail atypique, tels que des travailleurs autonomes dans un marché informel. Deuxièmement, les données sur les jeunes et les femmes peuvent souffrir de manière disproportionnée d'un biais de « réponse par personne interposée », parce que le répondant peut signaler de manière précise ses propres activités, mais sous- ou surdéclarer les activités des autres membres du ménage, plus particulièrement les membres du ménage qui s'engagent principalement dans un travail atypique. Le présent projet de recherche fournit des données expérimentales pour surmonter ces limites et améliorer la collecte des données sur le travail informel, l'accent étant mis sur les femmes et les jeunes dans les régions rurales et périurbaines au Salvador. Nous concevons une expérience méthodologique qui vise à évaluer comment la mesure du travail informel est touchée par la liste de sélection des activités ou le biais de la « réponse par personne interposée ». Dans le cadre de l'expérience, nous menons des activités qualitatives sur le terrain avec les femmes et les jeunes pour créer la liste des activités rémunérées et non rémunérées définies comme un « travail » dans des communautés rurales et périurbaines. Finalement, nous explorons les préférences des femmes et des jeunes sur les particularités du travail non informel par l'entremise d'une expérience à choix discrets inspirée de Datta (2019) et les associations entre celles-ci et les préférences relatives aux risques en utilisant des expériences avec incitatifs sur le terrain.
-
- L'estimation du nombre de bénéficiaires de l'aide alimentaire par l'enquête « Aide alimentaire 2021 »
Aliocha Accardo, Institut national de la statistique et des études économiques, France-
Résumé
En France, de nombreuses associations apportent aux personnes en grande difficulté financière une aide alimentaire en nature, distribuée dans plusieurs milliers de centres répartis sur le territoire. Jusqu'à l'an dernier, la population des bénéficiaires n'était appréhendée dans les enquêtes-ménages de la statistique publique qu'au moyen de questions rétrospectives (du type «avez-vous eu recours à l'aide alimentaire au cours des douze derniers mois») posées à des échantillons de ménages en logement ordinaire. En novembre 2021, une nouvelle enquête, «Aide alimentaire», a interrogé un échantillon de 4 515 personnes «sur place», c'est à dire à l'occasion d'une de leurs visites à l'un des centres de distribution. Son échantillonnage, inspiré de celui des enquêtes «Sans domicile» a dû résoudre plusieurs problèmes : avant l'enquête, une information très disparate sur les centres en activité, l'absence pour la plupart des centres d'une liste des personnes les fréquentant, l'existence d'une fraction non négligeable de bénéficiaires fréquentant plusieurs centres différents, enfin l'absence de données de calage pour une population très mal connue. La pondération finale, certes fragile compte tenu des hypothèses et simplifications auxquelles il a fallu consentir, conduit à une estimation du total de la population bénéficiaire de l'aide alimentaire vue néanmoins comme plausible par les associations elles-mêmes. Elle est largement supérieure à celle qu'indiquent les enquêtes fondées sur un questionnement rétrospectif. Ce qui suggère un impact important de la probable réticence des personnes à avouer à un enquêteur avoir dû recourir à ce type d'aide alimentaire.
-
- De la théorie à la pratique : quelques enseignements de la mise en œuvre de la méthode « Network sampling with memory » pour enquêter auprès des immigrés chinois en Ile-de-France
Geraldine Charrance, Institut national d'études démographiques, France-
Résumé
Pour pallier les défauts classiques des méthodes par chainage (Respondent Driven Sampling), une équipe de l'université de Caroline du Nord a développé une méthode d'échantillonnage appelée « Network sampling with memory ». Sa particularité est de recréer, au fil du terrain, une base de sondage de la population cible composée des personnes citées par les répondants et de tirer aléatoirement les futurs enquêtés dans cette base, minimisant ainsi les biais de sélection. L'algorithme comprend une première phase exploratoire dite « Search », à la recherche de nouveaux pans du réseau, puis une phase de tirages aléatoires au sein du réseau dévoilé.
La méthode, utilisée pour la première fois en France entre septembre 2020 et juin 2021 dans le cadre d'une enquête auprès des immigrés chinois en Ile-de-France (ChIPRe), s'est avérée très délicate à mettre en œuvre. Nous avons notamment découvert un paradoxe inhérent à l'algorithme en mode « Search » : il « préfère » les petits rosters (contenant un petit nombre de citations), vus comme des opportunités d'aller vers des pans inexplorés du réseau, plutôt que les grands rosters contenant plus de personnes déjà citées (doublons) et associés à des zones du réseau déjà explorées. Ainsi les « bonnes » enquêtrices ne voyaient pas toujours leurs efforts récompensés par la sélection des rosters qu'elles avaient collectés à l'issue de négociations chronophages sur le terrain (le potentiel de futurs questionnaires, et donc leur rémunération, dépendaient de cette sélection au tirage). Au total, 501 questionnaires et 1698 citations ont été collectés.
-
14 h 45 - Fin
Vendredi 4 novembre 2022
9 h 00 – 10 h 00
Séance 4 – Séance d'affiches
- Imputation de la pauvreté dans des contextes sans données sur la consommation : une révision avec de nouveaux perfectionnements
Kseniya Abanokova, World Bank, États-Unis-
Résumé
Un problème clé avec la mesure de la pauvreté est que les données de consommation d'un ménage sont souvent indisponibles ou rarement collectées ou peuvent se révéler incomparables au fil du temps. Dans le cadre d'un projet de développement, il est rarement possible de collecter des données complètes sur la consommation pour estimer les répercussions de la pauvreté. Bien que l'imputation d'une enquête à l'autre représente une approche rentable pour corriger ces lacunes, son utilisation efficace fait appel à une combinaison de choix de conception ex ante et d'efforts de modélisation ex post qui sont ancrés dans des protocoles validés. Cet article affine divers aspects de modèles d'imputation de pauvreté existants en utilisant 14 enquêtes auprès des ménages multithèmes menées au cours de la dernière décennie en Éthiopie, à Malawi, au Nigeria, en Tanzanie et au Vietnam. L'analyse révèle que le fait d'inclure un autre prédicteur qui saisit les dépenses d'utilisation des services publics du ménage, dans le cadre d'un modèle d'imputation de base avec des variables démographiques et d'emploi au niveau du ménage, procure des estimations de la pauvreté qui ne sont pas statistiquement significativement différentes des véritables taux de pauvreté. Dans de nombreux cas, ces estimations se retrouvent même à moins d'un écart type des véritables taux de pauvreté. L'ajout de variables géospatiales au modèle d'imputation améliore l'exactitude de l'imputation à l'échelle nationale. Le recours à d'autres prédicteurs au niveau communautaire (disponibles à partir de données d'enquêtes et de recensements au Vietnam) reliés à la réussite scolaire, à la pauvreté et aux actifs peut améliorer davantage la précision. Pourtant, il existe une hétérogénéité spatiale à l'intérieur d'un pays concernant la performance d'un modèle, certains modèles fonctionnant bien pour des régions urbaines ou des régions rurales seulement. L'article fournit des renseignements pertinents sur le plan opérationnel et permettant de réduire les coûts dans la conception de futures enquêtes mises en œuvre avec un objectif d'imputation de la pauvreté et suggère des orientations pour les recherches futures.
-
- Couplage automatisé sur mesure pour permettre une analyse des décès attribuables à la COVID-19 en Angleterre et au pays de Galles par ethnicité
Mary Cleaton, Office for National Statistics, Royaume-Uni-
Résumé
Au début de 2020, il y a eu d'intenses spéculations sur la corrélation entre l'ethnicité et les décès attribuables à la COVID-19. Toutefois, la méthode existante au R.-U. pour ajouter l'ethnicité aux données sur les décès s'est traduite par de faibles taux de couplage pour les décès récents et on s'est inquiété du fait que certains groupes ethniques étaient particulièrement touchés. Cela a empêché le bureau des statistiques nationales de publier des statistiques en temps réel sur la mortalité liée à la COVID-19 par ethnicité.
Nous avons élaboré un couplage sur mesure en trois jours, en utilisant un couplage déterministe faisant appel à des identificateurs personnels et en testant des clés de concordance par examen clérical. Notre meilleure source de renseignements sur l'ethnicité fut le recensement de 2011 de l'Angleterre et du pays de Galles. Pour résoudre le problème de la modification des renseignements depuis 2011, nous avons adopté une approche novatrice. Nous avons couplé les dossiers sur les décès aux données du service national de santé (NHS) de 2019, puis utilisé l'identifiant du NHS pour accéder aux dossiers des individus en 2011 et ensuite à leurs renseignements de 2011. Cela fut ensuite couplé aux renseignements sur l'ethnicité du recensement.
La méthode précédente pour ajouter les données sur l'ethnicité avait un taux de couplage d'environ 90 %. Toutefois, pour les décès récents (depuis mars 2020, quand la pandémie de COVID-19 a commencé au R.-U.), le taux était d'environ 30 %. Notre méthode a amélioré le taux des décès récents à environ 90 % sans nuire à l'exactitude : le taux de faux positif était d'environ 0,2 %. Cela permet une analyse qui démontre que le risque de décès lié à la COVID-19 était significativement plus élevé chez certains groupes ethniques.
Au début de 2020, c'était d'une très grande importance de déterminer si la COVID-19 touchait de façon disproportionnée certaines ethnicités. Nous avons fourni une méthode novatrice personnalisée de « couplage au fil du temps » sous des contraintes de temps exceptionnelles sans compromettre la qualité. Cela a permis de procéder à une analyse efficace et à l'élaboration de stratégies gouvernementales équitables.
-
- Analyse de cas complets et imputation multiple : évaluer les effets des données manquantes dans la recherche sur le surpoids et l'obésité chez les jeunes
Amanda, Doggett, University of Waterloo, Canada-
Résumé
Les données manquantes constituent un problème dans la plupart des recherches appliquées, mais plus particulièrement pour les études épidémiologiques qui ont recours à des enquêtes ou à des questionnaires comme instruments de collecte des données. L'analyse de cas complets (ACC) représente la technique la plus répandue de gestion des données manquantes, mais il a été démontré qu'elle introduit des biais dans les situations dans lesquelles on retrouve de grandes quantités de données manquantes non aléatoires. La recherche sur le surpoids et l'obésité chez les jeunes (SOJ), qui fait appel principalement à l'indice de masse corporelle (IMC) comme indicateur principal de l'adiposité corporelle, souffre souvent de proportions élevées de données manquantes, mais l'ACC reste courante dans ce domaine. Cette étude fera appel à l'IMC et à des données sur des covariables connexes de 74 501 jeunes canadiens qui ont participé à l'étude COMPASS en 2018-2019, dans laquelle 31 % des données sur l'IMC sont manquantes. Des analyses qui examinent les prédicteurs de l'IMC à l'aide de modèles linéaires mixtes généralisés seront réalisées avec l'ACC et l'imputation multiple (IM) et les résultats et les inférences connexes seront comparés entre les deux approches. On suppose que les résultats montrent que certaines erreurs de type I ou II surviennent lors de l'utilisation de l'approche de l'ACC comparativement à celle de l'IM. Les implications de cette étude devraient mettre en évidence que des choix méthodologiques appropriés pour la manipulation des données manquantes sont essentiels à la recherche sur le SOJ et que de tels choix peuvent avoir une incidence sur les conclusions de la recherche et sur les recommandations concomitantes en matière de politique et de programmation.
-
- L'Environnement de couplage de données sociales à Statistique Canada
Goldwyn Millar, Statistique Canada, Canada-
Résumé
L'Environnement de couplage de données sociales (ECDS) à Statistique Canada est un environnement de couplage d'enregistrements sécurisé qui élargit le potentiel d'intégration de données administratives et d'enquêtes pour répondre aux questions de recherche et éclairer les politiques socio-économiques. La conception de l'ECDS intègre de solides pratiques de gouvernance. La prémisse derrière l'ECDS est qu'un fichier est couplé une fois à l'intérieur de son infrastructure et ensuite utilisé à des fins multiples par des analystes de divers domaines (p. ex. santé, justice, éducation, revenu), réduisant ainsi la duplication des tâches et normalisant le processus de couplage d'enregistrements et les résultats. Le couplage d'enregistrements probabilistes utilisant le logiciel G-Coup généralisé de couplage d'enregistrements, lequel fait appel à la méthodologie de Fellegi-Sunter, est le principal outil pour l'intégration de données dans l'ECDS. Cette présentation fournira un aperçu de l'ECDS et comprendra des renseignements sur la gouvernance existante pour se conformer aux politiques et aux exigences en matière de protection de la vie privée, à la structure de l'ECDS, aux sources des données, aux méthodes de couplage d'enregistrements, y compris le calcul du taux d'erreur de couplage, ainsi que les fichiers de données analytiques couplés produits.
-
10 h 00 – 11 h 00
Séance 5 -- Discours du lauréat du prix Waksberg
Président de session : Jean Opsomer
- Bayes, étayé par des idées fondées sur le plan, est le meilleur paradigme global pour l'inférence en enquête par échantillonnage
Roderick J. Little, Michigan State University, États-Unis-
Résumé
Des arguments conceptuels et des exemples sont présentés qui suggèrent que l'approche d'inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l'analyse d'une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l'ensemble de données observé, tout en ayant de bonnes propriétés d'échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d'échantillonnage, et les méthodes utilisées pour gérer la non-réponse. Le présent article propose 10 raisons principales de favoriser l'approche d'inférence bayésienne pour les enquêtes.
-
11 h 00 – 11 h 15
Pause du matin
11 h 15 -- 12 h 45
Séance 6A -- Estimation sur petits domaines
Président de session : Jean-François Beaumont
- Modèle de mélange multivarié pour l'estimation sur petits domaines des indicateurs de pauvreté
Isabel Molina, Universidad Complutense de Madrid, Espagne-
Résumé
En ce qui concerne l'estimation sur petits domaines d'indicateurs généraux, notamment les indicateurs de pauvreté, en présence de domaines hétérogènes, nous proposons un modèle de mélange de lois multivariées normales. Ce modèle considère que les domaines présentent une structure en grappe latente, de sorte que les vecteurs d'intérêt du domaine suivent un modèle de régression linéaire à erreurs emboîtées dont tous les paramètres (coefficients de régression et composantes de la variance) varient en fonction de la grappe. Dans le cadre de ce modèle, nous proposons deux types de prédicteurs des indicateurs d'intérêt d'un domaine, le premier étant obtenu en prédisant la grappe à laquelle appartient le domaine à l'aide des probabilités a posteriori d'appartenance à chaque grappe, le second étant, lui, obtenu en faisant la moyenne sur toutes les grappes possibles avec des poids donnés par ces probabilités a posteriori. Nous proposons également une procédure bootstrap paramétrique pour l'estimation de l'erreur quadratique moyenne. Nous étudions les performances des prédicteurs proposés par rapport aux meilleurs prédicteurs empiriques habituels basés sur un modèle d'erreurs emboîtées avec des estimateurs directs, et nous appliquons notre méthodologie à l'estimation des dépenses moyennes et des écarts et taux de pauvreté dans les localités palestiniennes.
-
- Méthodes d'imputation fondées sur un modèle pour l'estimation sur petits domaines
Aditi Sen et Partha Lahiri, University of Maryland, College Park, États-Unis-
Résumé
Il existe une demande croissante pour la production d'estimations fiables de différentes caractéristiques d'intérêt pour de petites zones géographiques (par exemple des États) ou pour des domaines obtenus par croisement de différents facteurs démographiques tels que l'âge, le genre, la race ou l'ethnicité. Les renseignements sur la ou les variables d'intérêt proviennent souvent d'une enquête par sondage ciblant une estimation fiable pour de vastes zones (par exemple l'échelon national). Dans cet exposé, j'aborderai la façon dont les méthodes d'imputation basées sur un modèle peuvent être utilisées pour améliorer les inférences à propos de différents paramètres relatifs à de petites régions ou à de petits domaines. La méthode proposée a essentiellement recours à des modèles statistiques appropriés pouvant être utilisés pour extraire des renseignements à partir de plusieurs sources de données. Nous illustrons la méthodologie proposée dans le contexte de la projection électorale pour de petits domaines. Cette conférence est basée sur une recherche collaborative avec les étudiants de l'UMD, Aditi Sen et Zhenyu Yue.
-
- Estimation sur petits domaines étalonnée sous le modèle de base au niveau de l'unité, lorsque les taux d'échantillonnage sont non négligeables
Mike Hidiroglou, Statistique Canada (retraité), Canada-
Résumé
Nous examinons l'estimation d'une moyenne sur petits domaines pour le modèle de base au niveau de l'unité. La somme des estimateurs dépendant d'un modèle qui en résulte peut ne pas correspondre aux estimations obtenues au moyen d'un estimateur d'enquête direct qui est considéré comme précis pour l'ensemble de ces petits domaines. L'étalonnage force la concordance des estimateurs fondés sur un modèle avec l'estimateur direct au niveau du domaine agrégé. L'estimateur par la régression généralisée est l'estimateur direct que nous utilisons pour réaliser l'étalonnage. Dans le présent document, nous comparons des estimateurs sur petits domaines étalonnés d'après quatre procédures. La première procédure permet d'obtenir des estimateurs étalonnés au moyen d'un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu avec le modèle au niveau de l'unité augmenté à l'aide d'une variable adéquate qui assure l'étalonnage. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l'estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d'obtenir des estimateurs étalonnés qui résultent d'un problème de minimisation sous la contrainte donnée par la condition d'étalonnage. Ces procédures d'étalonnage sont appliquées aux estimateurs sur petits domaines lorsque les taux d'échantillonnage sont non négligeables.
-
11 h 15 -- 12 h 45
Séance 6B -- Mesurer et projeter la diversité
Président de session : Scott Meyer
- Projection démographique ethnique en Nouvelle-Zélande
Melissa Adams, Statistics New Zealand, Nouvelle-Zélande-
Résumé
Les projections démographiques ethniques infranationales donnent une indication de la taille et de la composition futures de quatre grands groupes ethniques qui se chevauchent – Maoris, personnes originaires du Pacifique, Asiatiques et « Européen ou autre » – vivant dans toutes les régions de la Nouvelle-Zélande. Ces projections font partie d'une suite de projections démographiques, produites par Stats NZ, qui aident les collectivités locales et les groupes ethniques, ainsi que le gouvernement central, en matière de planification et d'élaboration de politiques. Les projections sont élaborées à l'aide d'une méthode par cohortes et par composantes, nécessitant des hypothèses sur la fécondité, la mortalité, les migrations et la mobilité interethnique, à un niveau local. Produites sous forme de projections déterministes, dans le cadre de scénarios de croissance faible, moyenne ou élevée, elles complètent les projections démographiques ethniques nationales et les projections démographiques totales infranationales. Cette présentation abordera la méthodologie utilisée pour ces projections et certaines des raisons pour lesquelles ces projections démographiques ethniques sont plus incertaines que les projections démographiques totales.
-
- Projection de la diversité raciale et ethnique : méthodes, hypothèses et limites des projections démographiques du U.S. Census Bureau
Sandra Johnson, United States Census Bureau, États-Unis-
Résumé
Le U.S. Census Bureau produit régulièrement des projections démographiques selon des caractéristiques démographiques, notamment la race et l'ethnicité. Nos projections donnent un aperçu de ce à quoi la population pourrait ressembler dans le futur et sont utilisées, à des fins de planification, par une variété de publics dans les secteurs public et privé. Cette présentation survolera les méthodes que nous avons utilisées pour projeter la population dans notre dernière série de projections démographiques, la série nationale de 2017. Nous insisterons plus particulièrement sur la façon dont nous avons attribué la race et l'ethnicité au sein de chacune des composantes de l'évolution démographique, à savoir les naissances, les décès et les migrations internationales.
S'il est vrai que la catégorisation des données par race et ethnicité est importante pour faire progresser l'équité raciale et soutenir les collectivités mal desservies, il n'en demeure pas moins que cela ne va pas sans défis. Les catégories raciales et ethniques incluses dans nos projections sont basées sur les normes établies par l'Office of Management and Budget des États-Unis, en 1997. Cependant, à l'instar des définitions sociétales, les normes gouvernementales pour mesurer la race évoluent au fil du temps. Les projections à long terme de la composition raciale et ethnique de la population intègrent des hypothèses implicites sur la façon dont la race et l'ethnicité seront mesurées à l'avenir. Ces hypothèses ainsi que les méthodes seront abordées lors de la présentation, afin de mieux comprendre ce que les projections peuvent nous dire sur la future population américaine.
-
- Demosim : un puissant outil de microsimulation pour les projections démographiques désagrégées et les exercices de prévision immédiate
Samuel Vézina, Statistics Canada, Canada-
Résumé
En réponse aux besoins toujours croissants de données de projections démographiques plus précises et désagrégées, les modèles de projection doivent pouvoir générer des résultats robustes pour de petites sous-populations, et selon un grand nombre de caractéristiques, y compris des données à un niveau régional. Depuis plus de deux décennies, Statistique Canada a élaboré un outil de microsimulation – Demosim – pour projeter non seulement l'ensemble de la population canadienne, mais aussi plusieurs sous-groupes ciblés de la population, de manière cohérente. Dans cet article, nous présentons des projections récentes pour le Canada, les provinces et plus de 50 unités géographiques plus petites, en mettant l'accent sur différents groupes ethnoculturels tels que les populations autochtones, les populations racisées et les groupes linguistiques. Nous montrons en quoi la microsimulation offre une solution de rechange beaucoup plus souple que d'autres types de modèles de projection pour calculer des projections démographiques détaillées. Nous mettons également en évidence la façon dont Demosim est devenu un puissant outil de prévision immédiate fournissant un portrait à jour et détaillé de la population canadienne entre les recensements, et la façon dont le modèle a récemment été utilisé pour combler les lacunes dans les données liées à des initiatives telles que l'Appel à l'action en faveur de la lutte contre le racisme, de l'équité et de l'inclusion. Enfin, nous abordons de nouvelles évolutions possibles dans les années à venir, notamment liées à la production de projections pour la population de diverses identités de genre.
-
- Comprendre la qualité de la collecte des données, l'inclusivité et la représentativité à la source
Ella Williams Davies et Karina Williams, Office for National Statistics, Royaume-Uni-
Résumé
Au sein de la Direction de la méthodologie et de la qualité, à l'Office for National Statistics, nous avons pour objectif d'optimiser la collecte de données afin de mieux informer notre société en produisant des statistiques pour le bien public. Nous présenterons :
- Explorer l'inclusivité et la représentativité dans les données administratives.
- Comprendre la qualité des données administratives au début du parcours des données.
Nous menons des recherches innovantes, et nous plaçons de l'importance sur la collecte et l'évaluation de la qualité, de l'inclusivité et de la représentativité des données administratives à la source. Nous explorons l'inclusivité et la représentativité à partir de représentants de groupes (en tant que gardiens) et directement avec le public, qui sont identifiés comme vulnérables et avec des caractéristiques protégées. Nous menons des entrevues qualitatives pour comprendre en profondeur comment ces groupes interagissent avec les services qui contribuent aux données administratives. Cela permet de mieux comprendre dans quelle mesure ces sources sont inclusives et représentatives.
Pour évaluer la qualité plus tard dans le parcours des données, nous menons des recherches pour comprendre la qualité de données administratives spécifiques du point de vue du personnel administratif qui recueille et traite les données. Les produits de notre programme de recherche, destinés à être utilisés par les organisations statistiques et plus largement, comprennent : le développement d'outils et de cadres pour faciliter l'évaluation de la qualité des données administratives ainsi que la conversation avec les fournisseurs de données.
-
11 h 15 -- 12 h 45
Séance 6C -- Apprentissage automatisé et stratégies d'intégration de données pour la désagrégation de données
Présidente de session : Michelle Simard
- Apprentissage automatique pour estimer les effets d'un traitement hétérogène dans les évaluations de programmes
Andy Handouyahia et Leeroy Tristan Rikhi, Emploi et Développement Social Canada, Canada-
Résumé
L'étude montre comment la Direction de l'évaluation chez Emploi et Développement Social Canada (EDSC) utilise des données administratives riches et des forêts causales modifiées, un estimateur causal d'apprentissage automatique, pour éclairer l'élaboration de politiques au moyen d'évaluations des répercussions. L'étude illustre la mise en œuvre de l'algorithme novateur des forêts causales modifiées pour estimer les effets de traitement individualisé et ainsi éclairer ce qui fonctionne et pour qui. Cette étude jette les bases pour la réalisation de l'évaluation selon la perspective de l'analyse comparative + entre les genres en vue d'éclairer les répercussions différentielles des politiques et des programmes sur les personnes de divers milieux sociodémographiques. En particulier, elle offre une répartition des effets nets pour les principaux sous-groupes de participants en plus de l'effet moyen du programme.
-
- Estimation représentative du risque absolu à partir de la combinaison de données individuelles provenant d'études de cohortes épidémiologiques et d'enquêtes représentatives avec des statistiques sommaires provenant de registres de maladies
Lingxiao Wang, Barry Graubard, Hormuzd Katki, National Cancer Institute, et Yan Li, University of Maryland, College Park, États-Unis-
Résumé
Les études de cohortes épidémiologiques suivent des personnes au fil du temps pour étudier le risque de maladie ou de décès associé aux biomarqueurs et aux facteurs sociodémographiques et comportementaux. Ces cohortes ne sont généralement pas échantillonnées avec un échantillonnage probabiliste et manquent ainsi de représentativité de la population, ce qui peut invalider les estimations du risque absolu (p. ex. la probabilité de mourir dans cinq ans). Les méthodes actuelles pour améliorer la validité externe d'une estimation du risque absolu d'une cohorte sont fondées sur un modèle et visent à construire un modèle de risque pour la prédiction des résultats, en vertu duquel les paramètres du modèle estimés sont censés être non biaisés, et sont ainsi transportables entre l'étude de cohorte et la population cible. Toutefois, cette hypothèse de transportabilité peut être enfreinte si le modèle de risque est incorrectement spécifié ou si les cohortes ne sont pas représentatives de la population cible. Nous proposons une méthode « fondée sur le plan » avec une procédure de pondération en deux étapes pour évaluer le risque absolu dans la population cible sans hypothèses de transportabilité. La première étape améliore la validité externe pour la cohorte en créant des « pseudo-poids » pour la cohorte à l'aide d'une méthode de pondération par noyau fondée sur la propension, laquelle distribue de manière fractionnée les poids d'échantillonnage des unités d'une enquête probabiliste externe de référence aux unités de la cohorte, selon leur distance lissée par le noyau quant au score de propension. La seconde étape utilise la post-stratification selon le statut de l'événement et les catégories de variables disponibles dans le registre des maladies ou décès fondé sur la population pour ajuster davantage les poids de la cohorte pseudopondérée à la population cible. Notre approche produit des risques absolus cohérents en population finie sous un modèle de propension correctement précisé. La post-stratification améliore l'efficacité et réduit davantage le biais des estimations du risque absolu dans l'ensemble et pour les sous-groupes de la population définis par les variables de post-stratification quand le modèle de propension véritable est incorrectement spécifié. Nous appliquons nos méthodes pour élaborer un modèle représentatif du risque de mortalité toutes causes confondues en combinant les données de la cohorte non représentative du National Institutes of Health–American Association of Retired Persons des États-Unis, de la National Health Interview Survey représentative des États-Unis, et des données sur la mortalité du système national de statistiques de l'état civil des États-Unis.
-
- Intégration de données existantes pour élaborer un indicateur du statut d'ethnicité dans le PEDSL
Aziz Farah, Bassirou Diagne, Abdelnasser Saidi, Statistique Canada, Canada-
Résumé
Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des possibilités analytiques longitudinales d'un point de vue exploratoire, sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution des événements. Dans cette présentation, nous montrerons comment nous avons pu intégrer des données administratives déjà existantes pour reconstruire des caractéristiques de la population canadienne sans avoir à réaliser une nouvelle enquête. En particulier, nous discuterons de la façon dont nous pouvons estimer le statut d'ethnicité des personnes au Canada au niveau désagrégé le plus détaillé en utilisant les résultats d'une variété de règles opérationnelles et d'algorithmes appliqués aux couplages existants et à la population du PEDSL. Nous terminerons avec les améliorations obtenues dans nos algorithmes de modélisation en utilisant des méthodes d'apprentissage automatique telles que des arbres décisionnels et des techniques de forêt aléatoire.
-
- Corriger les biais d'échantillonnage dans les mégadonnées par pseudo-pondération
An-Chiao Liu et Ton de Waal, Tilburg University and Statistics Netherlands, Sander Scholtus, Statistics Netherlands, Pays-Bas-
Résumé
Les échantillons non probabilistes ne proviennent pas d'un plan d'échantillonnage et, par conséquent, peuvent souffrir d'un biais d'échantillonnage. Pour corriger le biais d'échantillonnage, Elliot et Valliant (2017) (EV) ont proposé une méthode d'estimation avec pseudo-poids qui utilise une configuration à deux échantillons. Cela signifie qu'en plus de l'échantillon non probabiliste cible, on utilise un échantillon probabiliste qui partage certaines variables auxiliaires communes avec l'échantillon non-probabiliste. En estimant les propensions d'inclusion dans l'échantillon non probabiliste étant donné les deux échantillons, nous pourrions corriger le biais d'échantillonnage par des (pseudo) approches fondées sur le plan de sondage. Toutefois, la méthode EV n'est pas appropriée pour de grandes fractions d'inclusion de la population ou pour des unités ayant de fortes probabilités d'inclusion pour l'un ou l'autre des échantillons, ce qui est souvent observé dans les ensembles de données administratives et qui est de plus en plus courant pour les mégadonnées.
Nous étendons la méthode EV pour qu'elle soit appropriée pour convenir à toutes les gammes de probabilités d'inclusion, tout en retenant les propriétés intéressantes de l'étude originale. Tout modèle qui est approprié pour une estimation de la propension peut facilement être appliqué : un modèle d'apprentissage automatique par exemple. En outre, la dépendance possible entre la sélection de l'échantillon non probabiliste et de l'échantillon probabiliste est examinée, pour traiter le scénario dans lequel l'inclusion dans l'échantillon non probabiliste est affectée par son inclusion dans l'échantillon probabiliste. Pour l'estimation de la variance, deux algorithmes bootstrap de population finie sont proposés, lesquels tiennent compte de la configuration à deux échantillons. Nous montrons à l'aide d'une étude par simulation basée sur un ensemble de données réelles que la méthode proposée surpasse les autres méthodes comparatives et que les algorithmes bootstrap de pseudo-population donnent des estimations de variance raisonnables.
-
- Protection de la vie privée, erreur de mesure et intégration des données de télédétection et d'enquêtes socio-économiques
Talip Kilic et Siobhan Murray, World Bank, Anna Josephson et Jeffrey D. Michler, University of Arizona, États-Unis-
Résumé
Lors de la publication de données d'enquêtes socio-économiques, les programmes d'enquêtes mettent en œuvre une variété de méthodes statistiques conçues pour protéger la vie privée, mais au prix d'une distorsion des données. Nous explorons la mesure dans laquelle les méthodes d'anonymisation spatiale pour protéger la vie privée dans les enquêtes à grande échelle soutenues par l'Étude de mesure des niveaux de vie - Enquêtes intégrées sur l'agriculture (EMNV-EIA) de la Banque mondiale introduisent une erreur de mesure dans les estimations économétriques quand ces données d'enquêtes sont intégrées avec des données météorologiques de télédétection. Guidés par un plan de préanalyse, nous produisons 90 ensembles de données météo-ménages couplés qui varient selon la méthode d'anonymisation spatiale et le produit météorologique de télédétection. En variant les données avec le modèle économétrique, nous quantifions l'ampleur et l'importance de l'erreur de mesure provenant de la perte d'exactitude qui résulte des mesures de protection de la vie privée. Nous constatons que les techniques d'anonymisation spatiale actuellement en usage courant ont, en moyenne, une incidence limitée ou nulle sur les estimations de la relation entre la météo et la productivité agricole. Toutefois, la mesure dans laquelle l'anonymisation spatiale introduit des mesures inexactes est une fonction du produit météorologique de télédétection utilisé dans l'analyse. Nous concluons qu'il faut faire preuve de prudence dans le choix d'un produit météorologique de télédétection lorsqu'on cherche à l'intégrer à des données d'enquête accessibles au public.
-
12 h 45 – 13 h 15
Pause de l'après-midi
13 h 15 – 14 h 45
Séance 7A – Collecte de données et autres perspectives des populations autochtones - Séance de table ronde
Animateur : Timothy Leonard, Statistique Canada, Canada
-
-
Résumé
Le Centre de gouvernance de l'information des Premières Nations, l'Australian Bureau of Statistics et Statistique Canada présenteront la façon dont chacune de ces organisations mène des enquêtes auprès des populations autochtones. Chaque organisation a sa propre perspective et ses propres défis en matière de conception d'enquête et de collecte de données. L'information sera partagée dans un esprit d'apprentissage et de tenue d'une discussion ouverte.
- Katie Wood, First Nations Information Governance Centre, Canada
- John Boxsell et Tamie Anakotta, Australian Bureau of Statistics, Australie
- Danielle Léger, Statistique Canada, Canada
-
13 h 15 – 14 h 45
Séance 7B – Une palette internationale d'expériences en couplage d'enregistrements : techniques, outils et utilisations dans les agences statistiques
Président de session : Abdelnasser Saidi
- Probabilistes ou déterministes, des méthodes d'appariements au banc d'essai du programme Résil
Olivier Haag, Institut national de la statistique et des études économiques, France-
Résumé
Le programme de Répertoires Statistiques d'Individus et de Logements (RéSIL) vise à construire un système de répertoires statistiques d'individus, de ménages et de locaux d'habitation, durable et évolutif, mis à jour à partir de sources administratives diverses. Dans ce contexte, les appariements seront fondamentaux non seulement pour la constitution des répertoires mais aussi parce que le système de répertoires servira d'ossature au système d'information de la DSDS. Il permettra en effet l'appariement avec d'autres sources : données d'enquêtes, données administratives, voire données privées, dans la mesure où elles incluraient un identifiant commun avec le répertoire considéré, soit directement soit par le biais d'une identification préalable. Ainsi, dans le but définir l'offre d'identification proposée par Résil, il a été décidé de tester différentes méthodes d'appariement afin de choisir celle(s) qui semble(nt) la plus efficace non seulement en termes de qualité statistique mais aussi d'un point de vue performance informatique (essentiel compte tenu des volumes à traiter).
Dans ce contexte, cet article comparera les résultats de l'appariement des individus présents dans la source fiscale (Fichier Imposable des Personnes) et l'enquête annuelle de recensement 2019 obtenus par différentes méthodes. Trois méthodes ont été testées :
- Rapsodie : Cet outil développé en interne INSEE met en œuvre une méthode d'appariement déterministe. ;
- Relais : Cet outil développé par Istat met en œuvre la méthode d'appariement probabiliste de Fellegi et Sunter ;
- Packages R et Python mettant en œuvre des méthodes probabilistes de type Fellegi et Sunter.
-
- Proposition pour le problème de l'estimation des probabilités de concordance dans le couplage d'enregistrements
Mauro Scanu, Italian National Institute of Statistics (ISTAT), Italie-
Résumé
Le couplage d'enregistrements vise à mettre en évidence les paires d'enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) suggèrent que chaque paire d'enregistrements soit mise à l'essai, qu'elle soit générée à partir de l'ensemble de paires présentant une concordance ou non. La fonction de décision est le rapport entre m(g) et u(g), les probabilités d'observer une comparaison g d'un ensemble de k variables d'identification clés (> 3) dans une paire d'enregistrements, respectivement sous l'hypothèse que la paire constitue une concordance ou non. Ces paramètres sont habituellement estimés au moyen de l'algorithme EM en utilisant comme données les comparaisons sur toutes les paires du produit cartésien Ω = A x B. Ces observations (sur les comparaisons et sur le statut des paires comme constituant une concordance ou non) sont supposées générées indépendamment des autres paires, hypothèse caractéristique de la majorité de la documentation sur le couplage d'enregistrements et mise en œuvre dans des outils logiciels (p. ex. RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons g et le statut de concordance dans Ω sont dépendants de manière déterministe. Par conséquent, les estimations de m(g) et u(g) basées sur l'algorithme EM sont généralement mauvaises. Ce fait compromet l'application efficace de la méthode Fellegi-Sunter, ainsi que le calcul automatique des mesures de qualité et la possibilité d'appliquer des méthodes efficaces pour l'estimation du modèle sur les données couplées (par exemple, les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d'explorer Ω par un ensemble d'échantillons, chacun extrait de manière à préserver l'indépendance des comparaisons entre les paires d'enregistrements sélectionnées. Les simulations sont encourageantes.
-
- Techniques de couplage d'enregistrements pour identifier les logements du Recensement canadien de 2021 dans le nouveau Registre statistique des immeubles
Martin Lachance, Statistique Canada, Canada-
Résumé
Le rapprochement des logements du Recensement de 2021 avec le nouveau Registre statistique des immeubles (RSI) a présenté certains défis relatifs au couplage. Le recensement de la population avait recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l'environnement des registres a évolué. L'organisme est en cours de passage du Registre des adresses (RA) au RSI contenant à la fois les adresses postales et les adresses municipales, tout en intégrant également les bâtiments non résidentiels. Le rapprochement a été effectué à l'aide d'une combinaison de systèmes, notamment le nouveau moteur d'appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une approche de couplage déterministe a été utilisée, tout en incorporant certaines connaissances sur les données comme l'entropie. Grâce aux métadonnées, l'expert en appariement pourrait également réduire les quantités de faux positifs et de faux négatifs.
-
- Utilisation de Splink pour l'estimation du surdénombrement du recensement
Kristina Xhaferaj et Rachel Shipsey, Office for National Statistics, Royaume-Uni-
Résumé
Splink est une implémentation de Fellegi-Sunter et de l'algorithme d'espérance-maximisation (EM), élaborée par le ministère de la Justice britannique (MoJ). L'ensemble de données du recensement de l'Angleterre et du Pays de Galles de 2021 a fourni à l'Office for National Statistics (ONS) une excellente occasion de mettre à l'essai les capacités de Splink et de fournir une rétroaction au MoJ permettant l'élaboration de fonctionnalités supplémentaires. L'équipe de l'ONS a utilisé Splink pour coupler l'ensemble de données du recensement de 2021 (environ 58 millions d'enregistrements) à lui-même, à l'aide de la fonction de déduplication intégrée. Cela a abouti à un ensemble de données dans lequel chaque personne du recensement a été cotée par rapport à un ensemble d'enregistrements de candidats pertinents, indiquant la probabilité que chaque personne soit un doublon.
Pour estimer le surdénombrement dans le recensement, l'ONS avait précédemment couplé des échantillons du recensement de 2021 au recensement complet, en utilisant un mélange de méthodes probabilistes, déterministes, associatives et manuelles. Nous disposions donc d'un ensemble de données constituant un « exemple idéal » que nous pouvions utiliser à des fins de comparaison. Initialement, nous avons utilisé cet exemple pour calculer les paramètres d'entrée m et u pour le modèle global Splink. À un stade ultérieur, nous avons utilisé les modèles locaux Splink (une implémentation de l'algorithme EM) pour générer m et u, démontrant ainsi que Splink pouvait être utilisé sur des ensembles de données sur lesquels aucun couplage préalable n'avait été effectué.
Splink offre plusieurs avantages par rapport à la méthodologie existante, notamment des visualisations de données complètes et des possibilités de personnalisation plus importantes. Nos résultats confirment que Splink est rapide sur le plan du calcul, qu'il est précis sur le plan méthodologique et qu'il permet à l'utilisateur d'effectuer des analyses, des visualisations et des couplages dans une solution intégrée. Pour fonctionner efficacement, Splink nécessite des utilisateurs expérimentés en matière de couplage de données, capables de définir des paramètres optimaux et d'écrire des instructions CASE pertinentes. Il ne s'agit pas d'une solution de couplage de données prête à l'emploi. Cependant, Splink constitue un excellent outil qui peut être utilisé pour normaliser le couplage des données à l'échelon intra et interministériel.
-
13 h 15 – 14 h 45
Séance 7C – Nouvelles avancées et mises en oeuvre de méthodes d'estimation pour petits domaines sur des données désagrégées
Président de session : Abel Dasylva
- Indice de défavorisation multiple faisant appel à des méthodes d'estimation sur petits domaines : une application pour la population adulte en Colombie
Alejandra Arias-Salazar, Freie Universität Berlin, Allemagne; Andrés Gutiérrez, Stalyn Guerrero-Gómez, Xavier Mancero, Economic Commission for Latin America and the Caribbean; Natalia Rojas-Perilla, United Arab Emirates University et Hanwen Zhang, Universidad Autónoma de Chile, Chile-
Résumé
À partir de l'indice de défavorisation multiple pour les pays d'Amérique latine produit par la Commission économique pour l'Amérique latine et les Caraïbes, cet article montre l'étude de cas de la Colombie pour obtenir des estimations sur petits domaines. Ce pays dispose d'un recensement de la population récent qui fournit la plupart des renseignements requis pour calculer l'indice de défavorisation multiple sur de petits domaines. Toutefois, pour deux indicateurs, les renseignements au niveau de l'unité ne sont pas disponibles, c'est pourquoi des méthodes d'estimations sur petits domaines sont mises en œuvre. Un algorithme de bootstrap paramétrique est utilisé pour produire des mesures de l'incertitude.
-
- Initiatives de l'Enquête sur la population active dans le cadre du Plan d'action sur les données désagrégées de Statistique Canada
Alejandra Arias-Salazar, Freie Universität Berlin, Allemagne; Andrés Gutiérrez, Stalyn Guerrero-Gómez, Xavier Mancero, Economic Commission for Latin America and the Caribbean; Natalia Rojas-Perilla, United Martin Pantel, Yelly Camara, Andrew Brennan, Tom Haymes, François Verret, Statistique Canada, Canada-
Résumé
Conformément au Plan d'action sur les données désagrégées (PADD) à long terme de Statistique Canada, un certain nombre d'initiatives ont été mises en œuvre dans l'Enquête sur la population active (EPA). Une des initiatives les plus directes fut une augmentation ciblée dans la taille de l'échantillon mensuel de l'EPA. La présentation décrira comment cet échantillon supplémentaire a été installé dans une conception de panel complexe existant et décrira certaines des premières analyses des répercussions sur la qualité des données. En outre, un programme d'enquête supplémentaire régulier a été introduit, où une série supplémentaire de questions a été posée à un sous-ensemble de répondants de l'EPA et analysée dans un cycle de production mensuel ou trimestriel. Ce nouveau produit analytique porte sur divers indicateurs du marché du travail et peut être adapté pour traiter des tendances émergentes. Des exemples récents d'objectifs d'enquêtes supplémentaires sont de fournir des données du marché du travail sur les personnes se reconnaissant comme appartenant à un groupe d'une minorité visible, des personnes ayant un handicap et les personnes qui travaillent à domicile. Dans le cadre de l'initiative du PADD, les questions sur les minorités visibles ont en fait été déplacées du contenu des enquêtes supplémentaires au principal questionnaire de l'EPA. Finalement, les estimations fondées sur les méthodologies de l'estimation pour petits domaines sont réintroduites pour les EPA et comprendront une portée élargie avec davantage de valeur analytique que ce qui existait dans le passé.
-
- Application de méthodes de lissage de la variance d'échantillonnage pour des estimations de proportion pour petits domaines
Yong You et Mike Hidiroglou, Statistique Canada, Canada-
Résumé
Le lissage de la variance d'échantillonnage est un sujet important dans l'estimation pour petits domaines. Dans le présent article, nous proposons des méthodes de lissage de la variance d'échantillonnage pour des estimations de proportion pour petits domaines. En particulier, nous examinons la fonction de variance généralisée (FVG) et les méthodes d'effet de plan (DEFF) pour le lissage de la variance d'échantillonnage. Nous évaluons et comparons les variances d'échantillonnage lissées et les estimations pour petits domaines selon les estimations de variance lissée par l'analyse de différentes données d'enquête, y compris l'ESCC, l'EPLA et l'EPA de Statistique Canada.
-
- Une méthode de désagrégation basée sur un modèle pour une estimation sur petits domaines
Andreea Erciulescu, Weijia Ren, Tom Krenzke, Leyla Mohadjer, Bob Fay, Westat, et Jianzhu Li, FINRA, États-unis-
Résumé
Une estimation à de fins niveaux d'agrégation est nécessaire pour mieux décrire une société. Des approches basées sur un modèle d'estimation pour petits domaines qui combinent des données d'enquête éparses à des données riches de sources auxiliaires se sont avérées utiles pour améliorer la fiabilité des estimations pour petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d'agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, une méthode d'attribution a été élaborée pour mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l'élaboration de modèles à de tels fins niveaux. La méthode est appliquée à la littératie des adultes et à l'estimation de la numératie au niveau du comté par groupe, en utilisant les données du Programme pour l'évaluation internationale des compétences des adultes (PEICA) aux États-Unis. Dans cette application, les groupes sont définis sur le plan de l'âge ou de l'éducation, mais la méthode peut s'appliquer à l'estimation d'autres groupes en quête d'équité.
-
14 h 45 – 15 h 00
Mot de clôture
- André Loranger, Statisticien en chef adjoint, Statistique Canada, Canada