Toutes les heures indiquées dans l'horaire correspondent à l'Heure avancée de l'est (HAE) : UTC-4
Mercredi 30 octobre 2024
08 h 45 – 09 h 00
Mot d'ouverture
Salle Simon Goldberg
- Éric Rancourt, Statisticien en chef adjoint, Secteur de la Gestion stratégique des données, des méthodes et de l'analyse, Statistique Canada, Canada
09 h 00 – 10 h 00
Séance 1 – Discours principal
Salle Simon Goldberg
- Le rôle en constante évolution des instituts nationaux de statistique : défis et possibilités
Pádraig Dalton – ancien Directeur général, Central Statistics Office, Irlande-
Résumé
La demande en matière de données ne cesse de croître. L'éventail des secteurs spécialisés pour lesquels il nous faut obtenir des données et des renseignements continue de s'élargir, au moment où les utilisateurs souhaitent avoir accès à des données plus actuelles, fréquentes et détaillées. Cette évolution s'inscrit dans un contexte où les instituts nationaux de statistique (INS) n'occupent qu'une part d'un marché des données en constante évolution, à une ère où les fausses nouvelles et les faits alternatifs présentent des risques considérables pour les décideurs et le grand public. Les INS doivent prendre les choses en main et faire preuve d'un solide leadership en établissant ce qui les distingue d'autres fournisseurs de données non réglementés et en démontrant la valeur ajoutée que le système statistique officiel peut et doit offrir. Afin de répondre à la demande croissante de données dans ce contexte difficile, les INS devront faire preuve d'agilité, de capacité d'adaptation et d'innovation, tout en respectant nos principes fondamentaux et nos valeurs fondamentales. Nous devrons également tirer profit de toutes les occasions offertes par les percées réalisées en matière de technologies et de méthodologies, ainsi que de l'émergence constante de nouvelles sources de données. Le présent exposé portera sur le contexte en constante évolution dans lequel les INS se retrouvent actuellement, ainsi que sur les possibilités et les défis connexes que cette réalité présente.
-
10 h 00 – 10 h 30
Pause du matin
10 h 30 – 12 h 00
Séance 2A – Équilibrer les risques de divulgation et l'utilité analytique avec les données synthétiques
Salle Simon Goldberg
- Inférence à partir de données synthétiques : les difficultés et les solutions
Anne-Sophie Charest, Université Laval, Canada-
Résumé
À une ère où les préoccupations quant à la protection des renseignements personnels et à la sécurité des données ne cessent de croître, la production de données synthétiques apparaît comme une avenue prometteuse pour atténuer les risques de divulgation liés aux données personnelles. Même si la documentation sur les méthodes de production de tels ensembles de données synthétiques se fait de plus en plus abondante, elle porte surtout sur la production de données plus complexes et précises, plutôt que sur les répercussions de la synthèse sur l'analyse qui en découle.
Cette présentation vise à combler cette lacune en donnant un aperçu des efforts de recherche qui sont déployés actuellement sur le terrain, dont certaines des contributions que j'ai moi-même apportées. Je vous présenterai deux grandes approches à adopter pour obtenir des mesures d'incertitude précises : l'utilisation de règles de combinaison avec plusieurs ensembles de données synthétiques comme on le fait parfois lorsqu'il manque des données, et l'exploitation de connaissances directes de la méthodologie de synthèse, laquelle est disponible, par exemple, dans le cas de la confidentialité différentielle. J'exposerai les avantages et les limitations de ces deux approches et partagerai quelques réflexions sur les répercussions concrètes qui pourraient en découler.
-
- Produire et analyser des données synthétiques
Khaled El Emam, Université d'Ottawa, Canada-
Résumé
Les données synthétiques peuvent être un moyen de protéger les renseignements personnels lors du partage de microdonnées. Elles sont par ailleurs de plus en plus considérées comme étant une forme plus robuste de renseignements non personnels. Le présent exposé résumera les enseignements qui ont été tirés d'une série d'études de données réelles et de simulations sur la production et l'analyse statistique de données synthétiques : a) les mesures courantes pour évaluer les risques d'entrave à la vie privée liés aux données synthétiques sont la divulgation d'attributs et la divulgation d'appartenance; b) pour qu'une analyse statistique soit valide, il faut produire 10 ensembles de données synthétiques et utiliser des règles de combinaison pour obtenir des estimations de paramètres et des erreurs-types; c) l'amplification des données comporte des avantages marginaux; d) la compréhension du rendement des modèles génératifs par rapport au nombre de variables dans l'ensemble de données d'entraînement; e)établir quand et comment augmenter le nombre de microdonnées pour maximiser le rendement des modèles; f) avoir recours à la production de données synthétiques pour atténuer les biais dans les données réelles.
Ces résultats seront illustrés par des ensembles de données sur la santé au moyen de plusieurs types de modèles génératifs : la synthèse séquentielle avec des arbres décisionnels, les réseaux de Bayes, les réseaux antagonistes génératifs et les autoencodeurs variationnels.
-
- Produire certaines données d'enquête synthétiques
Minsun Riddles, Westat, É.-U.-
Résumé
À une ère où la demande d'accès aux microdonnées et, parallèlement, les préoccupations en matière de protection des renseignements personnels ne cessent de croître, l'intérêt pour les données synthétiques a bondi. Par exemple, les données synthétiques sont reconnues pour offrir une solution prometteuse permettant de partager d'énormes quantités de données sur la santé pour accélérer des recherches entamées, tout en protégeant les renseignements personnels. La production de données synthétiques comporte toutefois son lot de défis lorsqu'il s'agit de trouver un équilibre entre la diminution des risques de divulgation et la préservation de l'intégrité des données d'origine, particulièrement en ce qui concerne les données d'enquête. Pour surmonter ces difficultés, il est possible d'adopter une approche de synthèse de « certaines » données, laquelle consiste notamment à synthétiser certaines variables de certains enregistrements dont les risques de divulgation sont élevés. Dans le présent article, nous examinons ces défis et proposons des solutions pour produire certaines données synthétiques dans le cadre de deux enquêtes nationales qui ont été menées à grande échelle aux États-Unis. Nous vous présentons de plus une méthode d'estimation de la variance par répliques afin de bien mesurer la variance supplémentaire générée par la synthèse des données.
-
10 h 30 – 12 h 00
Séance 2B – Approches modernes pour des sources de données différentes
Salle de Conférence du Jean-Talon
- Vous observez un faible taux de réponse chez les commerçants? Pas de problème, il suffit de demander aux consommateurs! Application de l'échantillonnage indirect aux données sur les journaux de paiements des consommateurs
Joy Wu, Heng Chen, Banque du Canada, Canada-
Résumé
Les taux de réponse dans les enquêtes menées auprès des commerçants sont traditionnellement faibles. Une solution qui pourrait être envisagée pour obtenir les données souhaitées serait de tirer parti des enquêtes menées auprès des consommateurs. Deux enjeux sont toutefois associés à cette façon de faire : la représentativité des consommateurs et l'exactitude de leurs réponses. Le présent article aborde ces deux problématiques en appliquant l'échantillonnage indirect et le calage des poids d'enquête. Lorsque les spécialistes des enquêtes sont confrontés au défi d'obtenir un échantillon directement auprès de la population cible pour laquelle il est difficile d'établir une base de sondage ou dont les taux de réponse sont très faibles, l'échantillonnage indirect peut s'avérer utile en exploitant les liens entre la population de base et la population cible. Nous appliquons alors cet estimateur pour obtenir des estimations indirectes (pour la population cible) de l'acceptation de l'argent comptant, des cartes de débit et des cartes de crédit chez les commerçants canadiens (population cible) à partir des données d'enquêtes auprès des consommateurs (population de la base de sondage), laquelle contient des renseignements détaillés sur les transactions consignées dans la section « Journal » des données. Non seulement nous exploitons les données sur les transactions effectuées entre des consommateurs et des commerçants pour élaborer les poids des commerçants à l'aide de la méthode généralisée de partage des poids (MGPP), mais nous élaborons également les variables d'acceptation de modes de paiement de ces commerçants couplées aux choix de mode de paiement indiqués et déclarés par les consommateurs. Nous y parvenons sans devoir interagir avec les commerçants, réglant ainsi le problème de taux de réponse traditionnellement faibles associé à cette population.
Nous faisons également preuve d'innovation en ce qui concerne la MGPP existante en utilisant un ensemble de données externes pour estimer le nombre total de visites chez un commerçant (un élément essentiel dans cette méthode), une valeur qui est sous-estimée dans les données de consommation en raison de sa structure. Enfin, nous calons également les poids de notre MGPP afin que notre échantillon indirect final de commerçants soit représentatif de la population des commerçants. D'après les résultats que nous avons obtenus, les estimations directes et indirectes des modes de paiement acceptés des commerçants sont très similaires.
-
- Effectif des collecteurs de donnée sur le terrain : considérations relatives à l'avenir de la collecte des données en personne
Brad Edwards, Rick Dulaney, Jill Carle, Tammy Cook, Westat, É.-U.-
Résumé
La collecte de données en personne est essentielle à la réussite de nombreuses grandes enquêtes parrainées par le gouvernement. Malgré la baisse du taux de réponse et l'augmentation des coûts, le mode demeure la norme par excellence pour répondre aux exigences d'enquête les plus rigoureuses des programmes nationaux d'enquête, notamment dans le cadre d'une stratégie de collecte de données multimodes (Schober, 2018). Cependant, au cours des 10 dernières années, les changements drastiques au niveau du marché du travail et de la main-d'œuvre, exacerbés par la pandémie, ont entravé les efforts de collecte de données en personne de nombreux grands organismes d'enquête. De nouvelles perspectives sur la souplesse et la satisfaction au travail associées au rôle de plus en plus technique et de la nature exigeante du travail ont eu une incidence sur le recrutement et le maintien en poste au sein des organismes d'enquête américains et européens (Charman et coll., 2024; Carle et coll., 2023). En fait, certains pays européens ont abandonné la collecte de données en personne, faute de travail pour soutenir un effectif de collecteurs des données sur le terrain (CDT).
Cette présentation résumera les tendances observées de l'emploi des CDT aux États-Unis au cours de la dernière décennie et exposera les principaux défis en matière de recrutement et de maintien en poste de CDT de haut calibre. Au moyen d'enquêtes sur les CDT actuels et sortants et à un ensemble de données administratives unique comportant plus de 27 000 CDT dans plus de 80 grands projets d'enquête, nous soulignerons les principaux points à retenir d'un programme de recherche en cours, y compris l'incidence de l'évolution démographique sur le maintien en poste de CDT, et la façon dont l'efficacité du mode de formation diffère selon l'expérience des CDT. Nous discuterons des considérations relatives à l'avenir de la collecte de données en personne, notamment en complétant le processus de collecte de données sur le terrain avec des solutions de rechange multimodes telles que les interviews par vidéo, la professionnalisation du rôle des CDT et la mise à jour des propositions de valeur pour les répondants.
-
- Création d'une population synthétique pour évaluer les options de remaniement par simulation dans le cadre d'une enquête avec renouvellement de panel
Pauline Summers, Andrew Brennan, Statistique Canada, Canada-
Résumé
La méthodologie de l'Enquête sur la population active (EPA) fait l'objet d'un examen approfondi tous les 10 ans. Dans le cadre de l'examen en cours, nous avons élaboré un système de simulation qui reproduit le processus d'enquête complexe de l'EPA, de l'échantillonnage à l'estimation, pour étudier d'autres méthodes ou cerner les points à améliorer. En raison de la complexité de l'EPA, laquelle se traduit par une enquête avec renouvellement de panel, un estimateur composite de régression et d'autres caractéristiques, il a été à la fois difficile d'élaborer le système de simulation qui s'est par ailleurs révélé très utile pour parvenir à comprendre comment les différentes composantes interagissent. Depuis son élaboration, il s'est avéré un outil indispensable qui nous a aidés à produire des connaissances propres à l'EPA qui autrement auraient été très difficiles ou impossibles à obtenir.
Cette présentation décrit la méthodologie que nous avons utilisée pour élaborer la population synthétique qui est le fondement de ces simulations. Nous avons été confrontés à une panoplie de défis de modélisation uniques, jonglant entre les exigences relatives aux spécifications des variables avec une cohérence transversale et une cohérence longitudinale pour appuyer les simulations du processus complexe d'enquête de l'EPA. La solution que nous avons trouvée est une « population avec renouvellement de panel », modélisée sur une période de six ans en utilisant une combinaison de techniques de modélisation transversale et longitudinale.La population synthétique est constituée de six ensembles de « clones » parallèles d'une population de départ. Chaque unité de « clone » est modélisée sur une base longitudinale pendant six mois, puis réinitialisée. Ce processus permet d'obtenir la série de six mois requise pour chaque répondant simulé de l'EPA, tout en atténuant la dérive qui découle de la projection d'une population sur une période prolongée. Nous avons élaboré une procédure méthodologique innovante pour générer les données en plusieurs étapes, tout en utilisant différents outils et techniques statistiques et les mettant en œuvre dans R.
-
- Améliorer la saisie automatique des reçus fournis dans le cadre de l'Enquête sur les dépenses des ménages à l'aide de techniques d'apprentissage automatique de pointe
Joanne Yoon, Oladayo Ogunnioki, Statistique Canada-
Résumé
L'Enquête sur les dépenses des ménages (EDM) de Statistique Canada recueille des journaux papier et des reçus d'achats comme source de données sur les dépenses des ménages. Un algorithme de saisie automatique a été créé pour l'EDM de 2023 afin de réduire le travail manuel des commis à la statistique qui consiste à extraire les renseignements importants de reçus numérisés de chaînes de magasins populaires. L'algorithme utilisait l'outil de reconnaissance optique de caractères (ROC) Tesseract pour extraire des caractères de texte à partir d'images de reçus et identifiait des entités de magasin et de produit en utilisant des expressions régulières, également appelées des « exreg ». Cette étude visait à améliorer l'algorithme actuel de saisie automatique en mettant à l'essai des méthodes de ROC et d'apprentissage automatique plus avancées. Par conséquent, PaddleOCR, une trousse d'outils de ROC à accès libre, a été choisi comme nouveau moteur de ROC par défaut en raison de son rendement général en matière de reconnaissance exacte de textes, notamment au niveau des chiffres, sur des reçus de qualités diverses. De plus, les classificateurs d'entités basés sur des machines à vecteurs de support ont été entraînés sur les enregistrements historiques de l'EDM et les modèles d'exreg existants. En utilisant des classificateurs pour classer les différents éléments présents sur les reçus au lieu de s'appuyer uniquement sur des modèles d'exreg, le processus de reconnaissance des produits et des magasins est meilleur. On prévoit que ce nouvel algorithme sera utilisé dans l'EDM de 2025 afin d'améliorer la qualité de la saisie automatique et de réduire le fardeau manuel associé à la saisie des variables de reçus.
-
- Utiliser les grands modèles de langage pour automatiser l'analyse de données d'autres sources du compte des flux physiques des matières plastiques
Alexandre Istrate, Oladayo Oggunnioki, Statistique Canada-
Résumé
Le programme pilote du compte des flux physiques des matières plastiques (CFPMP) vise à suivre le flux des matières plastiques dans l'économie canadienne. Dans le cadre de ce programme, les analystes s'appuient fortement sur d'autres sources de données, lesquelles sont constituées d'un éventail diversifié de rapports annuels provenant de diverses entreprises et organisations. De telles sources sont essentielles pour mener des recherches approfondies et vérifier les activités qui sont pertinentes au compte.
En raison de leur format non structuré et de leur nature diversifiée, l'analyse des rapports annuels de diverses entreprises et organisations est un processus laborieux et inefficace qui exige beaucoup de temps et d'efforts de la part des analystes. Afin de combler cette lacune, le projet tire parti des techniques avancées de traitement du langage naturel (TLN), dont les grands modèles de langage (GML), pour automatiser deux objectifs clés : la classification sectorielle et la synthèse des répercussions de la pandémie de COVID-19.
L'objectif était d'élaborer un pipeline algorithmique capable d'ingérer des documents PDF; de classer, d'après leur contenu, les entreprises en secteurs distincts (résidentiel, commercial, institutionnel, industriel et construction); et de résumer les répercussions de la pandémie de COVID-19 sur les activités liées à l'industrie des matières plastiques, notamment en ce qui concerne les taux de collecte et de recyclage et les perturbations logistiques.
En automatisant ces tâches, le projet vise à améliorer l'efficacité de l'extraction des données, à réduire la charge de travail manuel et à améliorer la qualité des aperçus tirés de l'analyse documentaire. L'objectif ultime est de contribuer à l'avancement de la recherche environnementale et économique et d'éclairer les stratégies de gestion durable des ressources en plastique. En exploitant la puissance des GML, le projet vise à libérer le potentiel d'autres sources de données, tout en fournissant des aperçus plus précis et efficaces pour façonner les politiques environnementales et économiques et les processus décisionnels.
-
12 h 00 – 13 h 30
Pause dîner
13 h 30 – 15 h 00
Séance 3A – Estimation sur petits domaines : Extensions, applications et nouveaux développements session parrainée par l'Association internationale des statisticiens d'enquêtes (AISS)
Salle Simon Goldberg
- Estimation sur petits domaines hiérarchique bayésienne de la prévalence au niveau des comtés d'avoir son propre médecin de famille
Andreea Erciulescu, Westat, USA-
Résumé
La complexité des données d'enquête et la disponibilité des données provenant d'autres sources motivent les chercheurs à examiner des méthodes d'estimation qui vont au-delà des estimations classiques fondées sur des enquêtes. Le Behavioral Risk Factor Surveillance System (BRFSS) des Centers for Disease Control and Prevention des États-Unis permet de recueillir un large éventail de renseignements sur la santé, et de savoir notamment si les répondants ont leur propre médecin de famille. Alors que le BRFSS porte essentiellement sur l'estimation au niveau des états, la demande est là pour obtenir des estimations des indicateurs de santé au niveau des comtés à l'aide des données du Système. Un modèle hiérarchique bayésien d'estimation sur petits domaines a été élaboré pour combiner les données d'enquête du BRFSS au niveau des comtés avec des données provenant d'autres sources, tout en tenant compte des diverses sources d'erreur et des niveaux géographiques emboîtés. Afin d'atténuer les problèmes de proportions extrêmes et de variances d'enquête instables, les données d'enquête ont été transformées. Des prédictions fondées sur des modèles au niveau des comtés sont élaborées pour obtenir la prévalence d'avoir son propre médecin de famille dans tous les comtés américains, y compris ceux pour lesquels les données d'enquête du BRFSS n'étaient pas disponibles. Nous présentons également une étude d'évaluation utilisant uniquement les comtés affichant de grandes tailles d'échantillon du BRFSS pour s'adapter au modèle plutôt que tous les comtés avec des données du BRFSS.
-
- Nouveaux rebondissements par rapport aux anciens procédés : applications et extensions des modèles sur petits domaines classiques
Emily Berg, Iowa State University, É.-U.-
Résumé
Le modèle mixte est un outil largement accepté dans le cadre de l'estimation sur petits domaines. D'après le fondement du présent exposé, cette approche approuvée répond toujours aux défis que posent les problèmes modernes liés aux estimations sur petits domaines. Afin de démontrer cela, nous examinons les applications et les extensions des modèles sur petits domaines au niveau des domaines et des unités. Nous exposons d'abord l'utilisation de modèles multivariés de Fay-Herriot pour procéder à l'estimation sur petits domaines des taux de victimisation. Dans le cadre de cette application, nous utilisons des données de l'enquête nationale sur les victimes de la criminalité (National Crime Victimization Survey) et illustrons la valeur des modèles au niveau du domaine dans une application d'intérêt courant. Nous passons ensuite en revue les différentes approches d'estimation sur petits domaines des paramètres non linéaires, comme la médiane ou le quartile, dans le contexte du modèle au niveau de l'unité. Nous examinons les méthodes d'échantillonnage informatif ainsi que les extensions des modèles de famille de dispersion exponentielle.
L'examen porte tant sur les innovations modestes que sur les procédures bien établies. Les méthodes illustrent que la construction de base du modèle mixte reste un outil utile pour régler les problèmes d'intérêt récent que posent les petits domaines.
-
- Rétro-ingénierie d'un processus de réconciliation hypothétique pour estimer l'erreur quadratique moyenne (EQM) des estimations sur petits domaines réconcilié
François Verret et Braedan Walker, Statistique Canada, Canada-
Résumé
L’estimation sur petits domaines (EPD) du total de l'emploi et du taux de chômage à l'aide du modèle de Fay-Herriot est effectuée sur une base mensuelle dans le cadre de l'Enquête sur la population active (EPA). Ces estimations sont nécessaires pour un découpage des 10 provinces défini par les régions métropolitaines de recensement, les agglomérations de recensement, ainsi que des régions géographiques complémentaires nommées « zones de travail autonomes ».
Afin de contrer les lacunes des modèles et assurer la cohérence, les estimations sur petits domaines du taux d'emploi total sont réconciliées à leurs estimations provinciales directes publiées, dont la qualité est bonne par design. Une procédure bootstrap paramétrique basée sur l’hypothèse habituelle d'indépendance entre les estimations directes au niveau des régions donne une EQM de l'agrégat des estimations réconciliées à l'échelle provinciale qui est considérablement plus élevée que la variance de l'estimation directe provinciale, surtout en ce qui concerne les petites provinces. En effet, le calage des poids de l'EPA (à l'échelle provinciale) produit des corrélations négatives entre les estimations directes infraprovinciales. En ignorant cette corrélation négative, on obtient donc des estimations d'EQM des estimations réconciliées qui devraient être gonflées artificiellement.
Un bootstrap paramétrique est utilisé avec une matrice de covariances de travail des estimations directes obtenue en lissant les composantes de variance (comme dans le cas de l'indépendance) et en procédant à l'ingénierie inverse d'un processus de réconciliation hypothétique pour dériver les termes de covariance. L'application de la théorie résultante donne des variances des totaux provinciaux des EPD réconciliées qui concordent avec celles des estimations directes provinciales. Les estimations de l'EQM des EPD réconciliées obtenues sont à leur tour réduites et sont donc considérées comme plus raisonnables.
-
13 h 30 – 15 h 00
Séance 3B – Évaluer et améliorer les enquêtes
Salle de Conférence du Jean-Talon
- Correction des biais de sélection dans une enquête non probabiliste à deux phases sur les paiements
John Tsang, Université d'Ottawa, Canada
Heng Chen, Banque du Canada, Canada -
-
Résumé
Cette présentation permet d'étendre l'estimateur du pseudomaximum de vraisemblance (PMV) à l'échantillonnage non probabiliste à deux phases en tirant parti de l'échantillon probabiliste au niveau individuel. À l'aide de la deuxième vague de l'Enquête de 2020 sur les solutions de rechange à l'argent comptant de la Banque du Canada, nous comparons la performance de la méthode que nous proposons à celle d'autres méthodes, lesquelles soit ne tiennent pas compte d'un plan de sondage à deux phases, soit ne modélisent pas explicitement la probabilité de sélection. Selon les résultats obtenus, l'approche fondée sur le PMV fonctionne mieux que la méthode itérative dans le cadre de la réduction des biais de sélection des variables à deux phases liées aux paiements, particulièrement en ce qui concerne le groupe des jeunes dont le taux de réponse est faible. De plus, les biais du système de pondération du PMV à deux phases tenant compte des mécanismes de sélection des deux phases sont plus faibles que les solutions de rechange fondées sur la phase 2 seulement qui ignorent la phase 1 et abordent simplement la phase 2 comme un plan autonome comportant une seule phase. La présentation se terminera par une discussion sur l'estimation de la variance des deux phases.
-
- Recrutement et collecte de panels Web à Statistique Canada
Krista MacIsaac, Cilanne Boulet, Marnie Thomas, Statistique Canada, Canada-
Résumé
En 2020, Statistique Canada a commencé à utiliser des panels Web probabilistes comme autre méthode de collecte de statistiques officielles. Dans le cadre d'un panel Web, on demande à des répondants d'autres enquêtes de fournir leurs coordonnées en vue de participer à de futures petites enquêtes internes. Cette présentation mettra en lumière l'expérience de Statistique Canada en matière de panels après quatre années d'utilisation, y compris les leçons tirées sur le recrutement des participants au panel et la façon de recueillir par la suite des données au moyen de sondages par panel. Par exemple, des questions de recrutement ont été posées par divers moyens. Il en a résulté des taux de participation très différents. De plus, la richesse des informations auxiliaires disponibles sur l'enquête de recrutement peut non seulement être intégrée à la création des poids, elle peut également servir à gérer activement les opérations de collecte, tout en prédisant la probabilité de réponse conformément aux efforts de suivi ciblés.
-
- Évaluation des biais liés aux panels Web probabilistes de Statistique Canada
Anne Mather, Cilanne Boulet, Statistique Canada, Canada-
Résumé
Statistique Canada a commencé à mettre en œuvre des panels Web probabilistes en 2020.
Les participants à ces panels sont recrutés au moyen de questions d'autres enquêtes de Statistique Canada en vertu desquels on demande aux personnes désireuses de participer de fournir leurs coordonnées. Les panels Web sont une méthode de collecte rapide et rentable pour répondre aux nouveaux besoins en matière de données. Leurs taux de réponse sont toutefois plus faibles que ceux habituellement observés avec les méthodes d'enquête traditionnelles. Malgré les taux de réponse plus faibles, les enquêtes de recrutement fournissent beaucoup de renseignements auxiliaires relatives aux répondants et aux non-répondants au panel, lesquels peuvent servir dans les ajustements pour la non-réponse.
Une étude a été menée pour explorer le biais potentiel associé à ces taux de réponse plus faibles et le degré auquel il peut être corrigé pendant la pondération. Nous vous présenterons les faits saillants de cette étude.
-
- Filer sur la voie du FastText : Exploiter l'apprentissage automatique restreint par la programmation linéaire pour réviser les classifications
Justin Evans, Laura Wile, Statistique Canada, Canada-
Résumé
L'Enquête sur la population active (EPA) de Statistique Canada joue un rôle essentiel dans l'estimation des conditions du marché du travail au Canada. Périodiquement, l'EPA révise ses données selon les versions les plus récentes de la classification des industries et des professions. Les versions peuvent présenter des écarts importants, dont des changements structurels, des créations, des suppressions, des fractionnements et la combinaison des unités de classification (catégories) de haut niveau et selon l'unité ou le groupe. Par le passé, afin de rapprocher les catégories fractionnées, en vertu desquelles une catégorie était fractionnée en plusieurs catégories, on recodait manuellement un échantillon d'enregistrements fractionnés de l'EPA selon la nouvelle version de classification. Selon la proportion de fractionnement observée dans l'échantillon recodé, une méthode d'allocation aléatoire était appliquée à toutes les données pour refléter l'évolution du marché du travail canadien au fil du temps. Le présent article propose d'utiliser l'apprentissage automatique (fastText), contraint à des proportions fractionnées par programmation linéaire, pour réviser les classifications des industries et des professions dans l'EPA.
Le cadre hybride bénéficie d'un mécanisme de révision basé sur le texte, tout en respectant les estimations traditionnelles des proportions, et en assurant un impact minimal sur la comparabilité des indicateurs du marché du travail publiés.
-
- Stratégies d'imputation axées sur les données et leurs indicateurs de qualité connexes dans les enquêtes économiques
Matei Mireuta, Ahalya Sivathayalan, Stephen Styles, Statistique Canada, Canada-
Résumé
La majorité des enquêtes économiques menées par Statistique Canada sont traitées dans le Programme intégré de la statistique des entreprises (PISE). Le cadre du PISE repose sur le contrôle de la qualité et l'imputation (CQI) effectués par le système généralisé BANFF ainsi que sur le Système généralisé G-Est qui produit les estimations et l'estimation de la variance. À l'heure actuelle, l'estimation de la variance est réalisée de manière analytique à l'aide du Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), qui fait partie du système G-Est.
Les stratégies classiques de CQI utilisées pour mener des enquêtes économiquessont généralement fondées sur l'imputation linéaire composite étant donné la différence de disponibilité des données auxiliaires entre les unités. Des dizaines (et souvent plus) de modèles d'imputation possibles d'une variable donnée peuvent toutefois en découler, ce qui complique vraiment la mise en œuvre, le soutien et l'analyse de la stratégie globale d'imputation de l'enquête. Dans le cadre des récentes initiatives de modernisation que l'organisme a mises en place, notre équipe a étudié plusieurs solutions découlant de l'apprentissage automatique et a examiné leur application et la qualité de l'imputation dans le contexte des enquêtes économiques.
Cette présentation présentera certains de ces résultats, ainsi que les difficultés rencontrées dans l'estimation de la variance due à l'imputation de ces méthodes.
Les auteurs décriront deux méthodes d'ajustement des données à l'utilisation pour estimer la variance totale et leurs avantages et désavantages d'un point de vue d'un cadre de traitement harmonisé, tel que le PISE.
-
15 h 00 – 15 h 30
Pause de l'après-midi
15 h 30 – 17 h 30
Séance 4 – Initiatives de collecte dans des situations difficiles
Salle Simon Goldberg
- Collecte de données sociales : concevoir et modifier
Fiona ORiordan, Central Statistics Office, Irlande -
-
Résumé
Les données sociales sont essentielles au bon fonctionnement de la société. Quel âge avons-nous? Quel est notre sexe? Quel est notre niveau de scolarité? Travaillons-nous? Avons-nous un manteau chaud? Avons-nous déjà subi de la discrimination? Ce sont là des données qui donnent au gouvernement, aux chercheurs et aux citoyens un aperçu de notre vie. Lorsque nous devons répondre continuellement à de telles questions, nous sommes à même de constater notre évolution et celle de nos besoins.
La tâche de collecte de données sociales a considérablement évolué au cours des 5 à 10 dernières années. Bien que les intervieweurs sur le terrain aient encore un rôle à jouer, il est maintenant temps de compléter ce mode d'interview en optant pour d'autres moyens de recueillir de telles données. L'innovation est la clé. Nous devons maintenant comprendre les répondants et concevoir des campagnes efficaces et qui sont même attrayantes pour naviguer sur la voie de la réussite. Le Central Statistics Office (CSO) utilise le concept de plan de collecte adaptatif afin d'assurer le succès continu de la collecte des données sur les ménages. C'est sur cet aspect que la conception de l'enquête est adaptée aux besoins du répondant.
Le Bureau Central de Statistique d'Irlande passe à un environnement multimode. Il a examiné et continue d'examiner son plan d'échantillonnage pour toutes les enquêtes. Le Bureau s'emploie actuellement à renforcer et à tenir le plus à jour possible la base de sondage en utilisant les données administratives; la science comportementale, l'analyse des comportements de réponse antérieurs et l'utilisation d'enquêtes par panel sont quelques-uns des principaux projets qui sont mis en place actuellement.
Le Bureau s'adapte aux changements et aux besoins sociétaux en utilisant différents outils et diverses méthodes pour continuer de recueillir des données sociales de bonne qualité.
-
- Les défis d'une collecte de données dans un contexte éloigné, l'exemple de la collecte de l'Enquête sur la santé des jeunes du secondaire du Nunavik – UVIKKAVUT QANUIPPAT?
Catherine Côté, Marcel Godbout, Institut de la statistique du Québec, Canada-
Résumé
Depuis 2010, l'Enquête québécoise sur la santé des jeunes au secondaire (EQSJS) est réalisée tous les six ans par l'Institut de la statistique du Québec (ISQ) pour le compte du ministère de la Santé et des Services sociaux (MSSS). Il y a ainsi eu une édition en 2010-2011, en 2016-2017 et en 2022-2023. L'objectif avec cette enquête est de recueillir des données sur la santé physique et mentale, les habitudes de vie et l'adaptation sociale des élèves du secondaire des régions du Québec. La région du Nunavik, qui est composée de 14 communautés situées dans le nord arctique du Québec, n'était pas couverte lors de ces trois éditions, et ce, parce que les besoins en santé et les réalités n'y sont pas les mêmes que dans les régions du sud de la province. Or, en 2016, la Régie régionale de la santé et des services sociaux du Nunavik (RRSSSN), la commission scolaire Kativik Ilisarniliriniq et le MSSS ont manifesté à l'ISQ le souhait qu'une enquête semblable à l'EQSJS soit menée spécifiquement pour le Nunavik. C'est ainsi que l'ISQ a commencé la planification d'une telle enquête en 2016. Mais ce n'est qu'en 2022, après de nombreux défis rencontrés, qu'elle a pu être réalisée. La collecte a été effectuée dans l'ensemble des communautés, et les élèves du secondaire ont été recensés dans chacune d'elles, notamment car le nombre qu'on y trouve est assez petit. Le questionnaire de l'EQSJS a été repris, mais grandement adapté afin de refléter les particularités de la région. Lors de la présentation de cette enquête intitulée Enquête sur la santé des jeunes du secondaire du Nunavik – UVIKKAVUT QANUIPPAT?, il sera question des différents défis (géographiques, logistiques, contextuels, etc.) qui ont été rencontrés lors de la collecte de données et de la manière dont ils ont été surmontés.
-
- Mesurer la santé des Autochtones résidant en milieu urbain au moyen de l'échantillonnage déterminé selon les répondants
Lisa Avery et Sara Wolfe, University Health Network (Toronto) et Centre de santé et de mieux-être des Autochtones, Canada-
Résumé
Le projet de recherche Notre santé compte (NSC) utilise l'échantillonnage en fonction des répondants qui combine la stratégie de recrutement de pair-à-pair à des méthodes statistiques pour échantillonner des populations difficiles à atteindre, car elles ne font pas partie d'une base de sondage. L'intégration du processus d'échantillonnage dans une communauté permet de recueillir des données sociodémographiques exhaustives qui pourraient autrement être sous-déclarées dans un recensement normal, tout en tirant parti des solides connexions établies au sein d'un groupe. Le processus d'enquête permet de recueillir des renseignements sur la connectivité sociale qui, seuls ou en combinaison avec des données sur les liens dans la chaîne de recrutement, servent à ajuster et à obtenir des estimations sans biais des paramètres de population en tenant compte de la probabilité d'échantillonnage inégale et de l'homophilie dans le réseau social. Un ensemble initial de 10 à 12 personnes de la population cible est sélectionné pour participer à l'enquête NSC. Ceux-ci recommandent ensuite des membres de leurs familles et des amis. La première vague de recrues est établie à l'aide de ces personnes recommandées. Celles-ci reçoivent un code numérique unique de coupon, ainsi que des honoraires. Une participation à l'enquête est ensuite organisée. La deuxième vague de participants est recrutée en fonction des recommandations de la première vague, et ainsi de suite, jusqu'à atteindre la taille de l'échantillon cible. Le recrutement des enfants se fait par l'entremise des personnes ayant la garde qui répondent à l'enquête. Chaque projet de NSC est dirigé par des Autochtones. Les données demeurent la propriété et la gouvernance des communautés. NSC a permis de produire des données culturellement significatives et pertinentes sur la santé des adultes et des enfants autochtones. Il a terminé l'étape de collecte de données à Winnipeg, au Manitoba, sous la direction du Centre de santé et de mieux-être des Autochtones de Winnipeg. Les éléments essentiels de l'approche de NSC sont les principes de réciprocité, de relationnalité et d'autodétermination de la communauté locale.
-
Jeudi 31 octobre 2024
9 h 00 – 10 h 00
Session 5 – Waksberg Award Winner Address
Salle Simon Goldberg
- Conférence de Waksberg 2024 : Plan d'échantillonnage à partir de modèles
Richard Valliant, Professeur de recherche émérite, University of Michigan et Joint Program in Survey Methodology, University of Maryland, É.-U.-
Résumé
Joseph Waksberg a été un acteur important dans le domaine des statistiques d'enquête, principalement dans le cadre des travaux appliqués qu'il a réalisés dans le domaine de la conception d'échantillons. Il a par ailleurs adopté une approche fondée sur le plan de sondage à l'égard des plans d'échantillonnage, tout en mettant l'accent sur l'utilisation de la répartition aléatoire pour créer des estimateurs dotés de bonnes propriétés fondées sur le plan. Depuis l'époque où il œuvrait, des progrès ont été réalisés dans l'utilisation de modèles pour la conception de plans et dans les logiciels, afin de mettre en œuvre des plans de sondage élaborés. Le présent article examine les diverses utilisations des modèles dans le cadre d'un échantillonnage équilibré, des échantillons avec seuils d'exclusion, de la stratification à l'aide de modèles, de l'échantillonnage à plusieurs degrés et de la programmation mathématique pour déterminer les tailles et les répartitions des échantillons.
-
10 h 00 – 10 h 30
Pause du matin
10 h 30 – 12 h 00
Séance 6A – Progrès récents dans la modélisation de séries chronologiques
Salle Simon Goldberg
- Séries chronologiques multiniveau pour dégager des tendances en matière de mobilité aux Pays-Bas
Harm Jan Boonstra, Maastricht University, Pays-Bas
Jan van den Brakel, Statistics Netherlands, Maastricht University, Pays-Bas-
Résumé
L'Enquête sur les voyages aux Pays-Bas (EVPB) vise à produire des estimations fiables sur la mobilité de la population néerlandaise. Dans le cadre du présent article, nous proposons un modèle de séries chronologiques multiniveau pour estimer les tendances en matière de mobilité selon plusieurs niveaux d'agrégation. La méthode a été élaborée pour résoudre différents problèmes. En effet, en ce qui concerne de nombreux domaines de publication, la taille des échantillons est si petite que les estimations directes des paramètres cibles sont très bruyantes et trop peu fiables. Le modèle de séries chronologiques est conçu comme une forme d'estimation sur petits domaines pour obtenir des estimations par domaine plus précises et des séries de tendances plus fluides.
Les chocs systématiques dans les estimations d'échantillons, lesquels sont le résultat de trois grands remaniements du processus d'enquête, constituent un autre problème. Ces chocs ou ces discontinuités perturbent la comparabilité de chiffres qui ont été publiés par le passé. Le modèle de séries chronologiques tient compte des discontinuités au moyen d'une composante d'intervention qui permet d'obtenir des séries ininterrompues d'estimations de tendances. Enfin, le coronavirus a eu des répercussions importantes sur la mobilité. D'autres ajustements doivent donc être apportés au modèle.
La EVPB est une enquête polyvalente qui produit de nombreux tableaux de sortie différents. Au lieu d'élaborer des modèles distincts pour chacun des tableaux de sorties, un modèle multivarié de séries chronologiques est conçu pour ventiler les paramètres de population au niveau le plus détaillé dans environ 700 domaines. Cette ventilation est établie à partir de la classification croisée de tous les tableaux de sortie d'intérêt. On obtient des prédictions à des niveaux d'agrégation plus élevés en agrégeant les prédictions de ces 700 domaines. Nous obtenons ainsi un ensemble d'estimations numériquement cohérentes de toutes les variables cibles, lesquelles sont corrigées pour tenir compte des différentes discontinuités.
La modélisation des séries chronologiques au niveau le plus détaillé nécessite des composants à effets aléatoires afin d'éviter de surajuster les séries chronologiques, particulièrement en ce qui concerne les discontinuités. De plus, les effets aléatoires non répartis normalement, tels que les répartitions de Laplace et Horseshoe, servent de méthode de régularisation pour supprimer les coefficients de modèle bruyants et, parallèlement, permettre d'obtenir des effets importants qui sont suffisamment étayés par les données. Le modèle a été conçu dans un cadre bayésien hiérarchique et ajusté à l'aide d'une simulation de Monte Carlo à chaîne de Markov (MCCM). La méthode est mise en œuvre en production pour publier des statistiques officielles sur la mobilité.
-
- L'incidence des catastrophes environnementales sur la dette des particuliers canadiens
Cristina Agatep, Banque du Canada, Canada-
Résumé
Le nombre de catastrophes naturelles a augmenté au Canada depuis les dernières années. L'intérêt envers l'effet des phénomènes météorologiques sur les finances personnelles de ses citoyens s'est donc accru. Le suivi de la dette de consommation individuelle s'accompagne de coûts élevés liés à la protection des renseignements personnels. La répartition de la dette de consommation est plutôt suivie au fil du temps pour trouver un équilibre entre la nécessité de protéger les renseignements personnels et bien comprendre les comportements de la population.
La présente allocution porte principalement sur l'incidence des feux de forêt sur la répartition de la dette dans l'optique de l'inférence causale, alors que l'évolution des densités dans le temps est traitée comme des objets de données fonctionnels. Un modèle de contrôle synthétique est utilisé pour tenir compte de l'évolution contrefactuelle de la répartition de la dette à la suite des feux de forêt qui sont survenus en 2016 à Fort McMurray
-
- Mécanismes de protection des renseignements personnels qui permettent de trouver un équilibre dans l'utilité des données de séries chronologiques
Anindya Roy, University of Maryland Baltimore County et United States Census Bureau, É.-U.-
Résumé
Il est d'une importance capitale que les organismes qui produisent des données assurent la protection des renseignements personnels lorsqu'ils diffusent des données. Les questions de protection des renseignements personnels et de confidentialité dans les mécanismes de collecte et de diffusion des données ont subi des changements révolutionnaires au cours des dernières années. Les procédures garantissant la protection des renseignements personnels souhaitée lors de la diffusion de données utilisent principalement l'ajout de bruit pour atteindre les objectifs en matière de confidentialité. Bien qu'il s'agisse d'une solution attrayante et appropriée pour les bases de données générales, l'ajout de bruit aux données tirées de séries chronologiques modifie habituellement la structure d'autocorrélation de l'échantillon, compromettant ainsi l'utilité des données chronologiques. Nous proposons un mécanisme de protection des renseignements personnels qui répond au double objectif de protection des renseignements personnels et d'utilité des données de séries chronologiques. Le mécanisme proposé utilise la convolution de bruit au lieu de l'ajout de bruit afin de trouver un compromis entre la protection des renseignements personnels et l'utilité. Dans le contexte de ce que nous proposons, nous étudions la conception de filtres afin de définir des quantités qui restent invariantes dans le cadre du mécanisme, excluant ainsi ces fonctions de données du budget consacré à la protection des renseignements personnels. Nous proposons également des généralisations qui contribuent à rendre agnostiques le modèle de mécanisme de protection des renseignements personnels basé sur le filtrage, ainsi que les modèles qui s'appliquent aux séries chronologiques multiples.
-
10 h 30 – 12 h 00
Séance 6B – Éthique des données et confidentialité
Salle de Conférence du Jean-Talon
- Faire progresser la collecte de données équitables : aperçus du projet de recherche sur le Plan d'action sur les données désagrégées de la Division des méthodes d'intégration statistique de Statistique Canada
Andrew Pearce, Kenza Sallier, Christiane Laperrière, Statistique Canada, Canada-
Résumé
À une époque marquée par la défense des droits autochtones, la justice raciale et l'équité économique, Statistique Canada s'est engagé sur la voie de la transformation en mettant en place le Plan d'action sur les données désagrégées (PADD). Cette initiative vise à moderniser les méthodes de collecte de données afin de mieux comprendre et de relever les défis auxquels font face divers groupes de population, dont les femmes, les Autochtones, les communautés racisées et les personnes ayant des incapacités. Dans ce contexte, la Division des méthodes d'intégration statistique de Statistique Canada a entrepris une enquête exhaustive sur les répercussions éthiques et pratiques découlant de l'évolution des plans d'enquête et des sources de données.
Les recherches se sont soldées par la création du document intitulé « Principes directeurs : utiliser les données du Recensement de la population de 2021 pour produire des statistiques sur les groupes d'intérêt du Plan d'action sur les données désagrégées ». Ce document résume les précieux renseignements que nous avons tirés de notre enquête et de notre revue de la littérature. Il explique le cadre organisationnel du PADD au sein de Statistique Canada, présente les sources de données existantes, tient compte des aspects éthiques et effectue un examen minutieux des méthodes d'échantillonnage adaptées aux initiatives du PADD.
S'appuyant sur des cadres théoriques et des applications fondés sur l'expérience de Statistique Canada, les résultats mettent en lumière l'importance de tenir compte des caractéristiques de la population, tels que la clandestinité et la connectivité sociale, dans la sélection des méthodes d'échantillonnage appropriées. À travers des exemples concrets et une analyse détaillée des avantages et des inconvénients, les principes directeurs fournissent aux décideurs une trousse d'outils complète pour naviguer dans les méandres de la collecte de données dans les différents contextes du PADD.
Dans le cadre du présent exposé, nous examinerons les lacunes méthodologiques que les méthodes d'échantillonnage non traditionnelles peuvent remplir dans le contexte du PADD; l'importance de l'établissement de normes claires lors de la création et de l'utilisation de telles méthodes; ainsi que les aspects pratiques liés à la mise en œuvre dans le contexte d'un organisme national de statistique.
-
- Sur l'interaction des exigences légales, des aspects de qualité et des risques éthiques lors de l'utilisation de l'apprentissage automatique dans les statistiques officielles
Florian Dumpert, Federal Statistical Office of Germany, Allemagne-
Résumé
L'éthique fait des déclarations sur la façon dont nous devrions agir. Des questions éthiques et des risques éthiques peuvent également survenir lorsque l'apprentissage automatique est utilisé dans les statistiques officielles. De façon plus générale : Lorsque des méthodes et des technologies sont utilisées pour produire des statistiques officielles. La présentation traite de l'interaction et des dépendances de ces risques éthiques, des exigences légales et des aspects de qualité et discute de l'approche des statistiques officielles allemandes pour aborder le sujet « Éthique de l'apprentissage automatique ».
-
- Analyse du contrôle statistique de la divulgation pour les estimations sur petits domaines
Cissy Tang, Statistique Canada, Canada-
Résumé
À l'heure actuelle, Statistique Canada n'a pas de directives officielles sur les règles de confidentialité entourant les estimations sur petits domaines et aucune étude officielle n'a encore été menée sur le sujet. Au cours des dernières années, il y a eu une demande croissante de la part des chercheurs des centres de données de recherche (CDR) pour l'élaboration de lignes directrices complètes en matière de protections des renseignements personnels afin qu'ils puissent publier des estimations sur de petits domaines dans leurs recherches. Cette analyse de la confidentialité s'applique à l'estimation sur petits domaines au niveau des régions.
Une étude de simulation est menée dans R pour créer des populations simulées à partir desquelles les échantillons sont sélectionnés. La population simulée contient une variable auxiliaire, une variable d'intérêt et des informations sur le domaine. La force du lien entre la variable auxiliaire et la variable d'intérêt est contrôlée par l'entremise d'une variable « d'erreur » avec une composante aléatoire.
Des échantillons aléatoires stratifiés sont tirés et des estimations sur petits domaines au niveau régional sont calculées à l'aide d'un progiciel R « sae » (Molina et Marhuenda, 2015). La simulation est exécutée pour différents taux d'échantillonnage et divers niveaux de force du lien des variables auxiliaires pour identifier les domaines potentiels de risque de divulgation. On a comparé le risque de divulgation de l'estimation sur petits domaines avec celui de l'estimation directe de Horvitz-Thompson afin de démontrer que les estimations sur petits domaines sont intrinsèquement moins risquées que les estimations directes, surtout lorsque les taux d'échantillonnage sont très élevés. Les résultats sont ensuite analysés et, enfin, des lignes directrices exhaustives en matière de confidentialité pour la divulgation des estimations sur petits domaines sont proposées. La présentation décrira le processus de simulation et discutera des justifications des lignes directrices proposées en matière de confidentialité.
-
- Évaluation des risques liés à la divulgation de données synthétiques
Zhe Si Yu, Statistique Canada, Canada-
Résumé
L'adoption de la production de données synthétiques comme mesure de confidentialité augmente dans les organismes statistiques du monde entier, y compris à Statistique Canada. Cette approche offre une solution de rechange à la diffusion classique de fichiers publics anonymisés de microdonnées. La création de données synthétiques présente toutefois des défis au niveau de l'évaluation et de l'atténuation du risque de divulgation. Le présent article passe en revue les différents types de risques de divulgation, soit la divulgation d'attribut, la divulgation de données d'adhésion et la divulgation de l'identité, et présente certaines des méthodes connexes pour mesurer le risque. La divulgation de l'identité n'est pas reconnue pour être un problème lié aux données entièrement synthétisées, mais il en reste un pour les données partiellement synthétisées. L'article présente les grandes mesures d'évaluation des risques et examine les méthodes pratiques de contrôle de la divulgation dans le cadre de la synthèse des données. Les méthodes d'évaluation des risques de divulgation produisent habituellement une mesure qui peut servir à jauger le risque, mais il y a peu de consensus sur les valeurs limites de ces mesures. Il importe également de souligner l'importance de trouver le juste équilibre entre l'utilité et la confidentialité, ce qui nécessite une discussion plus approfondie dans le contexte de ces méthodes.
L'article se termine en offrant des idées et des recommandations sur la gestion du risque de divulgation lors de la création de données synthétiques. Il offre également quelques perspectives sur les orientations futures de la recherche et les répercussions pratiques de la gestion des risques de divulgation par l'entremise des données synthétiques.
-
- Exploration de la génération de données synthétiques d'apprentissage profond pour partager des données sensibles liées à des services publics
Julian Templeton, Benjamin Santos, Rafik Chemli, Statistique Canada, Canada-
Résumé
Les services publics détiennent des renseignements essentiels sur la consommation d'énergie et les caractéristiques des bâtiments, des informations que les organismes gouvernementaux peuvent utiliser pour améliorer leurs analyses correspondantes. Ces données sont toutefois associées aux enregistrements de clients privés. Les données sur les bâtiments et la consommation d'énergie peuvent être trop sensibles pour être partagées. Souvent, les versions agrégées de haut niveau de ces données sont partagées en vertu de contrats très restrictifs, ce qui limite le nombre de statistiques qui peuvent être dérivées.
Avec les progrès des techniques génératives d'apprentissage automatique, Statistique Canada et Ressources naturelles Canada ont examiné la faisabilité d'utiliser ces modèles pour produire des versions synthétiques des données sur les services publics qui peuvent être partagées intégralement avec les organismes qui en font la demande. Un service public peut créer ces ensembles de données synthétiques dans le cadre d'un programme géré localement et les extrants peuvent être approuvés avant d'être envoyés. Ces travaux ont permis d'établir que les services publics peuvent utiliser certains modèles génératifs pour générer de nouvelles versions d'un ensemble de données, ainsi que de recenser les problèmes qui doivent être résolus avant de mettre en œuvre le tout dans la pratique. Des modèles tabulaires et de séries chronologiques ont été mis à l'essai pour différents scénarios de partage de données. Le modèle TimeGAN a permis de saisir les pics et les creux d'énergie généraux au cours d'une journée donnée dans le respect d'exigences de calcul raisonnables. Bien que ce processus prenne plusieurs jours avant que les quantités d'énergie annuelles totalisent des milliers d'enregistrements de clients, de nouvelles initiatives de partage de données peuvent être mises en œuvre entre les services publics et les organismes nationaux de la statistique, tout en gérant les risques liés à la protection des renseignements personnels. Au fur et à mesure que les travaux progresseront dans le cadre des futures phases qui se dérouleront auprès de vrais partenaires des services publics, la confiance envers ces approches peut se renforcer, et on pourra commencer à mettre à l'essai celles-ci en utilisant des données réelles fournies par des détenteurs de données réels.
-
12 h 00 – 13 h 30
Pause dîner
13 h 30 – 15 h 00
Séance 7A – Stratégies pour atténuer le biais potentiel de la non-réponse dans les enquêtes sociales
Salle Simon Goldberg
- Stratégies pour combattre le biais lors de la préparation de la première collecte numérique et empreinte géographique réduite pour les enquêtes sur la population en Australie
Anders Holmberg, Australian Bureau of Statistics, Australie-
Résumé
Bien que les sources de données non probabilistes ne soient pas nouvelles dans le domaine des statistiques officielles, les pressions dues à la baisse des taux de réponse aux enquêtes, à l'augmentation des coûts liés à la collecte des données et au désir d'exploiter de nouvelles sources de données découlant de la numérisation sociétale en cours ont ravivé l'intérêt pour ce sujet. L'inférence dérivée uniquement d'une source de données non probabilistes est susceptible d'entraîner des biais, comme certains segments de la population cible sont exclus. Ces travaux abordent les difficultés liées au traitement des biais en intégrant des données non probabilistes aux échantillons probabilistes de référence. Nous nous concentrons sur les méthodes de modélisation de la propension à l'inclusion dans l'ensemble de données non probabilistes à l'aide de l'échantillon de référence qui l'accompagne. Les propensions modélisées sont alors appliquées à une approche de pondération par l'inverse de la probabilité pour produire des estimations démographiques. Dans certains cas, on suppose que l'échantillon de référence est fourni. L'objectif est toutefois de trouver, dans le cadre de cette présentation, une stratégie optimale, soit la combinaison d'un estimateur fondé sur l'intégration de données et d'un plan de sondage d'un échantillon probabiliste de référence. Nous exposons des travaux récents dont nous avons tiré parti pour dégager les bonnes possibilités d'identification des unités dans les enquêtes auprès des entreprises afin d'étudier un estimateur fondé sur les propensions et de dériver des probabilités de sélection optimale (inégales) d'un échantillon de référence.
-
- Traitement des biais de non-réponse et des biais d'attrition dans le cadre d'une Enquête sur la population active transformée
Petya Kozhuharova, Office for National Statistics, Royaume-Uni-
Résumé
L'Office for National Statistics (ONS) du Royaume-Uni s'emploie actuellement à transformer son Enquête sur la population active. Parmi les principales modifications qu'il a apportées, mentionnons le passage à un premier mode d'interview en ligne, la mise en œuvre d'un plan d'enquête adaptatif et le changement de la structure de la composante longitudinale. Des essais approfondis sur les biais d'attrition et de non-réponse présents dans les fichiers trimestriels de l'Enquête sur la population active transformée (à l'échelle de la Grande-Bretagne) ont été menés. Des biais de non-réponse importants ont été détectés selon la durée de l'emploi, l'âge et les régions défavorisées sur le plan géographique. La pondération comprenait une étape de calage préalable afin de compenser ces non-réponses et d'ajuster les répartitions avant la pondération finale. L'ONS a également mis en œuvre un plan d'enquête adaptatif et déployé des forces ciblées sur le terrain dans les secteurs reconnus pour non-réponse. Cette étape a permis d'augmenter les taux de réponse comme prévu et de compléter les ajustements apportés aux méthodes.
Des examens ont révélé différents profils d'attrition longitudinale dans la nouvelle enquête. La valeur de la situation d'emploi antérieure utilisée dans l'Enquête sur la population active transformée est un prédicteur important de l'attrition longitudinale, même après le contrôle d'autres prédicteurs. Le taux d'abandon des vagues subséquentes des personnes occupées et des travailleurs autonomes est nettement plus élevé. Par conséquent, après avoir procédé au calage préliminaire en guise d'ajustement pour la non-réponse de la vague 1, nous ajustons les poids de sondage individuels des vagues 2 à 5 en calculant les probabilités d'attrition séquentielles à l'aide de modèles de régression logistique. Ces poids propres aux vagues sont alors combinés avant le calage final. Le calage final est effectué en combinant les groupes d'âge, le sexe, l'autorité locale, les régions et le pays. Sans l'ajout de l'attrition qui comprenait la valeur de la situation économique antérieure, l'estimation trimestrielle était biaisée en faveur des personnes économiquement inactives qui sont plus susceptibles de répondre aux questions de l'enquête dans les vagues ultérieures.
Par conséquent, l'inclusion des ajustements d'attrition augmente les taux d'emploi comparativement à la pondération qui inclut seulement l'ajustement pour la non-réponse.
-
- Recherches dans les données administratives pour mesurer la pauvreté persistante des enfants
Adam O'Neill, Keith McLeod, Robert Templeton, Statistics New Zealand, Nouvelle-Zélande-
Résumé
L'utilisation d'information provenant de la Household Economic Survey (HES), Stats NZ, produit des estimations annuelles des taux de pauvreté en Aotearoa (Nouvelle-Zélande). Pour étendre cela, une nouvelle enquête longitudinale a été élaborée pour informer sur les taux de la pauvreté persistante des enfants – l'enquête Living in Aotearoa.
Les défis de la collecte associés à l'accroissement de la non-réponse, tout en conservant les coûts budgétisés, a posé un risque important pour la qualité des estimations en aval de la pauvreté persistante des enfants. Cela a mis en évidence la nécessité d'explorer d'autres moyens d'estimer la persistance de la pauvreté.
Les progrès réalisés dans la construction des ménages à l'aide de données administratives ont été une grande priorité à Stats NZ. Les ménages actuels basés sur ces données placent 90% des individus à la bonne adresse. Au niveau de la population, cela laisse toutefois une place notable aux écarts à l'intérieur des ménages.
En tirant parti de la couverture élevée des familles à faible revenu observée au moyen de données administratives sur le bien-être social, nous montrons que la formation de ces ménages basés sur les données administratives peut être améliorée dans le but de mesurer la pauvreté persistante des enfants en Aotearoa. Plus précisément, les données sur le bien-être familial couplées aux ménages HES et aux ménages formés avec un haut degré de confiance à partir des données administratives. Le revenu du ménage provenant de sources administratives permet de déterminer le statut de pauvreté des enfants non seulement pour l'année en cours, mais aussi pour les trois années précédentes.
Des validations de ces ménages ainsi que les taux de pauvreté qui en résultent seront également présentés.
-
13 h 30 – 15 h 00
Séance 7B – Couplage d'enregistrements
Salle de Conférence du Jean-Talon
- Couplage efficace d'enregistrements pour les grands ensembles de données, selon les noms d'entreprise
Hanan Ather, Statistique Canada, Canada-
Résumé
Le couplage d'enregistrements entre divers ensembles de données présente des défis importants dans les applications de mégadonnées, surtout lorsque les noms d'entreprise servent d'identificateurs uniques. Les méthodes de couplage traditionnelles s'accompagnent souvent de difficultés, telles que celles relatives à la variabilité du formatage, aux abréviations et aux erreurs dans les données de sources administratives et alternatives. Destinée à relever ce défi, l'approche présentée est une méthode robuste et conviviale qui permet de coupler efficacement les enregistrements d'entreprises tirés d'ensembles de données externes aux données du Registre statistique des entreprises (RSE), éliminant ainsi les contraintes de calcul que l'on pouvait rencontrer par le passé.
Le système utilise une série d'algorithmes d'appariement de chaînes, dont la distance d'édition, le modèle de n-grammes et la distance de Jaro-Winkler, pour faciliter le couplage d'enregistrements et le couplage statistique. Il fait la distinction entre les vrais liens et les faux liens en calculant les mesures de similitude « s(x, y) » entre les entités du RSE et toute liste externe d'entreprises. En établissant un seuil scalaire « t », nous peaufinons les critères de couplage, améliorant ainsi la précision des déclarations d'appariement.
Notre méthode améliore l'intégration des données en permettant d'identifier de façon précise et avec des calculs efficaces les appariements. Par ailleurs, notre approche est évaluée sur la base de mesures de précision, permettant d'atteindre un équilibre entre la sensibilité pour détecter les vrais liens et la spécificité pour minimiser les faux positifs.
L'avantage stratégique de notre approche réside dans son efficacité, puisqu'elle offre des délais de traitement rapides sans compromettre la précision des appariements. Cette efficacité est particulièrement avantageuse dans les environnements de mégadonnées, où il est essentiel de traiter rapidement des données et d'utiliser efficacement les ressources informatiques.
Notre méthodologie est conçue de manière à contribuer à renforcer les normes en matière de couplage d'enregistrements et d'appariement statistique, tout en visant à améliorer à la fois la vitesse et la précision de l'appariement entre les bases de données.
-
- Évaluation de l'exactitude lorsqu'on apparie par vagues
Abel Dasylva, Arthur Goussanou, Statistique Canada, Canada-
Résumé
À Statistique Canada, de nombreux ensembles de données sont couplés à des quasi-identificateurs, tels que le prénom, le nom de famille ou l'adresse. En pareil cas, les erreurs de couplage peuvent susciter des préoccupations et doivent donc être mesurées. À cet égard, des études menées antérieurement ont révélé que cette évaluation peut s'appuyer sur la modélisation du nombre de couplages d'un enregistrement donné, tout en tenant compte de toutes les interactions qui existent entre les variables couplées et en menant des examens administratifs, tant et aussi longtemps que la décision de coupler deux enregistrements n'a pas d'incidence sur d'autres enregistrements. Dans le cadre de la présente communication, la méthodologie utilisée est adaptée à une catégorie de stratégies pratiques, lesquelles ne respectent pas cette contrainte en couplant les enregistrements dans des vagues consécutives, alors qu'une vague donnée couple un sous-ensemble d'enregistrements qui ne sont pas couplés dans les vagues précédentes. Plus particulièrement, le couplage peut être fondé sur une vague déterministe suivie d'une vague probabiliste.
-
- Sélection de seuils basée sur le modèle pour effectuer des couplages probabilistes dans le domaine agricole
Christian Arsenault, Statistique Canada, Canada-
Résumé
Compte tenu de l'importance croissante de l'utilisation des données administratives dans la production de statistiques officielles, il est devenu primordial d'effectuer des couplages d'enregistrements probabilistes de qualité pour garantir la réussite de nombreux programmes de Statistique Canada. En vertu de la méthodologie de Fellegi et Sunter, le seuil de poids servant à déterminer un appariement constitue un paramètre essentiel pour optimiser la procédure. Des limitations majeures ont entravé jusqu'ici la mise en place de solutions pour configurer ce paramètre. Soit les hypothèses étaient trop optimistes, soit il fallait produire des données d'entraînement ou organiser un examen manuel. Nous avons élaboré un nouveau modèle estimant l'erreur de couplage d'après le nombre de couplages d'un enregistrement donné, tout en tenant compte de toutes les interactions entre les variables de couplage. Ce modèle d'erreur sert de base pour évaluer différents algorithmes afin de définir le seuil de couplage. Que ce soit des recherches exhaustives, des recherches binaires ou une procédure de partitionnement récursif plus complexe, chaque méthode offre différents avantages en matière de temps d'exécution et de production de mesures de qualité. À l'aide de données réelles sur les exploitations agricoles, nous avons été en mesure de confirmer les résultats du modèle d'erreur en menant des tests de la qualité de l'ajustement, ainsi que de pondérer les aspects pratiques de chacune de ces méthodes en mettant à l'essai différents ensembles de données. Bien que l'automatisation de la sélection des seuils de couplage présente des disparités au niveau de la qualité, de la structure et de la taille des données agricoles, ce travail fournit une avenue concrète pour aborder ces enjeux.
-
- Processus d'identification des partenariats T1 : tirer parti des méthodes de mise en grappe et de représentation graphique
Shaundon Holmstrom, Statistique Canada, Canada-
Résumé
Toutes les personnes qui possèdent une société individuelle ou une société de personnes doivent remplir un état des résultats des activités d'une entreprise au moment de produire leur déclaration d'impôts sur le revenu personnel (formulaire général T1). Un partenariat T1 est un ensemble de déclarants qui forment une seule entreprise, mais qui déposent leur déclaration individuellement. Il peut être difficile au niveau de la population des entreprises T1 de déterminer si un déclarant est une entreprise individuelle ou une société de personnes. Dans la majorité des cas, nous ne disposons pas des clés de couplage pour identifier l'ensemble de déclarants qui font partie d'un partenariat donné. Par conséquent, un processus d'identification de partenariat T1 a été élaboré afin d'effectuer des couplages d'enregistrements internes dans la population d'entreprises T1 pour identifier des partenariats. Le défaut d'identifier des partenariats valides pourrait engendrer des dédoublements dans la population d'entreprises T1 (surdénombrement). Le couplage mal exécuté des personnes en tant que partenaires pourrait mener à la suppression par erreur des entreprises de la population des entreprises T1 (sous-dénombrement). Le système de traitement T1 est en cours de refonte.
Le nouveau processus d'identification des partenariats T1 tire profit du regroupement numérique à l'aide de l'algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise, ou GSBAD en français - Groupement spatial avec bruit des applications basé sur la densité), puis compare les champs appariés pour réduire les groupes potentiels dans l'ensemble des comparaisons par paires. Lorsque la série finale de comparaisons par paires est terminée, la théorie des graphes est utilisée pour créer l'ensemble des partenariats finaux.
-
- Effets d'une variable sur le genre à deux catégories (hommes+ et femmes+) dans l'élaboration des poids ajustés par couplage de la Cohorte santé et environnement du recensement canadien (CSERCan) de 2021
Eric Hortop, Yubin Sung, Statistique Canada, Canada-
Résumé
La Cohorte santé et environnement du recensement canadien des femmes+ de 2021 (CSERCan de 2021) est constituée d'enregistrements d'échantillons du questionnaire détaillé du Recensement de 2021 couplés au Dépôt d'enregistrements dérivés (DED). Le taux de couplage s'élève à 96 %. Le DED comprend des personnes issues des enquêtes et des données administratives de Statistique Canada, telles que le recensement et le fichier de données des décès. Le couplage facilite ainsi les recherches en permettant d'examiner les facteurs sociodémographiques ayant une incidence sur la santé des Canadiens. La CSERCan de 2021 est très attendue, puisque le Recensement de 2021 a permis de recueillir pour la première fois des données spécifiquement sur le genre. Il a permis de faire la distinction entre le genre et le sexe à la naissance et d'examiner les problèmes de santé parmi les personnes de diverses identités de genre. Les poids des enregistrements ajustés par couplage permettent aux chercheurs d'estimer et d'évaluer la variance des mesures agrégées de la population canadienne lorsqu'il manque des couplages. Pour obtenir les poids finaux, nous élaborons des groupes de réponses homogènes à l'aide du score de propension au couplage d'un modèle logistique ajusté aux enregistrements d'échantillons du questionnaire détaillé. Nous avons ensuite eu recours à une procédure de calage des cellules qui ajuste davantage les poids de sorte que les totaux pondérés d'une totalisation multivariée de la cohorte correspondent aux totaux pondérés de l'échantillon du questionnaire détaillé. Les variables de la totalisation comprennent notamment la variable sur le genre à deux catégories. Nous examinons de plus le glissement sur les estimations des populations de personnes cisgenres, transgenres et non binaires afin d'évaluer notre procédure de pondération mise en pratique.
Les décisions liées à la procédure de pondération peuvent avoir une incidence sur l'exactitude des estimations des petits groupes de population, tels que les personnes de diverses identités de genre. Le présent exposé mettra en lumière l'importance de mesurer systématiquement le glissement. L'une des limitations de cette pratique est que nos poids ajustés au couplage tiennent seulement compte du couplage de la cohorte auDED, alors que de nombreuses analyses de la santé de la population devraient tenir compte d'autres couplages avec des données administratives sur la santé.
-
15 h 00 – 15 h 30
Pause de l'après-midi
15 h 30 – 17 h 00
Séance 8 – L'avenir des organismes nationaux de statistique
Salle Simon Goldberg
- L'avenir des organismes nationaux de statistique - le rôle et le modèle à plus long terme des ONS
Osama Rahman, Office for National Statistics, Royaume-Uni-
Résumé
L'essor d'un monde axé sur les données modifie radicalement le contexte dans lequel les organismes nationaux de statistique (ONS) sont tenus d'exploiter leurs activités. Comparativement aux dernières décennies, les décideurs politiques et la société en général demandent de plus en plus à avoir accès à des renseignements plus précis, actuels et détaillés. Parallèlement, avec l'émergence de nombreuses nouvelles sources d'analyse et de statistiques, les ONS sont confrontés à une concurrence accrue, ce qui remet en question le rôle de premier plan qu'ils occupaient auparavant à titre de l'une des sources d'information les plus pertinentes et fiables. La granularité et la vitesse croissantes des nouvelles formes de données et des techniques de science des données réduisent également les écarts qui subsistent traditionnellement entre l'élaboration, la mise en œuvre et l'exécution de politiques, ainsi que la surveillance et la rétroaction. Il convient alors de se demander dans quelle mesure l'écart entre la statistique/recherche et l'analyse opérationnelle/l'utilisation des renseignements sur la gestion doit être réduit et quel rôle doivent jouer les ONS.
En retour, les ONS déploient des efforts considérables pour mettre en œuvre des initiatives qui leur permettent de demeurer pertinentes aux yeux de leurs utilisateurs. Ils font preuve d'innovation en élaborant de nouvelles méthodes et en utilisant de nouvelles sources de données afin de produire des statistiques plus robustes et de mener des analyses qui répondent mieux aux demandes du gouvernement et de la société. Certains ONS envisagent également les choses à plus long terme, élaborant leur vision quant au travail qu'ils devront entreprendre pour rester pertinents dans 10 ou 20 ans.
Dans le cadre de cette séance, nous aborderons la façon dont les ONS s'adaptent déjà au contexte actuel, ainsi que les chemins qu'ils devront emprunter pour continuer de s'adapter et de survivre dans un monde de plus en plus axé sur les données.
Autres membres du panel :
André Loranger, Statisticien en chef du Canada, Statistique Canada
Francesca Kay, Central Statistics Office, Irlande
Anders Holmberg, Australian Bureau of Statistics, Australie
-
Vendredi 1er novembre 2024
8 h 30 – 10 h 00
Séance 9A – Jeunes statisticiens de la Direction des méthodes statistiques modernes et de la science des données de Statistique Canada
Salle Simon Goldberg
-
-
Résumé
Le Symposium international de méthodologie 2024 de Statistique Canada comprendra une séance invitée spéciale conçue pour mettre en valeur la pensée innovante et la vision stratégique de jeunes statisticiens. En cultivant un effectif diversifié doté d'une expertise technique et de compétences générales essentielles (soft skills), nous pouvons assurer une relève solide pour l'avenir de la statistique officielle. Sélectionnés dans le cadre d'un concours qui s'est déroulé au sein de la Direction des méthodes statistiques modernes et de la science des données, les gagnants présenteront leurs idées stratégiques sur les enjeux urgents auxquels sont confrontés les Organisations Nationales de Statistique (ONS). Cette session offre une occasion unique d'acquérir de nouveaux points de vue dans l'espoir de façonner l'avenir des pratiques statistiques, faire progresser la méthodologie statistique et promouvoir une prise de décision fondée sur les données aux niveaux national et mondial.
Présentation 1 : Comment prévoyez-vous l'évolution du rôle et de l'importance des Organisations nationaux de statistique (ONS) comme Statistique Canada au cours des 25 prochaines années ? [Supposant que la vitesse des données et l'évolution de l'informatique restent les mêmes que les dernières années]
Namita Chhabra, Johan Fernandes, Craig Hilborn et Joshua Miller, Statistique Canada, CanadaPrésentation 2 : Quelles seraient les principales caractéristiques, compétences, aptitudes et capacités du futur statisticien idéal (parfait) » (ou employé de Statistique Canada) dans 25 ans ?
Neal Jin, Andrew Jay, Andrew Pearce et Abhishek Singh, Statistique Canada, CanadaPrésentation 3 : Comment Statistique Canada peut mettre efficacement et explicitement à profit les principes éthiques et les valeurs démocratiques auprès de tous les Canadiens, en particulier dans un contexte de polarisation sociale et économique ?
Marc Beauparlant, Bassirou Diagne et Beni Ngabo Nsengiyaremye, Statistique Canada, CanadaPrésentation 4 : Quels sont les problèmes auxquels Statistique Canada est confronté pour concilier l'impératif de recueillir des données désagrégées pour les sous-groupes minoritaires avec la nécessité de respecter la confidentialité, l'éthique des données et les sensibilités historiques ?
David Ahn, Alexandre Istrate, Samuel Sombo et Nicholas Wilker, Statistique Canada, Canada
-
9 h 00 – 10 h 00
Séance 9B – Prévision immédiate pour les statistiques économiques
Salle de Conférence du Jean-Talon
- Collecte de données très fréquente au Census Bureau des États-Unis : le Business Trends and Outlook Survey
Cory Breaux, Kathryn Bonney, U.S. Census Bureau, É.-U.-
Résumé
Lancé pour la première fois en juillet 2022, le Business Trends and Outlook Survey (BTOS) est un produit de données expérimentales du Census Bureau des États-Unis destiné à saisir les variations très fréquentes associées à la conjoncture économique. Le BTOS s'appuie sur un grand échantillon de près de 1,2 million d'entreprises pour fournir, toutes les deux semaines, des données représentatives sur les conditions et les tendances économiques. L'enquête permet de recueillir des renseignements sur un large éventail de conjonctures économiques, y compris le rendement actuel, les modifications liés aux revenus, à l'emploi, à la demande et aux prix, l'état de fonctionnement, les répercussions des catastrophes naturelles et le recours à l'intelligence artificielle. Les entreprises sont interrogées sur les deux semaines précédentes et pour une projection de six mois.
De décembre 2023 à février 2024, le BTOS a ajouté du contenu supplémentaire qui fournit un aperçu détaillé en temps réel de l'utilisation de l'intelligence artificielle (IA) par les entreprises américaines.
Au cours de cette période, les estimations bimensuelles de l'IA sont passées de 3,7 % à 5,4 %. Le taux d'utilisation a atteint 6,6 % au début de l'automne 2024. On a constaté que l'utilisation de l'IA variait selon les secteurs et les régions. Les taux d'utilisation les plus élevés enregistrés sont observés dans le secteur de l'information, ainsi que dans les États de l'ouest des États-Unis. Les entreprises qui utilisent l'IA le font plus couramment notamment dans les cadres suivants : l'automatisation du marketing, les agents virtuels, le traitement du langage naturel et les analyses de données et de textes. Plusieurs entreprises déclarent utiliser l'IA pour remplacer des tâches du personnel et du matériel ou des logiciels existants, même si l'on détient peu de preuves que l'utilisation de l'IA est associée à une baisse de l'emploi dans les entreprises. On a par ailleurs demandé aux entreprises pourquoi elles ne prévoyaient pas utiliser l'IA; la principale raison signalée était l'inapplicabilité de la technologie à l'entreprise en question. Des recherches menées dans le futur pourraient intégrer les données du BTOS à d'autres données administratives et du recensement, explorant le lien entre l'utilisation de l'IA et le rendement des entreprises.
-
- Améliorer les prévisions immédiates de l'Index of Economic Activity du Census Bureau des États-Unis
Elizabeth Marra, Rebecca L Weaver, William R Bell, Tucker S McElroy, Valerie E Pianin, Jose Asturias, Rebecca J Hutchinson, U.S. Census Bureau, É.-U.-
Résumé
L'Index of Economic Activity (IDEA) du Census Bureau des États-Unis est un produit expérimental qui a été lancé à l'origine en février 2023. Il a été élaboré à partir de 15 des principales séries chronologiques économiques mensuelles du Census Bureau, ce qui fournit une série chronologique unique qui reflète la variation de l'ensemble complet des séries composantes au fil du temps. Les séries composantes sont des mesures mensuelles des activités des industries du commerce de détail et de gros, de fabrication, de construction, de commerce international et de création d'entreprises. L'un des défis lié à la production d'un indicateur économique mensuel à partir de 15 séries composantes différentes, c'est que toutes les séries ne sont pas toutes publiées le même jour au cours du mois. Pour tenir compte de ces dates de diffusion variables, l'indice est calculé quotidiennement, en intégrant les valeurs les plus récentes de la série composante pour le mois de publication en cours. Pour les séries composantes dont les valeurs n'ont pas encore été publiées pour le mois en cours, nous prédisons (de façon immédiate) leurs valeurs à l'aide d'un modèle multivarié et autorégressif de séries chronologiques. Nous estimons les poids de l'indice de ces 15 séries à l'aide d'une analyse en composantes principales appliquée aux taux de croissance mensuels normalisés. Les séries ayant des poids plus importants auront plus d'influence sur l'indice par rapport à celles ayant des poids plus faibles. Si les prévisions immédiates d'une série fortement pondérée sont inexactes, lorsqu'une nouvelle estimation mensuelle pour la série est diffusée par la suite, il se pourrait que l'indice fasse l'objet d'une révision importante pour ce mois. Cette présentation porte sur l'indice, ainsi que sur la procédure de prévision immédiate et il présente une amélioration potentielle des prévisions immédiates.
-
- Tirer parti des transformateurs pour prévoir de façon immédiate les indicateurs de la main-d'œuvre canadienne
Luke Budny, Aziz Al-Najjar, Tariq El Bahrawy, Carleton University, Canada-
Résumé
Dans un monde centré sur les données qui évolue rapidement, l'acuité des analyses du marché du travail joue un rôle central dans l'établissement de stratégies économiques et l'élaboration de politiques. La présente étude examine l'application du modèle Lag-Llama, une architecture à base de transformateur de pointe, pour prévoir de façon immédiate les principaux indicateurs de la main-d'œuvre canadienne, tels que l'emploi, les postes vacants, la rémunération et les heures de travail. Abordant les difficultés liées au retard ou au manque de données sur le travail dans le cadre des enquêtes de Statistique Canada, l'étude propose une méthodologie pour la prévision qui tire parti des tendances historiques et des entrées de nouvelles données. Le modèle est entraîné au préalable pour les divers ensembles de données liés à plusieurs domaines, ce qui améliore sa robustesse prédictive et son interprétabilité. En mettant au point de façon systématique des hyperparamètres et en sélectionnant de manière judicieuse des variables externes à l'aide de techniques de sélection ascendante et descendante, le modèle Lag-Llama donne un meilleur rendement que les méthodes traditionnelles de prévision obtenues par des séries chronologiques. Selon les résultats expérimentaux, l'erreur absolue moyenne en pourcentage (EAMP) des estimations ponctuelles et des intervalles de prédiction s'est grandement améliorée, particulièrement en ce qui concerne l'EAMP toutes industries confondues pour les données sur les revenus. L'étude met également en lumière certains problèmes de prévision propres à chaque industrie et aborde les solutions qui pourraient être envisagées, dont les modèles distincts. Ces résultats mettent en évidence le potentiel des modèles avec transformateurs, tels que le modèle Lag-Llama, dans les prévisions macroéconomiques, et établissent une nouvelle référence pour les analyses futures dans ce domaine.
-
10 h 00 – 10 h 30
Pause du matin
10 h 30 – 12 h 00
Séance 10A – L'utilisation de l'apprentissage automatique dans les statistiques officielles
Salle Simon Goldberg
- Inférence statistique en présence de non-réponse et de méthode d’apprentissage automatique : Quelques travaux récents
David Haziza, Université d'Ottawa, Canada-
Résumé
Ces dernières années, les méthodes d'apprentissage automatique ont suscité un intérêt croissant au sein des instituts nationaux de statistique. Elles permettent de produire des prédictions précises en analysant de vastes ensembles de données et en identifiant des modèles et relations complexes. Ces prédictions peuvent être exploitées à différentes étapes d'une enquête, notamment pour le traitement des données manquantes et l'estimation pour des petits domaines.
Dans cette présentation, nous exposerons les résultats de travaux récents ou en cours sur l'inférence en présence de non-réponse partielle. Nous commencerons par discuter de l'inférence statistique lorsque les forêts aléatoires sont utilisées pour imputer les valeurs manquantes. Ensuite, nous aborderons les méthodes d'estimation doublement robustes qui intègrent des probabilités de réponse prédites et des valeurs imputées, obtenues au moyen de n’importe quelles méthodes d'apprentissage automatique, dans la construction des estimateurs. Nous soulignerons les avantages des méthodes doublement robustes dans le cadre des méthodes d'apprentissage automatique et discuterons de leur implémentation en pratique. Nous montrerons comment la variance des estimateurs doublement robustes. Enfin, nous présenterons les résultats d'études de simulation visant à évaluer la performance des estimateurs ponctuels et de variance.
-
- Produire certaines données d'enquête synthétiques
Minsun Riddles, Westat, É.-U.-
Résumé
À une ère où la demande d'accès aux microdonnées et, parallèlement, les préoccupations en matière de protection des renseignements personnels ne cessent de croître, l'intérêt pour les données synthétiques a bondi. Par exemple, les données synthétiques sont reconnues pour offrir une solution prometteuse permettant de partager d'énormes quantités de données sur la santé pour accélérer des recherches entamées, tout en protégeant les renseignements personnels. La production de données synthétiques comporte toutefois son lot de défis lorsqu'il s'agit de trouver un équilibre en la diminution des risques de divulgation et la préservation de l'intégrité des données d'origine, particulièrement en ce qui concerne les données d'enquête. Pour surmonter ces difficultés, il est possible d'adopter une approche de synthèse de « certaines » données, laquelle consiste notamment à synthétiser certaines variables de certains enregistrements dont les risques de divulgation sont élevés. Dans le présent article, nous examinons ces défis et proposons des solutions pour produire certaines données synthétiques dans le cadre de deux enquêtes nationales qui ont été menées à grande échelle aux États-Unis. Nous vous présentons de plus une méthode d'estimation de la variance par répliques afin de bien mesurer la variance supplémentaire générée par la synthèse des données.
-
- Algorithmes arborescents de statistiques officielles
Daniell Toth, US Bureau of Labor Statistics, É.-U.-
Résumé
Les algorithmes d'apprentissage automatique ont été de plus en plus utilisés au cours de la dernière décennie pour produire des statistiques officielles. Cette tendance s'est dessinée en particulier après avoir adapté divers algorithmes afin de les utiliser avec des données d'enquête recueillies à partir d'un plan d'échantillonnage informatif. Parmi ces techniques, mentionnons plusieurs méthodes arborescentes, telles que les arbres de régression et les arbres amplifiés, les modèles de forêt aléatoire et les modèles d'arbre bayésien. Ces modèles ont servi à analyser des données d'enquête à certaines fins, telles que l'évaluation de la qualité des données et les non-réponses, ainsi que l'estimation des statistiques officielles au moyen d'estimations sur petits domaines, d'estimateurs assistés par un modèle et d'imputation de données. Dans le cadre du présent article, nous examinerons comment ces méthodes arborescentes ont été adaptées pour être utilisées avec les données d'enquête, ainsi que leur importance dans la production de statistiques officielles.
-
10 h 30 – 12 h 00
Séance 10B – La société et les statistiques officielles
Salle de Conférence du Jean-Talon
- Approche sûre et inclusive à l'égard de la diffusion des renseignements statistiques sur la population non binaire du Canada
Claude Girard, France-Pascale Ménard, Statistique Canada, Canada-
Résumé
En 2022, le Canada est devenu le premier pays à publier des renseignements statistiques sur ses populations transgenres et non binaires en fonction des données recueillies du Recensement de la population de 2021. De plus, à la suite d'une récente directive pangouvernementale, Statistique Canada a commencé, dans le cadre de ses enquêtes, à recueillir et à diffuser des renseignements sur le genre plutôt que sur le sexe à la naissance.
En raison de la petite taille des populations transgenres et non binaires, selon les données du Recensement de 2021 elles représentaient 0,3 % des personnes âgées de 15 ans et plus au Canada, la diffusion de renseignements statistiques sûrs à leur sujet à des niveaux sociodémographiques ou géographiques détaillés constitue un défi.
La stratégie de diffusion adoptée pour mener à bien le Recensement de 2021, laquelle a été adaptée par la suite et recommandée pour réaliser les enquêtes, est centrée sur une nouvelle variable de genre à deux catégories (Hommes+ et Femmes+) qui comprend les personnes non binaires et qui doit être utilisé à tous les niveaux, sauf aux niveaux de diffusion les plus élevés. Dans le cadre de cet exposé, nous retraçons les considérations méthodologiques qui ont donné lieu à la création et à l'adoption de cette nouvelle approche, considérée à la fois comme inclusive des personnes non binaires et statistiquement sûre.
-
- Boutique multiservice d'intelligence artificielle et d'apprentissage automatique pour les statistiques officielles : pleins feux sur la méthodologie
Francesca Kay, Central Statistics Office, Irlande-
Résumé
Dans un monde en constante mutation, il est devenu nécessaire de générer de nouveaux et de meilleurs produits et services de statistiques officielles. D'une part, la demande des utilisateurs évolue, alors qu'ils demandent des données plus détaillées, plus actuelles et mieux intégrées. Du point de vue de la méthodologie, les statisticiens des organismes officiels doivent ainsi reconsidérer les besoins des utilisateurs et la façon dont nous pouvons fournir des renseignements pertinents et solides sur le plan méthodologique. D'autre part, les possibilités techniques apparaissent à un rythme tel qu'il est très difficile de fournir des méthodologies nouvelles et robustes afin de veiller à ce que ces occasions puissent s'intégrer dans la production de statistiques officielles, tout en maintenant la compréhension, la transparence et la confiance à l'égard des statistiques officielles en tant que source d'information fiable.
En avril 2024, Eurostat a accordé une subvention à un consortium regroupant 14 pays dirigé par le Central Statistics Office d'Irlande afin de créer une Boutique multiservice d'intelligence artificielle (IA) et d'apprentissage automatique (AA) pour les statistiques officielles (AIMLOS4, ou IAAASO4 en français). Le potentiel de l'IA/AA est encore en développement. La Boutique multiservice vise à favoriser l'apprentissage systématique, le partage d'expériences, l'établissement de bonnes pratiques et la réutilisation de solutions. La recherche et la création de nouvelles méthodologies sont au cœur du consortium afin d'appuyer l'application des solutions d'IA/AA, ainsi que la normalisation des méthodologies et des pratiques exemplaires pour faciliter la mise à l'échelle ou la réutilisation de solutions existantes.
La présentation mettra en lumière certains des objectifs clés du projet d'AIMLOS4, ainsi que la façon dont on cherchera à élaborer de nouvelles méthodologies innovantes en IA/AA afin de suivre l'évolution des besoins et des défis en matière de production de statistiques officielles.
-
- Les données générées par les citoyens et leur incidence sur les statistiques officielles
Haoyi Chen, Division statistique des Nations Unies, Nations Unies, New York, É.-U.-
Résumé
La participation citoyenne tout au long de la chaîne de valeur des données constitue un moyen de plus en plus reconnu pour combler les lacunes en matière de données sur les communautés marginalisées ainsi que renforcer l'équité, l'inclusivité, l'ouverture, l'imputabilité et la transparence des données. La communauté statistique officielle mondiale s'est associée à d'autres parties prenantes du secteur des données, dont des organisations de la société civile, des institutions de défense des droits de la personne et le milieu universitaire, pour élaborer la version préliminaire du document intitulé « Copenhagen Framework on Citizen Data ». L'objectif est de favoriser la durabilité et l'utilisation des données générées par les citoyens et les communautés.
L'article examine en quoi la production de données générées par les citoyens (DGC) pour la communauté des statistiques officielles aura une incidence sur les systèmes nationaux de statistiques officielles et transformera le rôle des organismes nationaux de la statistique en tant qu'intendants des données. Les domaines abordés comprendront les sujets suivants : a) discuter du rôle des DGC pour combler les lacunes relatives aux données et améliorer l'inclusivité des statistiques officielles; b) réévaluer la pertinence des cadres de qualité existants pour les statistiques officielles afin d'utiliser des données adaptées à leur usage; c) examiner les défis et les possibilités liés à l'intégration des DGC dans les statistiques officielles et d) discuter de la façon dont le rôle des organismes nationaux de la statistique doit évoluer en tirant parti de la puissance des données générées par les citoyens.
-
- Examen des approches d'estimation sur petits domaines comportant des erreurs de mesure et leur application aux enquêtes auprès de ménages indonésiens
Ika Yuni Wulansari, University of Technology Sydney, Australie, Politeknik Statistika STIS, Indonésie, Statistics Indonesia, Indonésie
Stephen Woodcock, University of Technology Sydney, Australie
James J Brown, University of Technology Sydney, Australie-
Résumé
Les objectifs de développement durable (ODD) de l'Organisation des Nations Unies (ONU) exigent des données très désagrégées sur les indicateurs qui ne sont généralement disponibles que par l'entremise d'enquêtes effectuées auprès de ménages. Cependant, cela pose un problème, car le niveau requis de désagrégation dépasse ce que les enquêtes peuvent soutenir par l'estimation directe. Les instituts nationaux de statistique (INS) se tournent donc vers les approches sur petits domaines. Celles-ci comportent toutefois son lot de problématiques. Les variables auxiliaires qui pourraient être utilisées dans les modèles d'estimation sont souvent elles-mêmes estimées à partir d'enquêtes, ce qui entraîne d'autres complications liées aux erreurs de mesure.
Nous visons à appliquer l'approche de Ybarra et Lohr (2008) pour ajuster les erreurs de mesure dans un modèle classique au niveau du domaine de Fay-Herriot. Nous utilisons une étude de simulation complète pour étudier l'incidence de l'erreur de mesure sur une seule variable auxiliaire et la situation dans laquelle il y a deux variables auxiliaires, dont l'une comporte une erreur de mesure et l'autre non. Les résultats démontrent la robustesse de l'approche standard et en ignorant l'erreur de mesure, mais montrent qu'il existe des scénarios spécifiques où il serait bénéfique de bien corriger les erreurs de mesure. Nous appliquons l'approche à un exemple d'étude de cas à l'aide de données d'enquête auprès des ménages indonésiens, produisant des estimations au niveau du sous-district. Dans le cadre de l'étude de cas, nous estimons les dépenses des ménages par habitant de l'Enquête socioéconomique nationale (SUSENAS) comme variable d'intérêt et utilisons les données du potentiel du village (PODES) comme variables auxiliaires.
-
12 h 00 – 13 h 30
Pause dîner
13 h 30 – 15 h 00
Séance 11 – Séance spéciale en l'honneur de J.N.K. RAO
Salle Simon Goldberg
- Contribution de J.N.K. Rao à la recherche sur les enquêtes
Sharon Lohr, Arizona State University, É.-U.-
Résumé
J.N.K. Rao a contribué à enrichir presque toutes les sous-disciplines de la recherche par enquête. Dans le cadre de la présente allocution générale, je vous présenterai certains des travaux qu'a réalisés M. Rao sur l'échantillonnage à probabilités inégales et à deux phases, l'estimation de la variance, l'analyse de régression et de données catégorielles, l'estimation sur petits domaines, ainsi que l'intégration des données.
J'exposerai les travaux prévus et les orientations de recherche futures de M. Rao pour chacun de ces sujets. J'examinerai également ses contributions dans un contexte de tendances plus générales et dans le contexte des défis actuels dans la recherche par enquête.
-
- Célébrer l'héritage que nous a laissé J.N.K. Rao en matière d'estimation sur petits domaines
Mahmoud Torabi, University of Manitoba, Canada-
Résumé
La présente allocution permet d'honorer les contributions exceptionnelles de J.N.K. Rao dans le secteur des estimations sur petits domaines (EPD). Les recherches de pointe de M. Rao ont grandement influencé l'élaboration et l'application de méthodes d'EPD, ce qui a ainsi révolutionné la façon dont les statisticiens abordent les défis inférentiels qui subsistent dans des domaines où les données sont peu représentées. Amorcée avec un aperçu de l'importance des EPD dans divers domaines, des statistiques officielles à la santé publique, la présentation met en lumière les percées méthodologiques que M. Rao a réalisées.
Parmi ces progrès, mentionnons les travaux importants qu'il a réalisés sur les approches fondées sur un modèle, notamment les modèles au niveau du domaine et de l'unité, ainsi que l'estimation de l'erreur quadratique moyenne de prédiction des paramètres de petit domaine. Le présent exposé explore de plus l'héritage durable que M. Rao nous a laissé en favorisant l'établissement de collaborations interdisciplinaires et en préconisant l'adoption concrète de techniques d'EPD dans les processus décisionnels.
À la lumière des collaborations et des articles influents de M. Rao, la présentation illustre le rôle central que ce dernier a joué dans l'élaboration des fondements théoriques et des applications concrètes de l'EPD. S'appuyant par ailleurs sur l'héritage de M. Rao, l'exposé aborde les défis actuels liés à la recherche sur l'EPD, ainsi que les récents progrès réalisés en la matière. Enfin, cette allocution rend hommage à la trace indélébile qu'a laissée J.N.K. Rao sur l'EPD, dont les travaux inspirent l'innovation continue et ont une incidence sur les générations futures œuvrant dans le domaine.
-
- Contributions de J.N.K. Rao en matière de modèles multiniveaux d'enquête complexes et de vraisemblance composite
Mary Thompson, University of Waterloo, Canada-
Résumé
Avec l'aide de H. O. Hartley, J. N. K. Rao a été l'un des pionniers en matière de modélisation multiniveaux avec des données d'enquête, utilisant des méthodes d'inférence pour les composantes de variance. Il a par ailleurs renoué au cours des dernières années avec ce domaine de recherche. Avec l'aide de F. Verret et de M. Hidiroglou, il a proposé une approche d'inférence fondée sur la vraisemblance composite pondérée sous un modèle à deux niveaux (Techniques d'enquête, 2013). Le présent exposé présentera cette méthode et son incidence, les applications et les prolongements ultérieurs.
-
15 h 00 – 15 h 30
Pause de l'après-midi
15 h 30 – 17 h 00
Séance 12A – Intégration de données provenant d'échantillons probabilistes et non probabilistes
Salle Simon Goldberg
- Quelques questions théoriques et pratiques et stratégies pour aborder les échantillons non probabilistes
Changbao Wu, University of Waterloo, Canada-
Résumé
Nous présentons un aperçu des développements récents en matière d'inférence statistique pour les échantillons d'enquête non probabilistes. Nous examinons certaines questions soulevées relativement aux progrès méthodologiques qui ont été réalisés en matière de pondération par l'inverse de la probabilité et de prédiction fondée sur un modèle. Nous aborderons également certaines préoccupations liées aux applications pratiques de ces méthodes. Trois procédures proposées dans des publication récentes sur l'estimation des probabilités de participation, soit la méthode de Valliant et Dever (2011) basée sur l'échantillon groupé, la méthode de pseudo-maximum de vraisemblance de Chen, Li et Wu (2020) et la méthode de Wang, Valliant et Li (2021) fondée sur une stratégie de calcul de deux étapes, font l'objet d'un examen dans un cadre de randomisation conjointe. Nous examinons par ailleurs l'incidence inexplicite de l'hypothèse de positivité sur l'approche de prédiction basée sur un modèle et aborderons le principal enjeu du sous-dénombrement. Nous débattons des stratégies qui pourraient contribuer à résoudre les problèmes liés aux hypothèses normalisées et au sous-dénombrement dans la pratique.
-
- Comparaison entre les techniques récentes de combinaison d'échantillons probabilistes et non probabilistes
Julie Gershunskaya, U.S. Bureau of Labor Statistics, É.-U.-
Résumé
Nous comparons plusieurs méthodes récentes de quasi-randomisation des inférences à partir d'échantillons non probabilistes. Les techniques envisagées sont élaborées en partant du principe que la sélection de l'échantillon est régie par un mécanisme aléatoire latent sous-jacent et qu'elle peut se dévoiler en combinant des données d'enquête non probabilistes avec un échantillon probabiliste de « référence » obtenu à partir de la même population cible. Parmi les défis qui incitent à l'élaboration d'autres procédures, mentionnons les suivants : i) les indicateurs de participation d'échantillons non probabilistes ne sont disponibles que pour les unités d'échantillonnage observées; ii) on ne sait généralement pas quelles unités de la population sous-jacente appartiennent aux échantillons non probabilistes et quelles sont celles qui sont associées aux échantillons de référence. Nous examinons les façons dont différentes procédures abordent ces défis, exposons les propriétés théoriques des méthodes et comparons celles-ci à l'aide de simulations.
-
- Estimation du score de propension et plan de sondage optimal lors de l'intégration d'échantillons probabilistes à des données non probabilistes
Anders Holmberg, Australian Bureau of Statistics, Australia
Lyndon Ang, Australian National University and Australian Bureau of Statistics, Australia
Robert Clark, Bronwyn Loong, Australian National University, Australia-
Résumé
Bien que les sources de données non probabilistes ne sont pas nouvelles dans le domaine des statistiques officielles, les pressions dues à la baisse des taux de réponse aux enquêtes, à l'augmentation des coûts liés à la collecte des données et au désir d'exploiter de nouvelles sources de données découlant de la numérisation sociétale en cours ont ravivé l'intérêt pour ce sujet. L'inférence dérivée uniquement d'une source de données non probabilistes est susceptible d'entraîner des biais, comme certains segments de la population cible sont exclus. Ces travaux abordent les difficultés liées au traitement des biais en intégrant des données non probabilistes aux échantillons probabilistes de référence. Nous nous concentrons sur les méthodes de modélisation de la propension à l'inclusion dans l'ensemble de données non probabilistes à l'aide de l'échantillon de référence qui l'accompagne. Les propensions modélisées sont alors appliquées à une approche de pondération par l'inverse de la probabilité pour produire des estimations démographiques. Dans certains cas, on suppose que l'échantillon de référence est fourni. L'objectif est toutefois de trouver, dans le cadre de cette présentation, une stratégie optimale, soit la combinaison d'un estimateur fondé sur l'intégration de données et d'un plan de sondage d'un échantillon probabiliste de référence. Nous exposons des travaux récents dont nous avons tiré parti pour dégager les bonnes possibilités d'identification des unités dans les enquêtes auprès des entreprises afin d'étudier un estimateur fondé sur les propensions et de dériver des probabilités de sélection optimale (inégales) d'un échantillon de référence.
-
15 h 30 – 17 h 00
Séance 12B – Les défis rencontrés lors de la production de statistiques officielles
Salle de Conférence du Jean-Talon
- Utiliser le genre non binaire pour caler les poids d'enquête du questionnaire détaillé du recensement canadien
Alexander Imbrogno, Statistique Canada, Canada-
Résumé
En 2021, le Canada est devenu le premier pays à recueillir et à publier des données sur le genre en donnant aux Canadiens la possibilité de choisir entre les réponses « homme », « femme » ou « non-binaire » dans le cadre d'un recensement canadien. En raison de leurs petites tailles, les totaux des populations non binaires ont été exclus du processus de calage des échantillons du questionnaire détaillé de 2021 en raison du risque d'augmentation de la variance des estimations. Le présent exposé présente une autre procédure de calage du questionnaire détaillé qui regroupe les totaux sous-provinciaux des personnes non binaires en un grand total provincial afin d'offrir une protection contre l'inflation de la variance. Les totaux sous-provinciaux artificiels de personnes non binaires sont présentés comme un outil servant à décomposer le calage provincial qui en résulte en des problèmes sous-provinciaux indépendants, tout en préservant les gains d'efficacité de calage habituel de calage du questionnaire détaillé. Une expression algébrique des totaux artificiels en vertu de la distance du chi carré est dérivée. Les résultats des simulations sont présentés afin de démontrer les avantages du calage des personnes non binaires sur la qualité des données du domaine de la population non binaire.
-
- Nouveau tableau des ventes du secteur manufacturier canadien selon les emplacements d'origine et de destination : défis de l’imputation d'une répartition à partir de données d'une enquête annuelle
Nicholas Huliganga, Statistique Canada, Canada-
Résumé
Jusqu'à maintenant, les Canadiens n'avaient pas accès à des données détaillées sur l'emplacement des ventes du secteur de la fabrication. Grâce à l'intégration des données de l'enquête annuelle (Enquête annuelle sur les industries manufacturières et de l'exploitation forestière), un tableau de l'emplacement des ventes selon l'industrie et la province d'origine a été élaboré au profit des enquêtes annuelles et mensuelles sur les industries manufacturières à Statistique Canada.
Bien qu'il ne s'agisse pas d'une question de l'enquête mensuelle, les répondants à l'enquête annuelle sont priés d'indiquer leur répartition des ventes en pourcentage dans 15 emplacements. Pour aborder la difficulté de générer une répartition au niveau de l'établissement des répondants œuvrant dans plusieurs provinces, nous avons comparé trois approches : utiliser la répartition totale des répondants pour tous leurs établissements; viser l'optimisation; et utiliser les répartitions des répondants d'une seule province. La répartition imputée des ventes selon l'emplacement à partir des données annuelles a ensuite été appliquée à la valeur des ventes mensuelles. Les établissements mensuels non couplés aux répondants annuels ont été imputés à l'aide d'une stratégie comportant la répartition agrégée de leur groupe industrie-province dans l'enquête annuelle.
Enfin, on a réussi à produire, dans le cadre de l'enquête mensuelle, des estimations ponctuelles et une variance d'échantillonnage (ainsi qu'un coefficient de variation) pour tout le tableau des ventes selon les emplacements d'origine et de destination, ainsi que pour chaque industrie.
Le présent exposé aborde les défis liés à l'imputation des ventes selon l'emplacement (particulièrement en ce qui concerne les répondants ayant des établissements dans plusieurs provinces). L'objectif est d'assurer que les ventes correspondent aux totaux marginaux des provinces d'origine et de répartir les emplacements en fonction des données tirées du programme annuel aux estimations mensuelles.
-
- Utilisation de l'algorithme ReliefF du contrôle de la qualité et de l'imputation dans le recensement de la population du Canada
Irwin Khuu, Statistique Canada, Canada-
Résumé
Historiquement, le processus de contrôle de la qualité et d'imputation (CQI) du recensement canadien de la population a été mise en place à l'aide d'une méthode d'imputation par donneur le voisin le plus proche en vertu de laquelle on obtient la distance entre une unité manquante et un donneur potentiel par l'entremise d'une combinaison pondérée de variables auxiliaires. Il peut s'avérer compliqué et fastidieux de revoir le modèle entre les cycles étant donné qu'il n'existe pas d'approche normalisée pour la sélection des variables et la pondération entre les sujets d'intérêt. Le présent exposé illustrera les possibilités liées à l'algorithme de sélection de ReliefF pour créer une approche axée sur l'apprentissage automatique à l'égard de la sélection des variables et de la pondération qui est normalisée et comparable entre les cycles du recensement et les nombreuses caractéristiques d'intérêt de celui-ci. Un aperçu de la façon dont ce processus peut être appliqué dans la pratique sera présenté, suivi de résultats sur un ensemble diversifié de caractéristiques d'intérêt qui indiquent une amélioration générale par rapport aux méthodes précédentes.
-
- Les facteurs influant la propension à répondre aux interviews, avec un intérêt envers les unités échantillonnées plusieurs fois : étude empirique utilisant des enquêtes sociales menées par Statistique Canada
Noah Johnson, Catherine Deshaies-Moreault, Cilanne Boulet, Statistique Canada, Canada-
Résumé
Comme le besoin de données a augmenté au cours des dernières années, l'effet et le fardeau de l'échantillonnage répété des mêmes unités dans le cadre de plusieurs enquêtes sont vite devenus une problématique récurrente. On présume généralement que le fardeau de réponse contribue à diminuer les taux de réponse. Peu d'études empiriques se sont toutefois penchées sur cette question. Statistique Canada a entrepris une étude à ce sujet, regroupant les données sur les réponses aux enquêtes sociales menées entre 2020 et 2023. Dans le cadre de cette enquête, l'organisme examine les facteurs contribuant aux schémas de réponse observés, y compris l'effet d'avoir été sélectionné au préalable sur la propension à répondre aux interviews. Cette présentation décrira l'étude qui a été entreprise, partagera ses principaux résultats et expliquera comment ils peuvent éclairer les décisions entourant la coordination des échantillons entre les enquêtes auprès des ménages à Statistique Canada.
-
17 h 00 – 17 h 15
Mot de clôture
Salle Simon Goldberg
- Wesley Yung, Directeur général, Direction générale des méthodes statistiques modernes et de la science des données, Statistique Canada, Canada