Estimation pour petits domaines pour l'Enquête mensuelle des industries manufacturières

L'Enquête mensuelle des industries manufacturières (EMIM) fournit des statistiques de ventes et d'inventaires pour le Canada ainsi que les provinces. Depuis quelques années, les estimations des ventes infra-provinciales ont suscité un intérêt croissant. Il est possible d'obtenir des estimations directes des ventes infra-provinciales à partir de l'EMIM, mais ces estimations ne sont fiables que si la taille de l'échantillon est suffisamment grande. Par conséquent, une méthodologie d'estimation pour petits domaines (EPD), qui combine les données d'enquêtes et des données sur la taxe sur les produits et services (TPS) de l'Agence du revenu du Canada, est maintenant utilisée pour améliorer la qualité des estimations. Ce document décrit brièvement cette méthodologie.

1. Introduction

Depuis quelques années, la demande pour des estimations des ventes à de plus petits niveaux géographiques s'accroît. Il est possible de tirer de l'EMIM des estimations pondérées standards (ou des estimations directes), mais celles-ci ne peuvent être considérées comme fiables que dans la mesure où la taille de l'échantillon pour la région d'intérêt est suffisamment grande. Pour résoudre ce problème, on a recours à une méthodologie d'EPD pour améliorer la qualité des estimations infra-provinciales en combinant les données d'enquêtes à des données d'autres sources.

Les méthodes d'EPD visent à produire des estimations fiables lorsque la taille de l'échantillon pour une région est petite. Dans cette application de la méthodologie, l'EPD dépend de deux quantités : l'estimation directe tirée des données de l'enquête et une prédiction fondée sur un modèle, parfois appelée estimation indirecte ou synthétique. Le modèle fait intervenir les données d'enquête du domaine d'intérêt géographique, ainsi que des données d'autres domaines (comme données d'entrée des paramètres du modèle) et des données auxiliaires. Les données auxiliaires doivent provenir d'une source indépendante de l'EMIM et être accessibles au niveau géographique approprié. L'EPD utilise les ventes de TPS comme données auxiliaires. Autrement dit, les ventes de la TPS sont utilisées avec les estimations directes de l'EMIM pour calculer les estimations pour petits domaines. Pour les régions les plus petites, les estimations directes ne sont pas fiables et les estimations pour petits domaines découlent principalement de prédictions du modèle.

Cependant, pour les régions plus grandes, l'inverse est vrai (estimations directes plus fiables) et les estimations pour petits domaines tendent à être proches des estimations directes.

Il existe deux types de modèles d'EPD : les modèles au niveau du domaine (ou modèles agrégés), qui établissent des liens entre les moyennes de petits domaines et des variables auxiliaires propres au domaine, et les modèles au niveau de l'unité, qui établissent des liens entre les valeurs unitaires de la variable étudiée et des variables auxiliaires propres à l'unité. L'EMIM utilise un modèle au niveau du domaine.

La section 2 décrit les exigences pour produire des estimations infra-provinciales des ventes. À la section 3, des diagnostics utilisés pour la validation du modèle et l'évaluation des EPD sont brièvement décrits.

2. Modèle au niveau du domaine

Les estimations pour petits domaines ont été obtenues en utilisant le module d'EPD du logiciel généralisé G-EstNote de bas de page 1 version 2.02 (Hidiroglou et coll., 2019 ; Estevao et coll., 2017). Pour chaque domaine, trois intrants doivent être fournis au logiciel G-Est afin d'obtenir les estimations pour petits domaines :

Des estimations directes provenant des données d'enquêtes θ^i

Des estimations de la variance lissée, qui sont obtenues en appliquant une approche de lissage par morceau aux estimations de la variance des estimations directes

Un vecteur de variables auxiliaires zi

Pour l'estimation des ventes, les domaines d'intérêt sont définis comme suit : 27 groupes industriels × 15 régions métropolitaines de recensement (M=324).

Les 27 groupes industriels sont les suivants :

Tableau 1 : Groupes industriels
Groupe industriel Description
311 Fabrication d'aliments
312 Fabrication de boissons et de produits du tabac
313 Usines de textiles
314 Usines de produits textiles
315 Fabrication de vêtements
316 Fabrication de produits en cuir et de produits analogues
321 Fabrication de produits en bois
322 Fabrication du papier
323 Impression et activités connexes de soutien
324 Fabrication de produits du pétrole et du charbon
325 Fabrication de produits chimiques
326 Fabrication de produits en plastique et en caoutchouc
327 Fabrication de produits minéraux non métalliques
331 Première transformation des métaux
332 Fabrication de produits métalliques
333 Fabrication de machines
334 Fabrication de produits informatiques et électroniques
335 Fabrication de matériel, d'appareils et de composants électriques
3361 Fabrication de véhicules automobiles
3362 Fabrication de carrosseries et de remorques de véhicules automobiles
3363 Fabrication de pièces pour véhicules automobiles
3364 Fabrication de produits aérospatiaux et de leurs pièces
3365 Fabrication de matériel ferroviaire roulant
3366 Construction de navires et d'embarcations
3369 Fabrication d'autres types de matériel de transport
337 Fabrication de meubles et de produits connexes
339 Activités diverses de fabrication

Les 15 régions métropolitaines de recensement utilisées dans le cadre de l'EPDNote de bas de page 2 sont indiquées dans le tableau suivant.

Tableau 2 : Régions métropolitaines de recensement
Région métropolitaine de recensement Description Province
205 Halifax Nouvelle-Écosse
421 Québec Québec
433 Sherbrooke
462 Montréal
505 Ottawa-Gatineau Québec/Ontario
535 Toronto Ontario
537 Hamilton
541 Kitchener-Cambridge-Waterloo
559 Windsor
602 Winnipeg Manitoba
705 Regina Saskatchewan
725 Saskatoon
825 Calgary Alberta
835 Edmonton
933 Vancouver Colombie-Britannique

3. Évaluation des estimations pour petits domaines

La précision des estimations pour petits domaines dépend de la fiabilité du modèle. Il est donc essentiel d'évaluer avec soin la validité du modèle avant de diffuser toute estimation. Il est par exemple important de vérifier qu'une relation linéaire existe entre les estimations directes provenant de l'EMIM (θ^i) et les données de TPS (zi), au moins approximativement.

Pour l'EMIM, les graphiques et les diagnostics du logiciel G-Est sont utilisés pour évaluer le modèle, et les valeurs aberrantes sont relevées de manière itérative en examinant les résidus normalisés du modèle.

Un concept relativement utile pour évaluer les gains d'efficacité provenant de l'utilisation de l'estimation pour petits domaines θ^iEPD plutôt que l'estimation directe est l'erreur quadratique moyenne (EQM).

L'EQM est inconnue, mais elle peut être estimée (voir Rao et Molina, 2015). On s'attend à une efficacité accrue par rapport à l'estimation directe lorsque l'estimation de l'EQM est inférieure à l'estimation de la variance lissée ou à l'estimation de la variance directe. En général, les estimations pour petits domaines de l'EMIM sont significativement plus efficaces que les estimations directes, en particulier pour les domaines dont la taille d'échantillon est particulièrement réduite.

Références

Estevao, V., You, Y., Hidiroglou, M. et Beaumont, J.-F. (2017). Estimations pour petits domaines – Modèle au niveau du domaine avec estimation EBLUP – Description des paramètres de fonction et guide de l'utilisateur. Document de Statistique Canada.

Hidiroglou, M.A., Beaumont, J.-F. et Yung, W. (2019). Élaboration d'un système d'estimation sur petits domaines à Statistique Canada. Techniques d'enquête, Statistique Canada, n° 12 001 X au catalogue, vol. 45, n° 1.

Rao, J.N.K. et Molina, I. (2015). Small Area Estimation. John Wiley & Sons, Inc., Hoboken, New Jersey.