Enquête mensuelle sur le commerce de détail (EMCD) – Énoncé de la qualité des données

Objectifs, utilisation et utilisateurs
Concepts, variables et classifications
Couverture et bases de sondage
Échantillonnage
Conception du questionnaire
Réponse et non réponse
Opérations de collecte et de saisie des données
Vérification
Imputation
Estimation
Révisions et désaisonnalisation
Évaluation de la qualité des données
Contrôle de la divulgation

1. Objectifs, utilisation et utilisateurs

1.1. Objectifs

L’Enquête mensuelle sur le commerce de détail (EMCD) fournit des renseignements sur la performance du secteur du commerce de détail et, quand les données sont combinées à d’autres statistiques, représente un important indicateur de l'état de l’économie canadienne.

1.1. Utilisation

Les estimations fournissent une mesure de la santé et de la performance du secteur du commerce de détail. L'information recueillie est utilisée pour estimer le niveau et la tendance mensuelle des ventes ainsi que le nombre d’emplacements. À la fin de chaque année, les estimations donnent un premier aperçu de la valeur annuelle des ventes au détail et de la performance du secteur.

1.2. Utilisateurs

Divers organismes, associations sectorielles et gouvernements utilisent l'information. Les détaillants utilisent les résultats de l'enquête pour comparer leurs résultats à ceux d'entreprises similaires, ainsi qu'à des fins de marketing. Les associations de détaillants peuvent surveiller la performance de leur industrie et promouvoir les industries du commerce de détail. Les investisseurs peuvent surveiller la croissance de l'industrie, ce qui peut donner aux détaillants un meilleur accès au capital d'investissement. Les données de l'enquête aident les administrations à comprendre le rôle des détaillants dans l'économie, ce qui facilite l'élaboration des politiques et des encouragements fiscaux. Le commerce de détail étant un important secteur de l'économie canadienne, les données permettent aux administrations de déterminer plus exactement la santé globale de l'économie grâce à l'utilisation des estimations dans le calcul du produit intérieur brut (PIB) national.

2. Concepts, variables et classifications

2.1. Concepts

Le secteur du commerce de détail comprend les établissements dont l’activité principale consiste à vendre des marchandises au détail, généralement sans transformation, et à fournir des services connexes.

Le commerce de détail représente le dernier maillon de la chaîne de distribution; les détaillants sont donc organisés pour vendre des marchandises en petites quantités au grand public. Ce secteur comprend deux grands types d’établissements : les détaillants en magasin et les détaillants hors magasin. L’EMCD couvre uniquement les détaillants en magasin. Leurs principales caractéristiques sont décrites ci-après.

Les détaillants en magasin exploitent des points de vente fixes, situés et conçus de manière à attirer un grand nombre de passants. De façon générale, les magasins de détail ont de grands étalages et font de la publicité dans les médias. Ils vendent surtout des biens de consommation qui intéressent les particuliers ou les ménages, mais certains servent aussi les entreprises et une clientèle institutionnelle. Parmi ces établissements, on compte les magasins de fournitures de bureau, les magasins d’ordinateurs et de logiciels, les stations-service, les vendeurs de matériaux de construction, les magasins de fournitures de plomberie et de fournitures électriques.

En plus de vendre des marchandises, certains types de détaillants fournissent des services après-vente, comme des services de réparation et d’installation. Ainsi, les concessionnaires d’automobiles neuves, les magasins d’électronique et d’appareils ménagers, et les magasins d’instruments et de fournitures de musique assurent fréquemment un service de réparation, alors que les magasins de revêtements de sol et les magasins de garnitures de fenêtres fournissent souvent des services d’installation. En règle générale, les établissements qui vendent des marchandises au détail et qui ont un service après-vente sont classés dans ce secteur.

Les salles d’exposition des sociétés de vente sur catalogue, les stations-service et les marchands de maisons mobiles sont assimilés à des détaillants en magasin.

2.2. Variables

Les ventes sont définies comme étant les ventes de toutes les marchandises achetées pour la revente, nettes des rendus et des escomptes. Sont inclus les honoraires et les commissions résultant de la vente de biens et de services pour le compte de tiers, comme la vente de billets de loterie, de billets d’autobus et de cartes de téléphone. Sont également inclus les recettes provenant des pièces et de la main-d’oeuvre utilisées pour les services d'entretien et de réparation, les revenus de location et de location à bail de biens et de matériel, les revenus provenant de services, y compris les services de restauration, les ventes de biens fabriqués en tant qu’activité secondaire et la valeur des marchandises prélevées par le propriétaire pour son usage personnel. Sont exclus les autres revenus de location de biens immobiliers, les frais de placement, les subventions d’exploitation et autres, les redevances et les droits de franchise.

L’emplacement d’affaires comprend le ou les emplacements physiques où a lieu l’activité commerciale dans chaque province et territoire et dont les ventes sont créditées ou comptabilisées dans les états financiers de l’entreprise. Pour les détaillants, il s’agit normalement d’un magasin.

Dollars constants : La valeur du commerce de détail est mesurée de deux façons : par la prise en compte des effets de la variation des prix sur la valeur des ventes et par l’élimination des effets de la variation des prix. La première mesure est la valeur des ventes au détail en dollars courants et la seconde, la valeur des ventes au détail en dollars constants. Pour calculer l’estimation en dollars courants, on agrège la valeur des ventes pondérées de tous les points de vente au détail. Pour calculer l’estimation en dollars constants, il faut d’abord rajuster la valeur des ventes par rapport à une année de base en utilisant l’Indice des prix à la consommation, puis additionner les valeurs résultantes.

2.3. Classification

L’Enquête mensuelle sur le commerce de détail est fondée sur la définition du commerce de détail adoptée dans le SCIAN (Système de classification des industries de l’Amérique du Nord). Le SCIAN est le cadre commun reconnu pour la production de statistiques comparables par les organismes statistiques du Canada, du Mexique et des États-Unis. L’accord définit les limites de 20 secteurs. Le SCIAN est fondé sur un cadre conceptuel axé sur la production, ou l’offre, en ce sens que les établissements sont regroupés en classes ou branches d’activité d’après la similarité des processus utilisés pour produire les biens et les services.

Les estimations sont calculées pour 21 groupes fondés sur des agrégations spéciales du Système de classification des industries de l’Amérique du Nord (SCIAN) de 2007. Les 21 groupes sont en outre agrégés en onze sous-secteurs.

Du point de vue géographique, les estimations des ventes sont produites pour le
Canada et pour chaque province et territoire.

3. Couverture et bases de sondage

La base de sondage de l'Enquête mensuelle sur le commerce de détail (EMCD) est le Registre des entreprises (RE) de Statistique Canada. Ce dernier est une liste structurée d'entreprises productrices de biens et de services au Canada. Cette base de données tenue à jour centralement contient des renseignements détaillés sur la plupart des entités commerciales exploitées au Canada. Le RE couvre toutes les entreprises constituées en société, avec ou sans employés. Pour les entreprises non constituées en société, le RE comprend toutes les entreprises ayant des employés, ainsi que les entreprises sans employés ayant des ventes annualisées provenant d'un compte de la taxe sur les produits et services (TPS) ou un revenu annuel provenant de la déclaration d'impôt individuelle.

Dans le RE, les entreprises sont représentées selon une structure hiérarchique à quatre niveaux ayant pour sommet l'entreprise statistique suivie, par ordre décroissant, par la compagnie statistique, l'établissement statistique et l'emplacement statistique. Une entreprise peut être reliée à une ou à plusieurs compagnies statistiques, une compagnie statistique à un ou à plusieurs établissements statistiques et un établissement statistique à un ou à plusieurs emplacements statistiques.

La population cible de l'EMCD comprend tous les établissements statistiques figurant dans le RE, excluant les entreprises non constituées en société n'ayant pas d'employés dont les ventes annuelles sont inférieures à 30 000 $, qui sont classés dans le secteur du commerce de détail d'après le Système de classification des industries de l'Amérique du Nord (SCIAN) (environ 200 000 établissements). La fourchette de codes du SCIAN pour le secteur du commerce de détail varie de 441100 à 453999. Un établissement statistique est l'entité de production ou le plus petit groupe d'entités de production qui produit un ensemble de biens ou de services homogènes, dont les activités ne débordent pas les frontières provinciales/territoriales, et qui est en mesure de fournir des données sur la valeur de la production, ainsi que sur le coût des matières utilisées et le coût et l'importance de la main-d'oeuvre affectée à la production. L'entité de production est l'unité physique où se déroulent les activités de l'entreprise. Elle doit avoir une adresse de voirie et une main-d'oeuvre directement affectée au processus de production.
Sont exclus de la population cible les établissements auxiliaires (producteurs de services de soutien de l'activité de production de biens et services destinés au marché de plus d'un établissement au sein de l'entreprise, et qui sont considérés comme un centre de coûts ou un centre de dépenses discrétionnaires pour lequel les données sur tous les coûts, y compris la main-d'oeuvre et l'amortissement, peuvent être déclarées par l'entreprise), les futurs établissements, les établissements pour lesquels les signaux économiques indiquent un revenu manquant ou nul, et les établissements appartenant aux catégories du SCIAN non couvertes qui suivent :

  • 4541 (entreprises de télémagasinage et de vente par correspondance)
  • 4542 (exploitants de distributeurs automatiques)
  • 45431 (marchands de combustible)
  • 45439 (autres établissements de vente directe)

4. Échantillonnage

L'échantillon de l'EMCD est formé de 10 000 groupes d'établissements (grappes) classés dans le secteur du commerce de détail et sélectionnés à partir du Registre des entreprises de Statistique Canada. Par définition, une grappe d'établissements comprend tous les établissements appartenant à une entreprise statistique qui font partie d'un même groupe industriel et d'une même région géographique. L’EMCD est fondée sur un plan d'échantillonnage stratifié avec sélection d'un échantillon aléatoire simple dans chaque strate. La stratification est faite selon des groupes industriels (majoritairement mais non exclusivement des SCIAN à quatre chiffres) et selon la région géographique, c'est-à-dire selon la province ou le territoire. Ensuite, la population est stratifiée selon la taille de l'établissement. La mesure de taille est créée en combinant des données provenant d'enquêtes indépendantes et trois variables administratives, à savoir le revenu annuel profilé, les ventes assujetties à la TPS exprimées sur une base annuelle et le revenu de la déclaration d’impôt (T1 ou T2).

Les strates de taille comptent une strate à tirage complet (recensement), au moins deux strates à tirage partiel (échantillonnées partiellement) et une strate à tirage nul (non échantillonnée). La strate à tirage nul est destinée à réduire le fardeau de réponse en excluant les entreprises les plus petites de la population observée. Ces entreprises représentent, en principe, au plus 10 % du total des ventes. Au lieu d'envoyer un questionnaire à ces entreprises, on produit les estimations d'après des données administratives.

L'échantillon est réparti de façon optimale afin d'atteindre les coefficients de variation cibles au niveau du Canada dans son ensemble, de la province ou du territoire, de l’industrie et des groupes industriels selon la province ou le territoire. On procède aussi à un suréchantillonnage pour tenir compte des unités disparues, non répondantes ou classées incorrectement.

L'EMCD est une enquête répétée avec maximisation du chevauchement des échantillons mensuels. On retient l'échantillon d’un mois à l’autre et, chaque mois, on y ajoute de nouvelles unités (naissances). Pour découvrir les nouvelles unités visées par l'EMCD, c'est-à-dire les nouvelles grappes d'établissement(s), on examine chaque mois l'univers le plus récent du RE. On stratifie ces nouvelles unités conformément aux mêmes critères que ceux appliqués à la population initiale, puis on les échantillonne conformément à la fraction d'échantillonnage de la strate à laquelle elles appartiennent et on les ajoute à l'échantillon mensuel. Des disparitions d'entité surviennent également chaque mois. Une entité disparue peut être une grappe d'établissements qui ont cessé leurs activités (fermeture) ou dont les activités principales ne se rattachent plus au commerce de détail (hors du champ). La situation de ces entreprises est mise à jour dans le RE d'après des renseignements de source administrative et les commentaires reçus lors des enquêtes, y compris ceux des entreprises prenant part à l'EMCD. Les méthodes suivies pour traiter les unités disparues et les unités classées incorrectement font partie des procédures d'échantillonnage et de mise à jour de la population.

5. Conception du questionnaire

L’Enquête mensuelle sur le commerce de détail englobe les sous-enquêtes suivantes :

Enquête mensuelle sur le commerce de détail – R8

Enquête mensuelle sur le commerce de détail (avec les stocks) – R8

Enquête sur les ventes et stocks de boissons alcooliques

Le questionnaire est conçu pour recueillir mensuellement auprès d'un échantillon de détaillants des données sur les ventes au détail, sur le nombre d'emplacements commerciaux par province ou territoire et sur les stocks de biens possédés et destinés à la revente. Lors du remaniement de 2004, la plupart des questionnaires n'ont subit que des changements de présentation. Le questionnaire sur les ventes et les stocks de boissons alcooliques a subi des modifications plus importantes. Les modifications ont été discutées avec les intervenants et les répondants ont eu l'occasion de faire des commentaires avant que le nouveau questionnaire ne soit finalisé. Si d'autres modifications devaient être apportées à l'un des questionnaires, les changements proposés seraient soumis à un comité d'examen et ferait l'objet d'un essai sur le terrain auprès de répondants et d'utilisateurs de données pour s'assurer de leur pertinence.

6. Réponse et non réponse

6.1. Réponse et non-réponse

Bien que les gestionnaires d'enquête et les employés des opérations fassent tout leur possible pour maximiser la réponse à l'EMCD, un certain degré de non-réponse a lieu. Pour qu'un établissement statistique soit considéré comme répondant, il faut que le degré de réponse partielle (situation où une réponse exacte n'est obtenue que pour certaines questions posées au répondant) atteigne un seuil minimal au-dessous duquel la déclaration fournie par l'établissement serait rejetée et l'établissement, considéré comme une unité non répondante. Le cas échéant, on considère que l'entreprise n'a pas répondu du tout.

La non-réponse a deux effets sur les données : premièrement, elle introduit un biais dans les estimations si les non-répondants diffèrent des répondants en ce qui concerne les caractéristiques mesurées et, deuxièmement, elle fait augmenter la variance d'échantillonnage des estimations, parce que la taille effective de l'échantillon est réduite comparativement à celle considérée au départ.

L'ampleur des efforts déployés pour obtenir une réponse auprès d'un non-répondant dépend des contraintes budgétaires et de temps, de l'effet de la non-réponse sur la qualité globale et du risque de biais dû à la non-réponse.

La méthode principalement utilisée pour réduire l'effet de la non-réponse à l'étape de l'échantillonnage consiste à augmenter la taille de l'échantillon en appliquant un taux de suréchantillonnage déterminé d'après les résultats d'enquêtes similaires.

Les cas de non-réponse qui surviennent malgré les méthodes appliquées aux étapes de l'échantillonnage et de la collecte pour réduire l'effet de la non-réponse sont traités par imputation.

Afin de déterminer l'importance de la non-réponse qui a lieu chaque mois, on calcule divers taux de réponse. Pour un mois de référence donné, on produit les estimations au moins deux fois (estimations provisoires et estimations révisées). Entre les deux exécutions, certaines données fournies par les répondants peuvent être jugées inutilisables et des valeurs imputées peuvent être corrigées au moyen de données fournies par les répondants. Par conséquent, les taux de réponse sont calculés après chaque exécution du processus d'estimation.

Pour l'EMCD, deux types de taux sont calculés (non pondérés et pondérés). Afin d'évaluer l'efficacité du processus de collecte, on calcule les taux de réponse non pondérés. Les taux pondérés, fondés sur le poids d'estimation et la valeur de la variable d'intérêt, évaluent la qualité de l'estimation. À l'intérieur de chacun de ces types de taux, il existe des taux distincts pour les unités faisant partie de l'échantillon et pour les unités qui sont uniquement modélisées à partir de données administratives qui ont été extraites des fichiers de TPS.

Afin d’obtenir une meilleure idée du succès du processus de collecte de données, on calcule deux taux non pondérés appelés « taux de résultat de la collecte » et « taux de résultat de l'extraction ». On calcule ces taux en divisant le nombre de répondants par le nombre d'unités avec lesquelles on a essayé de prendre contact ou pour lesquelles on a essayé de recevoir des données extraites. Les déclarants non mensuels (répondants bénéficiant de modalités de déclaration spéciales leur permettant de ne pas produire de déclaration chaque mois, mais pour lesquels des données réelles sont disponibles lors des révisions subséquentes) sont exclus du numérateur ainsi que du dénominateur pour les mois où aucun contact n'est pris avec eux. Brièvement, les divers taux de réponse se calculent comme suit :

Taux pondérés :

Taux de réponse des unités faisant partie de l'échantillon (estimation) =
Somme des ventes pondérées des unités avec situation de réponse i / Somme des ventes pondérées des unités faisant partie de l'échantillon

i = unités pour lesquelles il existe des données déclarées qui seront utilisées dans l'estimation ou qui sont des refus convertis, ou pour lesquelles il existe des données déclarées qui n'ont pas encore été évaluées pour l'estimation.

Taux de réponse des unités modélisées à partir de données administratives (estimation) = Somme des ventes pondérées des unités avec situation de réponse ii / Somme des ventes pondérées des unités modélisées à partir de données administratives

ii = unités pour lesquelles il existe des données extraites des fichiers administratifs et qui sont utilisables pour l'estimation.

Taux de réponse total (estimation) =
Somme des ventes pondérées des unités avec situation de réponse i ou situation de réponse ii / Somme de toutes les ventes pondérées

Taux non pondérés :

Taux de réponse des unités faisant partie de l'échantillon (collecte) =
Nombre de questionnaires avec situation de réponse iii / Nombre de questionnaires avec situation de réponse iv

iii = unités pour lesquelles il existe des données déclarées (dont le cas n'est pas résolu, utilisées ou non utilisées pour l'estimation) ou qui sont des refus convertis;

iv = toutes les unités susmentionnées, ainsi que les unités qui ont refusé de répondre, les unités avec lesquelles on n'a pas pris contact et d'autres types d'unités non répondantes.

Taux de réponse des unités modélisées à partir de données administratives (extraction) =
Nombre de questionnaires avec situation de réponse vi / Nombre de questionnaires avec situation de réponse vii

vi = unités dans le champ d'observation pour lesquelles il existe des données (utilisables ou non utilisables) extraites des fichiers administratifs;

vii = toutes les unités susmentionnées, ainsi que les unités qui ont refusé de déclarer la source de données administratives, les unités avec lesquelles on n'a pas pris contact et d'autres types d'unités non répondantes.

(% de questionnaires recueillis par rapport à l'ensemble des questionnaires dans le champ d'observation)

Taux de résultat de la collecte =
Nombre de questionnaires avec situation de réponse iii / Nombre de questionnaires avec situation de réponse viii

iii = même que iii défini plus haut;

viii = même que iv, à part l'exclusion des unités avec lesquelles on a pris contact, parce que leur réponse n'est pas disponible pour un mois particulier, puisqu'il s'agit de déclarants non mensuels.

Taux de résultat de l'extraction =
Nombre de questionnaires avec situation de réponse ix / Nombre de questionnaires avec situation de réponse vii

ix = même que vi, avec l'ajout des unités extraites qui ont été imputées ou qui étaient hors du champ de l'enquête;

où vii = même que vii défini plus haut.

(% de questionnaires recueillis par rapport à l'ensemble des questionnaires dans le champ d'observation que nous avons tenté de recueillir)

Tous les taux pondérés et non pondérés susmentionnés sont calculés au niveau du groupe industriel, de la région et du groupe de taille, ainsi que pour toute combinaison de ces niveaux.

Utilisation des données administratives

Réduire le fardeau de réponse est un défi à long terme pour Statistique Canada. Afin d’alléger le fardeau de réponse et de réduire les coûts reliés à l’enquête, notamment en ce qui a trait aux petites entreprises, l’EMCD a réduit le nombre d’établissements simples de l’échantillon qui sont enquêtés directement et dérive plutôt les chiffres de vente pour ces établissements à partir des fichiers de la TPS en utilisant un modèle statistique. Le modèle explique les différences entre les ventes et les recettes déclarées aux fins de la TPS, ainsi que le décalage entre la période de référence de l’enquête et celle de la TPS.

Pour en savoir plus sur la méthode utilisée lors de la modélisation des ventes tirées de fichiers administratifs, veuillez consulter le document intitulé Enquête mensuelle sur le commerce de détail : Utilisation de données administratives sous la rubrique ‘Documentation’ du BMDI.

Le tableau 1 contient les fractions de réponses pondérées pour tous les groupes industriels ainsi que pour toutes les provinces et territoires. Pour des fractions de réponses pondérées plus détaillées, veuillez contacter la section du marketing et de la diffusion au (613) 951-3549, sans frais: 1-877-421-3067 or par courriel à retailinfo@statcan.

6.2. Méthodes utilisées pour réduire la non-réponse durant la collecte

Beaucoup d’efforts sont déployés en vue de réduire au minimum la non-réponse durant la collecte. Les méthodes utilisées incluent des techniques d'interview, comme l'utilisation de questions d'approfondissement et des techniques de persuasion, la replanification répétée des appels téléphoniques pour obtenir l'information et la mise en place de procédures indiquant aux intervieweurs comment s'y prendre avec les répondants qui refusent de participer à l'enquête.

Si les données demandées ne sont pas disponibles au moment de la collecte, la meilleure estimation fournie par le répondant est acceptée et est révisée par la suite, quand les données réelles sont disponibles. Tableau
Pour réduire au minimum la non-réponse totale pour toutes les variables, des réponses partielles sont acceptées. En outre, les questionnaires sont personnalisés pour la collecte de certaines variables, comme les stocks, de sorte que la collecte ait lieu durant les mois où les données sont disponibles.

Enfin, pour établir un climat de confiance entre les intervieweurs et les répondants, les cas sont généralement affectés au même intervieweur chaque mois. Ce dernier peut ainsi établir une relation personnelle avec le répondant et renforcer sa confiance.

7. Opérations de collecte et de saisie des données

La collecte des données est réalisée par les bureaux régionaux de Statistique Canada.

Tableau 1
Fractions de réponse pondérées par SCIAN et pour toutes les provinces et territoires, mai 2010
  Fractions de réponse pondérées
Total Enquêté Administrative
SCIAN - Canada
Marchands de véhicules automobiles et de leurs pièces 92,9 93,8 52,1
Marchands d'automobiles 96,1 96,5 41,5
Marchands d'automobiles neuves 97,5 97,5  
Marchands d'automobiles d'occasion 74,5 79,2 41,5
Marchands d'autres véhicules automobiles 68,9 69,8 60,5
Magasins de pièces, de pneus et d' accessoires pour véhicules automobiles 84,4 88,9 51,1
Magasins de meubles et d'accessoires de maison 86,4 92,1 40
Magasins de meubles 92,8 95,4 38,8
Magasins d'accessoires de maison 74,8 84,7 40,4
Magasin d'appareils électroniques et ménagers 86,2 88,8 38,7
Marchands de matériaux de construction et de matériel et fournitures de jardinage. 85,7 88,5 45,7
Magasins d'alimentation 86,1 93 17,2
Épiceries 85,7 93,3 15,3
Supermarché et autre épicerie, sauf dépanneur 88,1 95,6 14
Dépanneurs 58 64,7 23,7
Magasins d'alimentation spécialisés 64,5 73,4 29,6
Magasins de bière, de vin et de spiritueux 93,5 96,2 21,8
Magasins de produits de santé et de soins personnels 90,2 93,6 61,2
Stations-service 85,9 88,8 44,3
Magasins de vêtements et d'accessoires vestimentaires 85,1 87,4 34,3
Magasins de vêtements 85,2 87 41,9
Magasins de chaussures 87,7 90,5  
Bijouteries et magasins de bagages et de maroquinerie 81,5 86,3 16,4
Magasins d'articles de sport, d'articles de passe-temps, d'articles de musique et de livres 79,1 85,6 14,2
Magasins de fournitures de tout genre 98,5 99,3 4,5
Magasins de détail divers 80,5 87,9 26,6
Totale 89,2 92,6 33,9
Régions
Terre-Neuve-et-Labrador 86,7 88,1 28
Île-du-Prince-Édouard 87,2 88,4 8,5
Nouvelle Écosse 94 95,7 53,8
Nouveau-Brunswick 88,6 91,2 49,4
Québec 88,3 93,2 24,3
Ontario 90,2 93,2 39,8
Manitoba 91,3 92,4 53,4
Saskatchewan 91,2 93 37,8
Alberta 87,6 90,9 33,4
Colombie Britannique 88,4 92,1 30,9
Territoire du Yukon 91,3 91,3  
Territoires du Nord-Ouest 85,8 85,8  
Nunavut 75,9 75,9  
1. Il n'y a pas d'utilisation de données administratives pour les concessionnaires d'automobiles neuves

Ces derniers envoient un questionnaire aux répondants ou communiquent avec ceux-ci par téléphone afin d'obtenir les valeurs de leurs ventes et de leurs stocks, et de confirmer l'ouverture ou la fermeture des emplacements d'affaires. Ils effectuent aussi un suivi auprès des non-répondants. La collecte des données débute environ sept jours ouvrables après la fin du mois de référence et se poursuit pendant tout le mois en question.

Les entités qui participent à l'enquête pour la première fois reçoivent une lettre d'introduction en vue d’informer le répondant qu'un représentant de Statistique Canada l'appellera. Cet appel a pour but de présenter l'enquête, de confirmer l'activité de l'entreprise, d'établir et de commencer la collecte des données, et de répondre à toutes questions que le répondant pourrait avoir.

8. Vérification

La vérification des données est l'application de contrôles pour déceler les entrées manquantes, invalides ou incohérentes, ou pour repérer les enregistrements de données susceptibles d'être erronés. Durant le processus d'enquête de l'EMCD, les données sont vérifiées à deux moments distincts.

Premièrement, une vérification est faite durant la collecte des données. Après leur collecte par téléphone ou au moyen du questionnaire à renvoyer par la poste, les données sont saisies à l'aide d'applications informatiques personnalisées. Toutes sont soumises à une vérification. Les contrôles réalisés durant la collecte des données, appelés contrôles sur le terrain, comprennent généralement des contrôles de validité et certains contrôles de cohérence simples. Ils servent aussi à déceler les erreurs commises durant l'interview par le répondant ou par l'intervieweur et de repérer l'information manquante à l'étape de la collecte en vue de réduire le besoin d'un suivi ultérieur. Les contrôles sur le terrain ont également pour but d'épurer les réponses. Dans le cas de l'EMCD, les réponses du mois courant sont comparées aux réponses fournies par le répondant le mois précédent et (ou) l'année précédente pour le mois courant. Les contrôles sur le terrain permettent de repérer les problèmes que posent les procédures de collecte des données et la conception des questionnaires, et de déterminer s'il faut offrir une formation supplémentaire aux intervieweurs.

Tout enregistrement de données rejeté lors des contrôles préliminaires fait l'objet d'un suivi auprès du répondant afin de valider les données soupçonnées d'être incorrectes. Une fois validé, les données recueillies sont transmises de façon régulière au Bureau central à Ottawa.

Deuxièmement, après la collecte, les données sont soumises à une vérification statistique dont la nature est plus empirique. On exécute la vérification statistique avant l'imputation, afin de repérer les données qui serviront de base pour l'imputation de valeurs pour les non-répondants. Les valeurs très extrêmes risquant de perturber une tendance mensuelle sont exclues des calculs de tendance lors de la vérification statistique. Il convient de souligner qu'aucun ajustement n'est fait à cette étape pour corriger les valeurs extrêmes déclarées.

La première étape de la vérification statistique consiste à repérer les réponses qui seront soumises aux règles de vérification statistique. Les données déclarées pour le mois de référence courant sont soumises à divers contrôles.

Le premier ensemble de contrôles est fondé sur la méthode d'Hidiroglou-Berthelot qui consiste à examiner le rapport des données du mois courant fournies par un répondant à des données historiques (c.-à-d. dernier mois ou même mois l'année précédente) ou administratives. Si le rapport calculé pour le répondant diffère significativement de ceux obtenus pour des répondants dont les caractéristiques sont comparables en ce qui concerne le groupe industriel et/ou la région géographique, la réponse est considérée comme une valeur extrême.

Le deuxième ensemble de contrôles est basé sur la vérification de la part de marché. Cette méthode, qui s'appuie sur les données du mois courant uniquement, permet de vérifier les données fournies par tous les répondants, mêmes ceux pour lesquels on ne dispose pas de données historiques ou de données auxiliaires. Par conséquent, parmi un groupe de répondants présentant des caractéristiques similaires en ce qui concerne le groupe industriel et (ou) la région géographique, toute valeur dont la contribution pondérée au total du groupe est trop importante sera considérée comme une valeur extrême.

Pour les contrôles fondés sur la méthode d'Hidiroglou-Berthelot, les données jugées extrêmes ne sont pas incluses dans les modèles d'imputation (ceux fondés sur les ratios). En outre, les données considérées comme des valeurs extrêmes lors de la vérification de la part de marché ne sont pas incluses dans les modèles d'imputation où les moyennes et les médianes sont calculées pour imputer des valeurs pour les réponses pour lesquelles il n'existe pas de données historiques.

Conjointement avec les vérifications statistiques effectuées après la collecte de données, on procède à la détection d’erreurs des données extraites des fichiers administratifs. Les données modélisées de la TPS sont également assujetties à une phase de vérification approfondie. Chaque fichier sur lequel les données modélisées sont fondées est vérifié de même que les valeurs modélisées. Les vérifications sont effectuées au niveau agrégé (industrie, géographie) afin de détecter les fichiers qui dévient de la norme (soit en exhibant des différences d’un mois à l’autre trop importantes ou qui diffèrent considérablement des autres unités. Toutes les données qui faillissent ces étapes de contrôle sont sujettes à une vérification manuelle, et si nécessaire, à une action corrective.

9. Imputation

Le processus d’imputation de l'EMCD a pour but de remplacer les données manquantes par des valeurs imputées. Des valeurs sont attribuées aux enregistrements pour lesquels la vérification a révélé des valeurs manquantes afin de s'assurer que les estimations soient de haute qualité et d'établir une cohérence interne plausible. Pour des raisons de fardeau de réponse, de coût et d'actualité des données, il est généralement impossible de réaliser auprès des répondants tous les suivis nécessaires pour résoudre les problèmes de réponses manquantes. Puisqu'il est souhaitable de produire un fichier de microdonnées complet et cohérent, on recourt à l'imputation pour traiter les cas persistants de données manquantes.

Dans le cas de l'EMCD, on peut fonder l'imputation des valeurs manquantes sur des données historiques ou sur des données administratives. Le choix de la méthode appropriée est fondé sur une stratégie qui dépend de l'existence de données historiques ou de données administratives et (ou) du mois de référence en question.

Il existe trois types de méthode d'imputation d'après des données historiques. Le premier est l’application d’une tendance générale qui s'appuie sur une source unique de données historiques (mois précédent, données recueillies pour le mois suivant ou données recueillies pour le même mois l'année précédente). Le deuxième est un modèle de régression dans lequel sont utilisées simultanément les données provenant du mois précédent et celles provenant du même mois l'année précédente. La troisième méthode consiste à remplacer directement les valeurs manquantes par des données historiques.

Selon le mois de référence, il existe, pour le choix de la méthode, un ordre de préférence en vue d'assurer une imputation de haute qualité. Le troisième type de méthode d'imputation historique est toujours la dernière option considérée pour chaque mois de référence.

Les méthodes d'imputation fondées sur des données administratives sont sélectionnées automatiquement lorsqu'on ne dispose pas de données historiques pour un non-répondant. La source de données administratives (ventes annuelles assujetties à la TPS) est le fondement de ces méthodes. Les ventes annuelles assujetties à la TPS sont utilisées pour deux types de méthode. L'une est une tendance générale que l'on utilise pour les structures simples, comme les entreprises ne comptant qu'un seul établissement et l'autre, appelée méthode de la médiane-moyenne, est utilisée pour les unités dont la structure est plus complexe.

10. Estimation

L'estimation est un processus qui consiste à calculer une valeur approximative des paramètres de population inconnus en utilisant uniquement la partie de la population qui est incluse dans un échantillon. Des inférences sont ensuite faites au sujet des paramètres inconnus en utilisant les données d'échantillon et les renseignements connexes sur le plan de sondage. Cette étape fait usage du Système généralisé d'estimation (SGE) de Statistique Canada.

Pour les ventes des détaillants, la population est divisée en une partie observée (strates à tirage complet et à tirage partiel) et une partie non observée (strate à tirage nul). D'après l'échantillon tiré à partir de la partie observée, on calcule une estimation pour la population au moyen d'un estimateur d'Horvitz-Thompson où les réponses concernant les ventes sont pondérées par l'inverse des probabilités d'inclusion des unités échantillonnées. Ces poids (appelés poids d'échantillonnage) peuvent être interprétés comme étant le nombre de fois que chaque unité échantillonnée devrait être répétée pour représenter la population complète. Les valeurs pondérées des ventes ainsi calculées sont totalisées par domaine, pour produire une estimation du total des ventes pour chaque combinaison des groupes industriels/région géographique. Un domaine est défini comme correspondant aux valeurs de classification les plus récentes disponibles dans le RE pour l'unité et la période de référence de l'enquête. Les domaines peuvent différer des strates d'échantillonnage originales, parce que les unités peuvent avoir changé de taille, d'industrie ou d'emplacement. Les changements de classification sont reflétés immédiatement dans les estimations et ne sont pas cumulés au cours du temps. Pour la partie non observée de la population, les ventes sont estimées à l’aide de modèles statistiques exploitant les ventes assujetties à la TPS exprimées sous forme mensuelle.

Pour en savoir plus sur la méthode utilisée lors de la modélisation des ventes tirées de fichiers administratifs, veuillez consulter le document intitulé Enquête mensuelle sur le commerce de détail : Utilisation de données administratives sous la rubrique ‘Documentation’ du BMDI.

La variance est la mesure de précision utilisée dans le cas de l'EMCD pour évaluer la qualité de l'estimation des paramètres de population et pour obtenir des inférences valides. Pour la partie observée de la population, la variance est calculée directement à partir d'un échantillon aléatoire simple stratifié sans remise.

Les estimations d'échantillon peuvent différer de la valeur prévue des estimations. Cependant, puisque l'estimation est fondée sur un échantillon probabiliste, il est possible d'évaluer la variabilité de l'estimation d'échantillon par rapport à la valeur prévue. La variance d'une estimation est une mesure de la précision de l'estimation d'échantillon qui est définie comme étant la moyenne, sur tous les échantillons possibles, de l'écart quadratique de l'estimation par rapport à sa valeur prévue.

11. Révisions et désaisonnalisation

Des révisions des données brutes doivent être effectuées pour corriger les erreurs non dues à l'échantillonnage qui sont décelées. Ceci comporte généralement le remplacement de données imputées par des données déclarées, la correction de données déclarées précédemment, et de procéder à des estimations pour les nouvelles entreprises créées dont on ne connaissait pas l'existence au moment des estimations originales.

Les données brutes sont révisées, sur une base mensuelle, pour le mois précédant immédiatement le mois de référence en cours qui fait l'objet de la publication. C'est donc dire que lorsque les données pour décembre sont publiées pour la première fois, on procédera aussi à des révisions, au besoin, à l'égard des données brutes pour novembre. En outre, des révisions sont aussi effectuées une fois par année, au moment de la première publication des données de février, pour tous les mois de l'année précédente. On vise ainsi à corriger tout problème important que l'on ait décelé et qui s'applique pour une période prolongée. La période de révision proprement dite dépend de la nature du problème décelé, mais elle ne dépasse rarement trois ans.

Les séries temporelles ou chronologiques comportent les éléments essentiels à la description, l'explication et la prévision du comportement d'un phénomène économique. « Ce sont des dossiers statistiques de l'évolution des processus économiques dans le temps1 ». Les séries temporelles socio-économiques comme celles de l’Enquête mensuelle sur le commerce de gros peuvent habituellement être décomposées en cinq composantes principales : la tendance-cycle, la saisonnalité, l’effet des jours ouvrables, l’effet de la fête de Pâques et la composante irrégulière.

La tendance représente l’évolution à long terme de la série, tandis que le cycle représente un mouvement lisse, quasi périodique, autour de la tendance qui met en évidence une succession de phases de croissance et de décroissance (ex. le cycle des affaires). Les deux composantes tendance et cycle sont estimées ensemble et la tendance-cycle reflète l'évolution fondamentale de la série. Les autres composantes traduisent des mouvements passagers à court terme. La composante saisonnière représente des fluctuations infra-annuelles, mensuelles ou trimestrielles, qui se répètent plus ou moins régulièrement d'une année à l'autre. Les variations saisonnières sont le produit des effets directs et indirects des saisons climatiques et d’éléments de type institutionnel (attribuable aux conventions sociales ou aux règles administratives, Noël par exemple).

L’effet des jours ouvrables provient du fait que l'importance relative des jours varie systématiquement à l'intérieur de la semaine et que le nombre de chacun des jours dans un mois donné varie d'une année à l'autre. Cet effet est présent lorsque l’activité change en fonction du jour de la semaine. Par exemple, dimanche connaît typiquement moins d'activité que les autres jours, et le nombre de dimanches, lundis, etc., dans un mois donné change d'année en année.
1 La désaisonnalisation des séries temporelles économiques : quelques remarques; tiré de la Revue statistique du Canada , août 1974
2 Pour plus de renseignements, voir X-12-ARIMA Reference Manual Version 0.3 (2007), U.S. Census Bureau.
3 Ladiray, D. and Quenneville, B. (2001). Seasonal Adjustment with the X-11 Method. New York: Springer-Verlag, Lecture Notes in Statistics #158.

L’effet de la fête de Pâques est la variation due au déplacement d’une partie de l’activité d’avril vers mars quand Pâques tombe en mars plutôt qu’en avril.

Enfin, la composante irrégulière regroupe toutes les autres fluctuations plus ou moins erratiques non prises en compte dans les composantes précédentes. Elle représente un résidu qui incorpore, entre autres, les erreurs de mesure sur la variable elle-même ainsi que des événements inhabituels (ex. grèves, sécheresse, inondations, panne d’électricité majeure ou d'autres variations inattendues dans les activités des répondants).

Ainsi, les composantes saisonnière et irrégulière, l’effet des jours ouvrables et l’effet de la fête de Pâques masquent la composante fondamentale de la série, qui est la tendance-cycle. La désaisonnalisation (correction des variations saisonnières) consiste à retirer de la série la composante saisonnière, l’effet des jours ouvrables et l’effet de la fête de Pâques. Elle contribue donc à révéler la tendance-cycle. Bien que la désaisonnalisation permette de mieux comprendre la tendance-cycle fondamentale d'une série, la série désaisonnalisée n'en contient pas moins une composante irrégulière. De légères variations d'un mois à l'autre dans la série désaisonnalisée peuvent n'être que de simples mouvements irréguliers. Pour avoir une meilleure idée de la tendance fondamentale, les utilisateurs doivent donc examiner les séries désaisonnalisées sur un certain nombre de mois.

Depuis avril 2008, l’Enquête mensuelle sur le commerce de gros utilise le logiciel X-12-ARIMA2 pour la désaisonnalisation. La technique utilisée consiste essentiellement, dans un premier temps, à corriger la série initiale de toute sorte d’effets indésirables, tels l’effet des jours ouvrables et l’effet de Pâques, par un module appelé regARIMA. L’estimation de ces effets se fait grâce à l’utilisation de modèles de régression à erreurs ARIMA (modèles autorégressifs à moyennes mobiles intégrées). On peut également extrapoler la série d'au moins une année à l'aide du modèle. Dans un deuxième temps, la série brute, pré-ajustée et extrapolée s’il y a lieu, est désaisonnalisée par la méthode X-11.

La méthode X-11, qui permet d’analyser des séries mensuelles et trimestrielles, repose sur un principe itératif d’estimation des différentes composantes, cette estimation étant faite à chaque étape grâce à des moyennes mobiles adéquates3. Les moyennes mobiles utilisées pour estimer les principales composantes, la tendance et la saisonnalité, sont avant tout des outils de lissage conçus pour éliminer une composante indésirable de la série. Puisque les moyennes mobiles réagissent mal à la présence de valeurs atypiques, la méthode X-11 incorpore un outil de détection et de correction des points atypiques utilisé pour nettoyer la série au cours de la désaisonnalisation. Les valeurs atypiques peuvent également être détectées et corrigées d’avance, à l’aide du module regARIMA.

Finalement, les données désaisonnalisées sont ajustées aux totaux annuels des données brutes. Malheureusement, la désaisonnalisation supprime l’additivité infra-annuelle d’un système de séries; de légères différences peuvent alors être observées entre la somme de séries désaisonnalisées et la désaisonnalisation directe de leur total. Afin d’assurer ou de rétablir l’additivité d’un système de séries, un processus de réconciliation est appliqué ou une désaisonnalisation indirecte est employée, c.-à-d. la désaisonnalisation d’un total est obtenu en faisant la somme des séries désaisonnalisées individuellement.

1 Pour plus de renseignements, voir X-12-ARIMA Référence Manuel Version 0.3 (2007), U.S. Census Bureau. .
2 Ladiray, D. and Quenneville, B. (2001). Seasonal Adjustment with the X-11 Method. New York: Springer-Verlag, Lecture Notes in Statistics #158.

12. Évaluation de la qualité des données

La méthodologie de l'enquête a pour objectif de contrôler les erreurs et de réduire leurs effets éventuels sur les estimations. Les résultats de l'enquête peuvent néanmoins contenir des erreurs dont l'erreur d'échantillonnage n'est que l'une des composantes. L'erreur d'échantillonnage survient lorsque les observations sont faites uniquement sur un échantillon et non sur l'ensemble de la population. Toutes les autres erreurs commises aux diverses phases de l'enquête sont appelées erreurs non dues à l'échantillonnage. Des erreurs de ce type peuvent survenir, par exemple, quand un répondant fournit des renseignements erronés ou qu'il ne répond pas à certaines questions; quand une unité du champ de l'enquête y est incluse erronément ou que des erreurs sont commises lors du traitement des données, comme des erreurs de codage ou de saisie.

Avant la publication, on analyse les résultats combinés de l'enquête afin d'en évaluer la comparabilité; il s'agit généralement d'un examen détaillé des réponses individuelles (particulièrement celles des grandes entreprises), de la conjoncture économique générale et des tendances historiques.

Une mesure habituelle de la qualité des données des enquêtes est le coefficient de variation (CV). Le coefficient de variation, défini comme étant l'erreur-type divisée par l'estimation d'échantillon, est une mesure de la précision relative. Puisque le coefficient de variation est calculé d'après les réponses des unités individuelles, il mesure aussi certaines erreurs non dues à l'échantillonnage.

La formule utilisée pour calculer le coefficient de variation (CV) en pourcentage est :

CV (X) = S(X) * 100%
X
où X représente l'estimation et S(X) représente l'erreur-type de X.

On peut construire les intervalles de confiance autour des estimations en utilisant l'estimation et le CV. Donc, pour notre échantillon, il est possible de déclarer avec un niveau donné de confiance que la valeur prévue sera comprise dans l'intervalle de confiance construit autour de l'estimation. Par exemple, si une estimation de 12 millions de dollars à un CV de 2 %, l'erreur-type sera de 240 000 $ (l'estimation multipliée par le CV). On peut déclarer avec 68 % de confiance que les valeurs prévues seront comprises dans l'intervalle dont la longueur est égale à un écart-type de part et d'autre de l'estimation, c'est-à-dire entre 11 760 000 $ et 12 240 000 $. Ou bien, nous pouvons déclarer avec 95 % de confiance que la valeur prévue sera comprise dans l'intervalle dont la longueur est égale à deux écart-type de part et d'autre de l'estimation, c'est-à-dire entre 11 520 000 $ et 12 480 000 $.

Enfin, étant donné la faible contribution de la partie non observée de la population aux estimations totales, le biais dans la partie non observée a un effet négligeable sur les CV. Par conséquent, on utilise le CV provenant de la partie observée pour l'estimation totale qui est égale à la somme des estimations pour les parties observée et non observée de la population.

13. Contrôle de la divulgation

La loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler l'information recueillie en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable, sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

L'analyse de la confidentialité des données inclut la détection de la « divulgation directe » éventuelle, qui survient lorsque la valeur figurant dans une cellule d'un tableau ne correspond qu'à quelques répondants ou que la cellule est dominée par un petit nombre d'entreprises.