Modélisation des stocks de fermeture de mars au moyen de données d'enquête et de données administratives

1. Introduction

Le présent rapport fournit le contexte, les méthodes générales et l'évaluation du modèle utilisé pour produire les estimations des stocks des grandes cultures principales en mars. Le travail a été réalisé par la Division de l'agriculture et la Division des méthodes de la statistique économique à Statistique Canada.

La méthodologie générale du modèle, qui énumère les combinaisons ciblées culture-province, est décrite à la section 2. La section 3 contient les sources de données utilisées pour créer l'ensemble de prédicteurs. La section 4 présente les méthodes de modélisation et les mesures d'évaluation utilisées, la section 5 donne les résultats.

2. Méthodologie générale de modélisation des stocks de fermeture

Une méthodologie de modélisation des stocks des principales grandes cultures a été élaborée et mise à l'essai sur les combinaisons culture-province qui sont habituellement publiées à partir des enquêtes de la Série de rapports sur les grandes cultures, comme le montre le tableau 1. Ces combinaisons culture-province représentent presque la totalité des grandes cultures entreposées dans les fermes canadiennes.

Tableau 1 Stocks des principales grandes cultures habituellement publiés dans les résultats de l'Enquête sur les fermes de mars, par province
Sommaire du tableau
Le tableau montre les résultats du tableau 1, Entreposage des grains à la ferme habituellement publiés dans les résultats de l'Enquête sur les fermes de mars. Les données sont présentées selon le type de culture (titres de rangée) et la province (figurant comme en-tête de colonne).
Type de culture Province
Québec Ontario Manitoba Saskatchewan Alberta
Orge X X X X X
Canola X X X X X
Maïs-grain X X X   X
Avoine X X X X X
Seigle X X X X X
Pois secs     X X X
Lin     X X X
Lentilles       X X
Blé dur       X X
Blé total, excluant blé dur X X X X X
Graines de l'alpiste des Canaries*  
Pois chiches*  
Graines de moutarde*  
Graines de tournesol*  
* disponible uniquement au niveau national
Note : Les stocks à la ferme ont également été modélisés dans les Maritimes et/ou en Colombie-Britannique pour certaines cultures (avoine, canola, soja, maïs, orge, pois secs et blé) lorsque les données étaient disponibles.

L'objectif du modèle est de produire une estimation officielle et exacte des stocks de fermeture à la ferme en mars pour certaines combinaisons culture-province au moyen de l'information provenant de sources de données existantes. La qualité des estimations du modèle sera examinée plus en détail dans la sous-section 4.3 et la section 6.

3. Sources de données utilisées dans le modèle

La méthodologie de modélisation a utilisé trois sources de données :
1) données de la Série de rapports sur les grandes cultures de Statistique Canada; 2) données de l'Indice des prix des produits agricoles de Statistique Canada; 3) données de la Commission canadienne des grains (CCG).

3.1 Données de la Série de rapports sur les grandes cultures

La Série de rapports sur les grandes cultures de Statistique Canada obtient de l'information sur l'industrie céréalière canadienne (pour obtenir des détails sur la méthodologie de la Série de rapports sur les grandes cultures, veuillez consulter la page Web de la Série de rapports sur les grandes cultures). Les enquêtes sont menées à chaque année aux mois de mars (annulé en 2023), juillet (juin, depuis 2020), septembre (annulé en 2016), novembre et décembre. À mesure que la campagne agricole avance, différents aspects de l'industrie céréalière sont recueillis. Certaines de ces mesures ont été utilisées directement (intentions d'ensemencement [mars], stocks de fermeture à la ferme [juillet, décembre], production des grandes cultures [novembre]), et d'autres ont servi à calculer de nouveaux prédicteurs (pourcentage de ressources qui ont été produites et pourcentage des utilisations qui ont été livrées).

3.2 Données de l'Indice des prix des produits agricoles

L'Indice des prix des produits agricoles diffuse des estimations du prix de divers produits agricoles, y compris presque toutes les céréales et les grandes cultures pour lesquelles les stocks de fermeture sont publiés. Les prix sont publiés mensuellement pour chaque province. Comme cette analyse porte sur une période de plus de 15 ans, l'inflation occulterait la relation entre le prix et les stocks de fermeture. C'est pourquoi le prix sous sa forme brute n'était pas un prédicteur convenable. Les prix provinciaux mensuels bruts pour chaque grain et chaque grande culture ont été transformés en deux prédicteurs (différence en pourcentage d'une année à l'autre et différence en pourcentage d'un trimestre à l'autre) qui convenaient mieux au modèle.

3.3 Données de la Commission canadienne des grains

La CCG recueille des données sur de nombreux aspects de l'industrie céréalière au Canada. Elle recueille notamment les livraisons de grandes cultures des fermes aux silos. Les livraisons sont diffusées chaque semaine dans le cadre du programme Statistiques hebdomadaires des grains de la CCG à l'échelle provinciale.

Compte tenu de la fréquence à laquelle les données sur les livraisons sont publiées, deux prédicteurs ont été calculés à partir des données de la CCG : soit le total des livraisons pendant une campagne agricole donnée et le total des livraisons depuis la dernière enquête des Rapports sur les grandes cultures.

4. Modélisation des stocks de fermeture de mars

4.1 Méthodes de modélisation

Le modèle est construit à partir des relations historiques entre l'estimation publiée des stocks de céréales à la ferme et les diverses caractéristiques des cultures et des industries céréalières. Les données des 10 années précédant l'année d'estimation sont utilisées pour calculer le modèle.

Les stocks de céréales à la ferme sont modélisés au moyen du langage de programmation R aux fins de calcul statistique. Deux algorithmes d'apprentissage sont utilisés : le LASSO (Least Absolute Shrinkage and Selection Operator) du package glmnet aux fins de sélection des fonctionnalités, et la régression robuste du package MASS aux fins de prédiction.

Le LASSO est optimisé à partir de 100 lambdas uniques au moyen d'une validation croisée par exclusion d'un élément. Les prédicteurs qui n'ont pas été rétrécis à zéro au moyen du LASSO sont traités par la régression robuste. La régression robuste utilise l'estimateur MM.

4.2 Définition de la cible

L'estimation des stocks de céréales à la ferme la plus exacte est l'estimation publiée. L'estimation publiée est calculée à partir de l'estimation de l'enquête des Rapports sur les grandes cultures, qui a été ajustée au moyen de l'équation des ressources et des utilisations ainsi que d'autres sources de données servant de référence. Le processus est décrit en détail sur la page Web Bilan des grains au Canada.

L'équation du bilan est la suivante :

UTILISATIONS=LIVRAISONS+SEMENCES+STOCKS À LA FERMETURE+ALIMENTS POUR ANIMAUX, DÉCHETS, IMPURETÉS,

et

RESSOURCES=STOCKS D'OUVERTURE+PRODUCTION,

RESSOURCES=UTILISATIONS

Les estimations des livraisons sont tirées des données administratives de la CCG.
Les estimations de la production sont tirées de l'Enquête sur les grandes cultures de novembre.
Les stocks d'ouverture sont les stocks à la fermeture de l'Enquête sur les grandes cultures de décembre.
Les estimations des stocks à la fermeture sont actuellement tirées de l'Enquête sur les grandes cultures de mars.
Les estimations des semences sont dérivées de l'Enquête sur les grandes cultures de novembre.
Les estimations des aliments pour animaux, déchets et impuretés sont le résidu de l'équation donnée ci-dessus.

Quand vient le moment d'estimer les stocks de céréales à la ferme, les estimations de toutes les variables sauf les aliments pour animaux, les déchets et les impuretés sont disponibles. Par conséquent, l'équation peut être réécrite ainsi :

RESSOURCES-LIVRAISONS-SEMENCES=STOCKS À LA FERMETURE+ALIMENTS POUR ANIMAUX, DÉCHETS, IMPURETÉS,

ou

RESTE=STOCKS À LA FERMETURE+ALIMENTS POUR ANIMAUX, DÉCHETS, IMPURETÉS

Le modèle est finalement conçu pour remplacer l'estimation des stocks à la fermeture dans les fermes de mars. Cependant, étant donné que la quantité restante est connue, il sert à stabiliser la cible. La cible du modèle est le pourcentage de reste que représentent les stocks à la fermeture.

Comme l'estimation de l'enquête, l'estimation modélisée peut faire l'objet d'ajustements au moyen de l'équation de bilan et d'autres sources de données utilisées servant de référence.

4.3 Méthodes d'évaluation du modèle

Pendant la phase de recherche du projet, de nombreux paramètres de modèle ont été examinés. Ils comprenaient les algorithmes d'apprentissage utilisés aux fins de prédiction, la taille du groupe de prédicteurs et la forme de la cible.

On a évalué la réussite du modèle en mesurant l'exactitude et la précision de différentes sélections de paramètres.

L'exactitude est mesurée par comparaison des prédictions aux estimations des stocks à la fermeture dans les fermes publiées en mars. L'exactitude a été mesurée au niveau de la culture et aux niveaux province-culture. Dans les deux cas, l'erreur absolue moyenne en pourcentage pondérée (EAMPp) a été utilisée comme mesure de l'exactitude.

La formule de l'EAMPp est la suivante :

EAMPp=i=1npubliéei-prédictioni|i=1npubliéei

prédiction est la prédiction du modèle, publiée est l'estimation publiée, i est une observation donnée (un exemple d'observation dans ce contexte serait l'estimation de l'orge de l'Ontario pour 2022) et n est le nombre total d'observations dans une culture ou un groupe province-culture. La précision du modèle est évaluée au moyen de l'intervalle de confiance (IC), décrit en détail dans la section 6.

5. Résultats

Dans l'ensemble, le modèle se comparait favorablement aux résultats de l'enquête de mars. Dans tous les groupes sauf deux, l'orge et les graines de moutarde, le modèle a donné de meilleurs résultats que l'enquête. Une analyse plus poussée de l'orge a été effectuée (les livraisons d'aliments pour animaux diffusées par la Commission canadienne des grains ont été examinées, des experts en la matière ont été consultés), mais rien n'a permis d'expliquer adéquatement l'écart.

6. Indicateur de qualité des données — l'intervalle de confiance

Tous les modèles prédictifs sont sujets à l'erreur. Il est par conséquent important de mesurer le degré d'incertitude dans les estimations des modèles. Cela est effectué au moyen de l'intervalle de confiance. Cet intervalle peut être utilisé par des experts en la matière dans leur processus de validation et pendant le processus de bilan.

Voici un guide concis de l'estimation bootstrap de la variance pour le modèle des stocks à la fermeture de mars. Le principal objectif de cette estimation est de saisir la variance de l'ensemble du processus de modélisation. Par conséquent, l'élément clé du bootstrap — l'échantillonnage avec remise — se produit au début du processus de modélisation.

  • Étape 1 : Échantillonnage aléatoire avec remise.

    L'ensemble de données d'entraînement, qui contient toutes les observations à partir desquelles le modèle original est construit, est stratifié par province, puis échantillonné au hasard avec remise au niveau de l'observation. S'il y avait 10 observations au départ, le nouvel ensemble bootstrap contiendra également 10 observations, mais il pourrait y avoir des récurrences de la même observation en raison de l'échantillonnage aléatoire stratifié avec remise.

  • Étape 2 : Effectuer une validation croisée d'une régression LASSO sur la liste des tailles de pénalité pour trouver la taille de pénalité optimale.

    On effectue une validation croisée sur une régression LASSO (à 4 blocs, en essayant 100 tailles de pénalité différentes) sur l'ensemble de modélisation bootstrap pour trouver la taille de pénalité optimale.

  • Étape 3 : Exécuter la régression LASSO pour créer un ensemble de prédicteurs réduit

    Le LASSO est entraîné de nouveau au moyen de la valeur de pénalité optimale calculée à l'étape 2. Le modèle optimal qui en résulte peut rétrécir certains coefficients de prédiction à zéro. Dans ce cas, les prédicteurs seraient retirés du groupe initial de prédicteurs, ce qui créerait un bassin réduit de prédicteurs.

  • Étape 4 : Entraîner une régression robuste avec l'ensemble de prédicteurs réduit.

    L'ensemble de modélisation bootstrap est limité au bassin réduit de prédicteurs, puis ajusté au moyen d'une régression robuste. Cette régression robuste est le modèle qui fournit l'estimation finale.

  • Étape 5 : Inférer au moyen du modèle de régression robuste entraîné.

    La régression robuste entraînée est appliquée à l'ensemble de prédiction.

  • Étape 6 : Répéter 1 000 fois les étapes 1 à 5.

    Les étapes 1 à 5 sont répétées 1 000 fois, chaque nouvel échantillon aléatoire stratifié fournissant une mutation différente de l'ensemble de modélisation initial.

  • Étape 7 : Calculer l'IC au moyen de la méthode des centiles.

    Une fois que les 1 000 prédictions ont été sauvegardées, le résultat final est créé comme suit :

    • Lancer les 1 000 répliques.
    • Sauvegarder les valeurs des 2,5 et 97,5 centiles (25e et 975e plus grandes répliques).

    Nous créons ensuite un IC au moyen des valeurs enregistrées. La méthode des centiles consiste à supprimer les 25 répliques inférieures et les 25 répliques supérieures (les 2,5 % plus petites et les 2,5 % plus grandes) pour obtenir un IC à 95 %.

  • Étape 8 : Répéter les étapes 1 à 7 pour chaque culture.

    Toutes les étapes précédentes doivent être répétées pour chaque culture.

7. Critères de diffusion

Un ensemble de règles a été établi pour déterminer si les stocks à la fermeture modélisés ont une qualité acceptable à des fins de diffusion. Ces règles sont fondées sur l'IC obtenu à partir des répliques bootstrap. Selon ces règles, les estimations non conformes aux normes de qualité peuvent ne pas être diffusées.