Pallier les lacunes dans les données pour l'entraînement d'un algorithme d'apprentissage automatique à l'aide d'une application fondée sur l'approche participative généralisée
Par : Chatana Mandava et Nikhil Widhani, Statistique Canada
Introduction
La collecte de données par approche participative est un processus en ligne selon lequel une entreprise ou une organisation sollicite la contribution d'un grand groupe de personnes, que ce soit pour des idées, du contenu, des services ou du financement. Cette méthode permet aux entreprises de tirer parti du savoir collectif et de la créativité de personnes qui peuvent ne pas avoir de lien direct avec elles. Elle leur permet également d'accéder à des ressources auxquelles elles n'auraient pas accès autrement, comme de nouvelles technologies ou des compétences qui existent seulement à l'extérieur de leur organisation.
Dans le cadre de sa modernisation, Statistique Canada a adopté la collecte par approche participative comme méthode de pointe pour recueillir d'importantes données à des fins statistiques. Depuis, l'organisme a mis en œuvre de multiples projets de collecte par approche participative, dont les suivants.
- Le projet pilote d'approche participative OpenStreetMap (OSM) — Ce projet pilote de collecte par approche participative a permis de recueillir des renseignements géographiques grâce à l'intégration des empreintes d'immeubles dans la région d'Ottawa (Ontario) et de Gatineau (Québec). Il a contribué au lancement de l'initiative Bâtir le Canada 2020, qui vise à cartographier tous les immeubles du Canada dans OMS d'ici 2020.
- Le projet d'approche participative sur la COVID-19 — Dans le cadre de ce projet, un fichier de microdonnées à grande diffusion a été diffusé qui comprend des renseignements recueillis au moyen de questionnaires et qui peuvent servir à analyser les répercussions de la COVID-19 sur les expériences de discrimination des Canadiens, leur sentiment d'appartenance, leur confiance à l'égard des institutions et leur accès aux services de soins de santé. Ce produit est accessible au moyen du Service de transfert électronique de fichiers de Statistique Canada (voir : Approche participative : répercussions de la COVID-19 sur l'expérience de la discrimination des Canadiens fichier de microdonnées à grande diffusion)
- La plateforme de collecte par approche participative StatsCannabis — Statistique Canada a entrepris ce projet novateur pour recueillir auprès des consommateurs de cannabis des renseignements au sujet de leur plus récent achat de cannabis, y compris sur le montant payé, la qualité du produit, l'emplacement et la raison de l'utilisation. Des questions ont également été posées sur la fréquence de consommation du cannabis et la quantité consommée en moyenne chaque mois (voir : Approche participative - Cannabis). Cette initiative est encore utilisée pour recueillir des renseignements sur un marché relativement nouveau et aide à surveiller les prix d'une manière confidentielle et non intrusive.
Au sein de Statistique Canada et dans d'autres organisations, on constate une demande croissante pour des données obtenues auprès de sources de rechange, notamment dans le cadre de projets de collecte par approche participative. La Division de la science des données de Statistique Canada a récemment mis sur pied un projet de validation de principe, en collaboration avec le Centre des projets spéciaux sur les entreprises (CPSE) et Nutrition Nord Canada, lequel a mené à la création d'un projet de collecte par approche participative des données de reçus d'épicerie dans les communautés autochtones du Nord du Canada, à l'aide de la reconnaissance optique de caractères (ROC). Dans le cadre de ce projet, des images des reçus d'épicerie sont recueillies, et des variables clés en sont extraites (nom du produit, prix, subvention) à l'aide de méthodes de ROC. De plus, le Centre de données sur la santé de la population de Statistique Canada a mené un projet de validation de principe, le projet Modélisation du contexte à l'aide de transformateurs : reconnaissance des aliments, pour explorer l'utilisation d'images d'aliments pour recueillir des données sur la nutrition, y compris sur la taille des portions et le nombre de calories consommées. Ces deux projets ont comme caractéristique commune la collecte de données par approche participative, mais les données recueillies pour chacun sont différentes. Dans de telles situations, la création d'une application généralisée aidera Statistique Canada à recueillir des données selon différents formats. Cette application unique pourra être réutilisée pour la collecte de données par approche participative dans le cadre de multiples projets, ce qui réduira le fardeau lié à la création de multiples applications pour la collecte de renseignements.
Ces projets exploratoires nous ont donné l'idée d'étendre les cas d'utilisation en appliquant les méthodes d'approche participative à la collecte de divers formats de données non structurées (p. ex. texte, PDF, images satellitaires) en vue de les transformer en données structurées au moyen de techniques d'apprentissage automatique.
Motivation et proposition de valeur
La motivation derrière l'investissement dans une telle application est de créer un guichet unique qui fournira aux organisations gouvernementales l'infrastructure minimale requise pour la réalisation de projets de collecte par approche participative. Cela permettra non seulement de générer un nouveau flux de collecte de données, mais aussi d'explorer diverses données au moyen de solutions non traditionnelles. Le bassin de données pourra servir à un plus grand nombre de cas d'utilisation lorsque les sources des données sont limitées, il accroîtra le rendement de nos modèles d'apprentissage automatique et il en améliorera l'évolutivité.
L'intérêt d'élaborer une application d'approche participative est double. Premièrement, il s'agira d'un outil efficace pour la collecte de données à partir d'un échantillon de grande taille, ce qui permettra de générer plus rapidement et à un coût moindre des statistiques fiables sur divers sujets, comme sur les tendances démographiques ou le développement économique. Deuxièmement, l'application pourrait être utilisée pour faciliter la collaboration entre le public et le milieu de la recherche, en favorisant le partage de connaissances et d'expériences pour mieux comprendre les enjeux importants au pays. En tirant parti du savoir collectif des Canadiennes et Canadiens de tous les groupes démographiques, Statistique Canada aurait accès à de précieux renseignements qui peuvent éclairer la prise de décision et améliorer les services publics.
Architecture
La figure 1 peut être projetée dans trois sections de base :
Élément dorsal
Les tableaux ont été enregistrés dans une base de données SQLite, un système de gestion de base de données relationnel (SGBDR) contenu dans une bibliothèque C. Contrairement à d'autres systèmes de bases de données, le SGBDR n'a pas besoin d'être configuré ou installé pour être utilisé. Les données y sont stockées dans des tableaux comparables à ceux d'autres SGBDR, comme MySWL ou PostgreSQL, mais il nécessite moins de mémoire et d'espace sur le disque dur que ces derniers. Les bases de données SQLite peuvent être utilisées pour des applications allant de petits projets à un seul utilisateur à de grandes applications Web distribuées avec des millions d'utilisateurs simultanés. Les administrateurs des données obtenues par approche participative peuvent y accéder dans un format structuré. En outre, l'application authentifiera certains utilisateurs parmi les administrateurs ou les développeurs de l'application pour en gérer la sécurité et les fonctionnalités. Voici le schéma utilisé pour ce projet :
Générateur de projets d'approche participative
Le générateur de projets d'approche participative est une fonction qui comprend les interfaces existantes avec des modèles de conception qui peuvent être utilisés pour générer des applications de collecte par approche participative selon les cas d'utilisation. Les administrateurs de données peuvent utiliser le générateur de projets d'approche participative à partir de l'application elle-même pour générer des questionnaires sans écrire de code. Ces modèles personnalisés peuvent alors être hébergés et configurés dans l'application par les administrateurs de données. L'idée est de permettre aux utilisateurs de créer et d'héberger de nombreuses pages de collecte par approche participative à l'aide d'une application commune.
Élément frontal
La dernière fonctionnalité de l'application est l'élément frontal. Il s'agit de l'interface d'interaction entre l'utilisateur et le système. Il comprend les éléments graphiques tels que les boutons, les images, les menus et les questionnaires qui permettent aux utilisateurs de réaliser les tâches dans l'application. L'élément frontal offre également un repère visuel pour guider les utilisateurs dans leurs tâches. L'objectif d'un élément frontal bien conçu est d'aider les utilisateurs à comprendre la manière dont ils peuvent utiliser l'application et atteindre rapidement leurs objectifs. Par l'intermédiaire du système frontal, les utilisateurs finaux qui contribueront à une ou plusieurs applications d'approche participative pourront soumettre des données utiles non structurées aux fins d'analyse plus poussée.
Défis potentiels
- Sécurité : Une des plus grandes difficultés rencontrées lors de l'élaboration d'une application d'approche participative généralisée est d'assurer la sécurité de toutes les données et interactions des utilisateurs. Cela comprend la protection des renseignements personnels des utilisateurs.
- Convivialité de l'interface utilisateur (IU) : Pour toute application d'approche participative, il est essentiel que l'interface utilisateur soit intuitive et attrayante. Or il peut être difficile de créer une IU attrayante pour les utilisateurs nouveaux et existants. Les concepteurs doivent s'assurer que les fonctionnalités sont faciles à utiliser, tout en veillant à ce qu'elles soient suffisamment puissantes et souples pour répondre à leurs besoins.
- Mesures de contrôle de la qualité : Il est important de mettre en œuvre des mesures de contrôle de la qualité pour s'assurer que seuls les tâches et résultats de grande qualité sont diffusés. Ces mesures comprennent la vérification croisée des données soumises par les utilisateurs en temps réel (vérification des normes de qualité des images, de la grammaire, de la nature délicate des données, de l'extension des fichiers téléchargés, etc.). Comme cette application généralisée est utilisée pour recueillir des données en multiples formats, il faut développer un algorithme extrêmement rapide qui peut effectuer une vérification croisée des mesures de qualité susmentionnées et indiquer à l'utilisateur que les résultats téléchargés sont jugés acceptables au contrôle de qualité.
Conclusions
Nous avons expliqué comment il est possible de créer une application unique aux fins de la collecte par approche participative de différents types de données structurées et non structurées. Une telle application permettrait à une organisation d'explorer des données provenant de sources de rechange, et d'utiliser des méthodes novatrices pour recueillir les données et mettre au point de nouvelles méthodes. Elle nous permettrait également de mobiliser le public pour nous aider à mieux comprendre les difficultés en jeu aux étapes de la planification ou de la conception de nouveaux projets. La collecte par approche participative est une méthode moderne de collecte de données auprès de personnes qui souhaitent contribuer aux changements et participer à l'amélioration des statistiques. En combinant cette méthode avec les technologies de l'apprentissage automatique, nous pouvons créer de nouvelles solutions qui n'auraient pas été possibles auparavant, compte tenu du coût des données et de leurs limitations.
Rencontre avec le scientifique des données
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Jeudi, 16 février
De 14 h à 15 h, HE
MS Teams – le lien sera fourni aux participants par courriel
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.
RÉFÉRENCES
Statistics Canada. (2008). Approche participative : répercussions de la COVID-19 sur l'expérience de la discrimination des Canadiens fichier de microdonnées à grande diffusion, (site consulté le 6 janvier 2023).
Statistics Canada. (s.d.-a). Approche participative – Cannabis, version mise à jour le 22 janvier 2020, (site consulté le 6 janvier 2023).
Statistics Canada. (s.d.-b). Stratégie des données de Statistique Canada, version mise à jour le 16 août 2022, (site consulté le 6 janvier 2023).
- Date de modification :