Communauté de pratique (CdP) de l'apprentissage automatique appliqué à l'analyse de texte: Bilan de l'année 2021

La Communauté de pratique (CdP) de l'apprentissage automatique appliqué à l'analyse de textes est un groupe interministériel d'employés du gouvernement du Canada qui font part et discutent de solutions d'apprentissage automatique (AA) de haute qualité concernant les données textuelles. Le groupe a été créé en 2018 sous la forme d'un petit groupe de spécialistes de la science des données de Statistique Canada et s'est rapidement élargi pour devenir une CdP interministérielle composée de représentants de plus de 15 ministères et organismes fédéraux qui se réunissent virtuellement tous les mois.

La CdP a pour principal objectif d'accroître la capacité de l'AA dans de multiples disciplines au sein de la fonction publique. Aucune expérience préalable de l'AA n'est requise pour participer à ces réunions. Les personnes de toutes les disciplines et de tous les ministères et organismes sont invitées à participer aux réunions et à prendre part aux discussions.

La CdP atteint son objectif en:

  • Collaborant par le biais de discussions sur divers aspects de l'analyse de textes
  • Partageant des présentations et d'autres documents concernant l'analyse de textes
  • Fournissant des mises à jour sur les questions et les problèmes rencontrés lors de l'application de l'apprentissage automatique sur des données textuelles (utilisation de Gitlab, de certains packages, etc.)
  • Établissant des pratiques exemplaires fondées sur diverses expertises au sein du gouvernement.

Au cours de l'année 2021, la CdP a organisé 13 présentations de différents ministères et organismes. Chaque présentation permettait d'illustrer une solution concrète d'AA appliquée aux données textuelles ou un exemple de cas qui nécessitait le développement d'une application d'AA au texte.

Présentations de 2021

Vous trouverez ci-dessous une description de chacune des présentations qui ont eu lieu l'année dernière. Si vous souhaitez accéder aux présentations ou obtenir plus de renseignements à leur sujet, veuillez communiquer avec la CdP de l'apprentissage automatique appliqué à l'analyse de textes : statcan.appliedmltextcop-cdpaaappliquetexte.statcan@statcan.gc.ca.

Classification des commentaires sur le Recensement de 2021 à Statistique Canada

Dans le but d'améliorer l'analyse des commentaires sur le Recensement de la population de 2021, la division de la science des données de Statistique Canada a travaillé en collaboration avec le Secrétariat des domaines spécialisés du recensement pour créer une preuve de concept sur l'utilisation des techniques d'apprentissage automatique pour classer rapidement et en toute objectivité les commentaires formulés dans le cadre du recensement. En plus de classer les commentaires par domaine spécialisé, le modèle visait aussi à classer les commentaires sur des problèmes techniques et des préoccupations en matière de protection de la vie privée.

Tirer profit des données pour solidifier son savoir d'affaires: Utiliser la rétroaction des clients pour nourrir l'innovation et la prise de décision à Immigration, Réfugiés et Citoyenneté Canada (IRCC)

Depuis 2014, IRCC récolte de la rétroaction sur ses services de la part de sa clientèle. La Direction générale de l'expérience client a prévu de lancer un projet d'apprentissage automatique pour analyser les commentaires de manière plus approfondie. Cette analyse plus poussée de ces données lui permettrait d'avoir une meilleure compréhension des attentes et opinions de cette dernière et d'aligner ses projets d'innovation et son processus de prise de décision. Le présentateur a discuté avec les membres de la CdP des approches de projet appropriées pour démontrer la valeur ajoutée des projets d'apprentissage automatisé à la haute gestion.

Analyse des données pour les services d'assurance et de consultation à l'Agence du revenu du Canada (ARC)

La section de l'analyse des données au sein de la Direction générale de la vérification, de l'évaluation et des risques de l'ARC a créé un musée des données en 2016. Le musée des données a permis :

  1. la fourniture d'analyses de données descriptives et diagnostiques pour de multiples activités d'assurance et de consultation,
  2. l'utilisation de l'apprentissage automatique pour une meilleure reconnaissance des patrons, une meilleure classification et une meilleure détection des valeurs aberrantes, et
  3. l'élaboration de procédures opérationnelles standardisées pour la confidentialité et la protection des données.

La section de l'analyse des données a constaté de visu que les méthodes et techniques de traitement du langage naturel (TLN) sont sous-utilisées dans le secteur de l'audit interne, et a saisi l'occasion d'appliquer le TLN à diverses étapes du processus d'audit interne. Par exemple, le TLN a aidé les équipes d'audit interne à :

  1. analyser de grands volumes de données textuelles non structurées, telles que des notes d'entrevue, des rapports de 400 pages de l'Office Gouvernemental des Comptes, et des pages Web lors de la génération automatique de résumés de risques à partir de l'environnement socio-économique,
  2. visualiser l'interconnectivité des risques,
  3. mesurer le ton des rapports en utilisant l'analyse des sentiments, et
  4. exploiter un moteur de recherche de questions et réponses en langage naturel.

Ingénierie des données avec R, R Markdown, Shiny et les algorithmes

Cette présentation a présenté les défis et les solutions liés à l'ingénierie des données, et le domaine qui traite de l'automatisation et de la transformation des données. Le présentateur a discuté de la taxonomie des tâches d'ingénierie des données et des outils pour y répondre. Il a décrit les efforts pour créer la trousse des outils d'ingénierie des données et la Communauté de pratique. Des applications Shiny pour la fusion/déduplication de données floues et l'analyse TLN de la base de données ouvertes du Canada des demandes d'accès à l'information complétées ont été présentées.

La Modélisation thématique dynamique à Statistique Canada

Cette présentation a fourni un aperçu technique de la méthodologie sous-jacente à la modélisation thématique, expliquant la base de l'allocation de Dirichlet latente et introduisant une dimension temporelle dans l'analyse de modélisation thématique. Cela a été fait dans le contexte de la détection d'événements à l'aide des données de la Base canadienne de données des coroners et des médecins légistes (BCDCML).

Analyse des événements à l'aide des structures du centre de situation à Transports Canada

La Direction des préparatifs d'urgence envoi des notifications sur les événements (incidents, accidents, etc.) qui touchent l'infrastructure de transport du Canada (maritime, aérien et de surface), 24 heures sur 24 et 7 jours sur 7, aux abonnés par courriel. L'équipe du présentateur a conçu ces notifications bilingues pour produire des ensembles de données analytiques afin d'extraire des renseignements, de permettre l'analyse de texte et de détecter des modèles pour des événements similaires.

L'analyse des médias sociaux en temps réel à Transports Canada

Cette application Web de validation de concept a exploité les données des médias sociaux en temps réel et a fourni des informations géospatiales et des analyses de texte à l'aide du traitement du langage naturel. L'objectif de l'application était d'aider les analystes à déterminer dans quelle mesure des événements reliés à la sûreté et à la sécurité pouvaient être extraits des médias sociaux. En outre, un composant attribuant des scores aux sentiments a été ajouté pour permettre une analyse des sentiments basée sur des sujets ou des organisations clés. Bien qu'elle n'ait jamais été mise en œuvre, la preuve de concept a permis une analyse rapide des problèmes émergents pour une sous-population d'utilisateurs de médias sociaux, y compris des particuliers, des fournisseurs d'informations et la police nationale.

L'apprentissage automatique quantique appliqué à la classification de texte par Statistique Canada, l'Institut quantique de l'Université de Sherbrooke et la Banque du Canada

Les technologies découlant de l'informatique quantique ont le potentiel de révolutionner plusieurs domaines de l'apprentissage automatique, incluant la classification de texte. Durant cet exposé, les présentateurs ont exploré trois approches distinctes d'apprentissage automatique quantique à l'époque des ordinateurs quantiques d'échelle intermédiaire bruitées, dans le but de présenter ces méthodes aux chercheurs et aux scientifiques de données existants dans le domaine.

De la guérison du cancer à la saisie des gazouillis : Le TLN appliqué pour les sciences de la santé à l'Agence de la santé publique du Canada (ASPC)

Le présentateur a partagé son bref voyage à travers l'application pratique du TLN aux problèmes de la recherche en sciences de la santé. Il s'agit notamment de l'utilisation du TLN basé sur des règles pour extraire les interactions médicament-maladie des résumés de recherche médicale, jusqu'à l'utilisation de l'apprentissage automatique visant les gazouillis sur la vaccination afin de prédire les épidémies. Les leçons apprises et les erreurs qui ont été faites ont été discutées.

Vers l'automatisation des examens systématiques sur la vaccination à ASPC

L'ASPC (avec Xtract AI, Vancouver, BC) envisage l'automatisation de différentes étapes de synthèse des données visant à accroître les gains d'efficacité. Le présentateur a partagé le résumé d'une version préliminaire d'un nouveau système d'apprentissage automatique fondé sur des avancements récents quant au TLN, comme BioBERT, où d'autres optimisations seront réalisées par l'entremise d'une nouvelle base de données de documents portant sur la vaccination. Le modèle de TLN optimisé obtenu et qui est au cœur de ce système a pu déceler et extraire les champs relatifs aux principes de la Population, l'Intervention, les Comparateurs, les Résultats (PICR) des publications sur la vaccination avec une exactitude moyenne s'élevant à 88% dans cinq classes de texte.

Création de Tableaux de Bord de Visualisation de Données à l'aide de Cadres Python de source ouverte à Statistique Canada

django Dash

La construction de tableaux de bord s'est avérée utile dans le domaine de la science des données. Avec les progrès actuels dans ce domaine, on assiste à l'émergence d'outils de source libre puissants, hautement personnalisables et gratuits. Le présentateur a parlé de certains des meilleurs outils python adaptés à la construction de tableaux de bord, a montré des exemples de travaux pertinents réalisés par la Division de la sciences des données et a présenté un bref aperçu de la façon de s’initier à deux outils des plus populaires, Dash et Django.

Automatisation de l'extraction d'informations à partir d'états financiers dans le système SEDAR à l'aide de techniques basées sur la disposition spatiale à Statistique Canada

SLICEmyPDF

Le format PDF (Portable Document Format) est le plus couramment utilisé par les entreprises à des fins d'information financière. L'absence de moyens efficaces pour extraire les données de ces fichiers PDF hautement non structurés d'une manière tenant compte de la mise en page représente un défi majeur pour les analystes financiers pour analyser et traiter efficacement les informations en temps opportun. «Spatial Layout based Information and Content Extraction» (SLICE) - un algorithme de vision par ordinateur unique utilise simultanément des informations textuelles, visuelles et de mise en page pour segmenter plusieurs points de données en une structure tabulaire. Cette solution proposée, réduit considérablement les heures de travaux manuelles consacrées à l'identification et à la capture des informations requises en automatisant le processus d'extraction des variables financières pour près de 70 000 PDF par an en temps quasi réel. Il comprend également le développement d'un système de gestion des métadonnées robuste qui indexe près de 150 variables pour chaque document financier ainsi qu'une application web qui permet aux utilisateurs d'interagir avec les données extraites. Consultez le récent article du Réseau de la science des données sur Intelligence documentaire : l'art de l'extraction d'information à partir des PDF.

Assistant d'affaires, agent conversationnel d'Innovation, Sciences et Développement économique Canada (ISDE)

L'assistant d'affaires d'Innovation, sciences et développement économique Canada
Description - L'assistant d'affaires d'ISDE

L'assistant d'affaires d'Innovation, sciences et développement économique Canada. Le texte dans l'image : Bonjour ! Je suis l'assistant d'affaires, votre nouveau robot conversationnel d'Innovation, sciences et développement économique Canada (ISDE). Je suis programmé pour répondre à vos questions sur la propriété intellectuelle et d'autres services offerts par ISDE. Comment puis-je vous aider ?

ISDE a commencé à mettre en œuvre la technologie de l'assistant virtuel en 2019 avec un produit appelé agent Conversationnel. L'assistant virtuel est un canal de communication que les Canadiens peuvent actuellement exploiter lorsqu'ils atterrissent sur les pages web et l'application mobile de l'ISDE. L'Office de la propriété intellectuelle du Canada (OPIC), Corporations Canada (CC) et le Secteur des Communications Stratégiques et du Marketing (SCSM) et l'appli Entreprises Canada utilisent un agent conversationnel sur le web et sur les plate-formes mobiles pour aider à réduire les appels vers les centres d'appels et offrir un service amélioré lorsqu'ils fournissent des informations aux Canadiens qui visitent leurs sites web ou leurs applications. L'agent actuel est construit sur une architecture Microsoft tirant parti de Microsoft Azure et de l'IA de compréhension du langage de Microsoft, LUIS. Une présentation similaire a été faite lors de l'atelier sur les agents conversationnels organisé par le Réseau de la science des données. Les présentateurs y expliquaient le contexte et l'objet de leur technologie d'assistant virtuel. Voir Conversation sur les agents conversationnels – Compte rendu de l'atelier sur les agents conversationnels.

Conclusion

Tout au long de l'année 2021, des personnes de différents ministères et organismes du gouvernement du Canada ont présenté diverses applications de techniques d'apprentissage automatique (AA) aux données textuelles. Nous avons couvert différentes étapes du pipeline des données, allant du prétraitement à la visualisation. Nos membres tirent profit de chacune des expériences et des leçons apprises par les autres et peuvent ensuite créer plus efficacement des produits d'AA.

En 2022, la Communauté de pratique (CdP) continuera d'être un centre qui permet aux fonctionnaires de faire connaître leur passion pour l'application des techniques d'AA dans le but de répondre à des problèmes opérationnels concrets. La CdP est menée par Statistique Canada et bénéficie de la participation active de tous les ministères de la fonction publique fédérale. Nous encourageons les présentations de tous les ministères et nous espérons continuer à couvrir le nombre croissant d'applications du TLN dans les ministères.

Pour obtenir plus de renseignements sur la CdP ou pour en devenir membre, veuillez communiquer avec la Communauté de pratique de l'apprentissage automatique appliqué à l'analyse de textes : statcan.appliedmltextcop-cdpaaappliquetexte.statcan@statcan.gc.ca. Les employés du gouvernement du Canada peuvent également faire partie de notre groupe GCExchange sur la Communauté de pratique (CdP) sur l'apprentissage automatique appliqué : Analyse de texte.

Date de modification :