Apprentissage automatique : une introduction - Transcription
Apprentissage automatique : une introduction - Transcription
(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Apprentissage automatique: Une introduction")
Apprentissage automatique: Une introduction
Bienvenue à l'apprentissage automatique: une introduction. Nous expliquerons ici les concepts de base de l'apprentissage automatique et nous inclurons un cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable.
Objectifs d'apprentissage
Cette vidéo est recommandée à ceux qui sont déjà familiers avec les concepts et techniques associés à la programmation informatique et à l'utilisation d'algorithmes pour analyser les données. Une distinction importante que nous établirons dans cette vidéo, c'est la différence entre la science des données, l'intelligence artificielle et l'apprentissage automatique. Vous apprendrez à quoi peut servir l'apprentissage automatique, comment il fonctionne et différentes méthodes pour les mettre en œuvre. Vous apprendrez également à construire et à utiliser les processus d'apprentissage automatique de manière responsable.
Étapes du cheminement des données
(Texte à l'écran: Les étapes du cheminement des données sont appuyées par une base d'intendance, de métadonnées, de normes et de qualité)
(Diagramme du Cheminement des données: Étape 1 - definir, chercher, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et de qualité.)
Ce diagramme est une représentation visuelle du cheminement des données, soit d'abord la collecte, l'exploration, le nettoyage, la description et la compréhension des données, puis leur analyse, afin de pouvoir ultimement communiquer aux autres ce que révèlent ces données.
Étape 1,2 et 3: Definir, chercher et recueillir; Explorer, nettoyer et décrire; Analyser et Modéliser
(Diagramme du Cheminement des données avec un attention sur l'Étape 1 - Definir, chercher et recueillir; Étape 2 - Explorer, nettoyer et décrire; Étape 3 - Analyser et modéliser)
On peut se servir de l'apprentissage automatique aux étapes de recherche, de la collecte et de la protection des données dans le cheminement des données pour chercher des données et ne trouver que les parties qui sont nécessaires. On peut également s'en servir aux étapes d'exploration, de nettoyage et de description dans le cheminement des données pour révéler ce qu'elles contiennent. Enfin, l'apprentissage automatique permet, aux étapes de l'analyse et de la modélisation du cheminement des données, de trouver les relations entre les variables et de prévoir les résultats ou les événements futurs.
Qu'est-ce que la science des données?
(Diagramme contenant 3 cercles qui s'intersect au milieu. Les cercles du haut orange, vert gauche et bleu droit représentent l'Expertise du domaine, l'Informatique et Mathématique, respectivement. L'intersection des cercles orange-vert, vert-bleu et bleu-orange représentent le Traitement des données, l'Apprentissage automatique et Recherche statistique, respectivement. L'intersection des trois cercles représente les Science des données.)
Tout d'abord, qu'est ce que la science des données exactement? Elle représente l'intersection de trois éléments: l'expertise dans un domaine particulier, la programmation informatique ainsi que les mathématiques et les statistiques. Les spécialistes des données, les informaticiens, les statisticiens et d'autres types de scientifiques peuvent utiliser l'apprentissage automatique dans leur travail. Les techniques des sciences des données telles que l'intelligence artificielle et l'apprentissage automatique sont utilisées pour résoudre des problèmes analytiquement complexes.
Qu'est-ce que l'intelligence artificielle et l'apprentissage automatique?
L'intelligence artificielle ou IA est un domaine d'étude de l'informatique consacré à la résolution de problèmes communément associés à l'intelligence humaine, tels que la mémoire, la résolution de problèmes et la reconnaissance des formes. Un exemple d'intelligence artificielle serait un ordinateur qui a été programmé pour reconnaître toutes les séquences de coups possibles afin de jouer la partie d'échecs. L'apprentissage automatique, en revanche, est un sous-ensemble de l'intelligence artificielle où l'ordinateur apprend sans avoir été programmé pour des tâches particulières. Au lieu d'avoir des lignes de code indiquant à l'ordinateur quoi faire, dans l'apprentissage automatique, l'ordinateur apprend les modèles dans les données et applique ces modèles pour prédire un résultat. Ainsi, aux échecs, l'ordinateur ne choisit pas un coup au hasard. Après avoir évalué toutes les options possibles, mais il utilise plutôt les données recueillies dans des millions de parties jouées précédemment, non seulement pour s'assurer que son coup est valable, mais aussi pour s'assurer que la séquence est la plus susceptible d'aboutir à une victoire.
Pourquoi utiliser l'apprentissage automatique?
L'apprentissage automatique est un outil qui permet d'élaborer, d'ajuster et de peaufiner des modèles complexes afin de faire des prévisions plus précises à l'aide d'énormes volumes de données. Voyez le comme un cerveau humain: à mesure qu'il reçoit plus de données, le modèle s'améliore et peut tirer des meilleures conclusions menant à des prévisions plus solides. L'apprentissage automatique peut s'utiliser pour automatiser des tâches répétitives et fastidieuses qui, autrement, prendraient de nombreuses heures à réaliser, comme le tri et la catégorisation d'articles d'actualité en ligne.
Comment les algorithmes d'apprentissage automatique "apprennent"
Les algorithmes d'apprentissage automatique apprennent à prédire un résultat de deux manières: l'apprentissage supervisé et l'apprentissage non supervisé. Dans l'apprentissage supervisé. Nous donnons un algorithme, une mise en correspondance des entrées avec les résultats souhaités. Les algorithmes tentent de comprendre la relation entre eux, de sorte que pour les entrées ultérieures, il peut prédire les résultats en suivant la même logique que dans la mise en correspondance initiale. Une exigence importante de l'apprentissage supervisé est de disposer de données dont les entrées et les résultats sont connues. C'est ce qu'on appelle les données étiquetées. Dans l'apprentissage non supervisé, nous n'avons pas de données avec des entrées et des résultats souhaités. L'algorithme recherche ici les similitudes et les schémas dans les données et tente de déterminer une stratégie pour catégoriser les entrées. L'algorithme appliquera la même stratégie pour catégoriser les entrées ultérieures. Nous verrons un exemple de chacun d'entre eux aux deux prochaines diapositives. Nous voyons ici un exemple d'utilisation de l'apprentissage automatique supervisé pour prédire le type de culture sur des images satellites. Sur la droite de la diapositive, vous voyez une image satellite réelle des champs agricoles. C'est l'entrée. La première étape consiste à déterminer les parties de l'image qui sont des cultures par rapport à d'autres éléments comme les routes, l'eau, les clôtures ou les arbres, puis à déterminer chaque type de cultures différent. Il s'agit des résultats. Cette première étape doit être effectuée par une personne. La deuxième étape consiste à créer un algorithme d'apprentissage automatique qui lie les images satellite et l'etiquette correctement de ce qui se trouve à chaque endroit de l'image. L'algorithmique apprend ainsi à déterminer les cultures par leur apparence sur l'image, par exemple par la couleur et la densité d'images. Enfin, l'algorithme lit une image qu'il n'a jamais vue auparavant et tente de préciser quelle culture s'y trouve. En se fondant sur ce qu'il a appris lors de la deuxième étape.
Apprentissage supervisé: déterminer le type de culture sur des images satellites
(Image de satellite d'une région agricoles recouvert de fermes)
Dans cet exemple, nous voyons comment un algorithme d'apprentissage automatique non supervisé peut être utilisé pour distinguer les transactions frauduleuses de toutes les transactions légitimes. Dans un premier temps, toutes les transactions effectuées pendant un certain temps sont examinées par un algorithme. L'algorithme examine de nombreux attributs différents de chaque transaction, tels que la date, le montant, le lieu, le type de magasin et le type de produit ou le service acheté. Ensuite, l'algorithme est appelé à trier les transactions par groupes. Dans ce cas-ci, nous pensons que la fraude est un événement rare et nous nous attendons donc à ce qu'un très faible pourcentage de transactions soit séparé du reste. N'oubliez pas que, dans le cadre d'un apprentissage non supervisé, nous ne savons pas à l'avance quelles transactions sont légitimes et lesquelles sont frauduleuses. Les prochaines diapositives vous présenteront quelques méthodes d'apprentissage automatique. Nous ne couvrons pas tous ici dans cette courte vidéo.
Apprentissage non supervisé: Détecter la fraude par carte de crédit
Le traitement des images est une méthode d'apprentissage automatique. Nous avons déjà vu comment cela fonctionne dans l'exemple du type de culture à partir des images satellites. Cette méthode est utilisée pour extraire des informations, des images, dégager des schémas dans des images, segmenter une image ou compresser une image afin qu'elle occupe moins d'espace de stockage.
Méthodes d'apprentissage automatique: Traitement du langage naturel
Le traitement du langage naturel est une méthode visant à traduire le langage de l'ordinateur et le langage humain. Le traitement du langage naturel a pour objectif de faire en sorte qu'un ordinateur puisse lire une ligne de texte et en comprendre le sens, comme le ferait une personne. Un exemple est un agent conversationnel, lequel s'attend à ce que les gens tapent "comment faire" ou "je ne trouve pas" et des mots clés qui renvoient à des choses qu'ils devraient pouvoir faire ou trouver sur ce site web particulier, puis fournir la réponse appropriée. À chaque interaction, l'agent conversationnel apprend à être de plus en plus sophistiqué dans sa façon d'interpréter ce que les gens tapent et de formuler ses réponses.
Méthodes d'apprentissage automatique: Analyse de sentiments
L'analyse de sentiments est une méthode d'apprentissage automatique qui interprète les émotions contenues dans un texte afin de mesurer le penchant des opinions des gens, qu'elles soient positives, négatives ou neutres. Un exemple est la lecture et l'interprétation des sentiments des gens à partir de critiques d'expériences dans les restaurants.
Méthodes d'apprentissage automatique: Apprentissage profond
Vous a-t-on jamais montré une image qui est toute floue et qui vous êtes sensé à deviner? Puis, peu à peu, la résolution s'améliore, donc d'abord vous savez que c'est une personne, puis vous voyez que c'est une femme, et ensuite vous reconnaissez les caractéristiques physiques uniques qui différencient votre sœur d'un étranger, même si elles ont la même taille, la même couleur de cheveux et yeux. Voilà comment fonctionne l'apprentissage profond. L'algorithme effectue de nombreux passages sur les mêmes données, gagnants chaque fois en précision jusqu'à ce qu'il puisse prédire ce que l'image est réellement. Il fonctionne en utilisant des structures de neurones interconnectés qui imitent le fonctionnement d'un cerveau humain. Un exemple d'apprentissage profond est la conduite de véhicule autonome. Les caméras alimentent en permanence des algorithmes d'apprentissage profond dans l'ordinateur de bord de la voiture, qui analysent et interprètent les images de son environnement et ajuste la vitesse et la direction de déplacement de manière à éviter les collisions.
Mise en place responsable d'un processus d'apprentissage automatique
Les processus d'apprentissage automatique sont généralement élaborés à l'aide de code source ouvert et de code écrit à l'interne. Tous les processus d'apprentissage automatique doivent satisfaire à certaines normes de qualité, indépendamment des processus qui les élaborent ou de l'usage qui en est fait. Les normes de qualité doivent comprendre les caractéristiques suivantes: Rigueur, tant au niveau des méthodes scientifiques utilisées que des tests auxquels les processus sont soumis. Imputabilité, quant à leur mode d'utilisation et à leur finalité. Fiabilité, aux termes d'application rigoureuse. Éthique, en ce qui concerne les données que les algorithmes eux-mêmes. Pour que les processus d'apprentissage automatique de Statistique Canada satisfasse à ses attentes, nous avons élaboré un cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable.
Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable
(Texte à l'écran: Auto-évaluation et examen par les pairs, liste de vérification et production d'un rapport ou d'un tableau de bord)
(Diagramme circulaire sur l'éthique de l'apprentissage automatique responsable. Dans la direction d'une aiguille d'une montre, débutant dans la haute gauche, est intituler: Respect des personnes; Application rigoureuse; Méthodes éprouvées; Respect des données)
Il s'agit d'une représentation visuelle du cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable à Statistique Canada. Le cadre s'articule autour de quatre thèmes: le respect des personnes, le respect des données, l'application rigoureuse et les méthodes éprouvées. Chaque thème a plusieurs attributs. Les attributs associés aux thèmes du respect des personnes sont la valeur pour les Canadiens, la prévention des préjudices, l'équité et la responsabilité. Les attributs associés au thème du respect des données sont la vie privée, la sécurité et la confidentialité. Les attributs associés au thème de l'application rigoureuse sont la transparence et la reproductibilité du processus et des résultats. Les attributs associés aux thèmes des méthodes éprouvées sont des données d'apprentissage de qualité, des inférences valides, une modélisation rigoureuse et l'explicabilité.
Comment mettre en place des processus d'apprentissage automatique responsables
(Texte à l'écran: Un aperçu fiable des processus d'apprentissage automatique responsables)
Passons les thèmes en revue l'un après l'autre. Un processus d'apprentissage automatique assure le respect des personnes en veillant à ce qu'il n'y ait pas de préjugés ou de discrimination dans les données d'apprentissage. Tout le monde est traité de manière équitable. Un processus d'apprentissage automatique qui garantit le respect des personnes est un processus qui protège la vie privée des personnes et des entreprises, assure la sécurité des données à toutes les étapes du traitement et protège les renseignements confidentiels pour éviter leur divulgation. Un processus d'apprentissage automatique bien appliqué est un processus qui garantit la transparence et la reproductibilité du processus et des résultats. Un processus d'apprentissage automatisé qui comprend des méthodes solides est un processus dont les méthodes sont conformes aux directives de qualité qui utilisent des mesures appropriées pour mesurer l'exactitude et le rendement.
Comment utiliser les processus d'apprentissage automatique de façon responsable
Il ne suffit pas de mettre en place des processus d'apprentissage automatique responsable. Il faut aussi les utiliser de manière responsable. Cela signifie qu'il faut faire le suivi de la mesure de rendement dans le temps. Les données traitées par l'algorithmique peuvent évoluer, il est donc important de surveiller son rendement et de réajuster l'algorithmique au besoin. Il devrait y avoir une surveillance humaine et une responsabilité à toutes les étapes. Les gens sont en fin de compte responsables de toutes les prévisions et décisions qui sont les résultats d'un algorithme d'apprentissage automatique pour toutes les systèmes qui utilisent des processus d'apprentissage automatique et surtout pour ceux qui soutiennent directement ou prennent des décisions administratives. Il est essentiel de mettre en œuvre et appliquer des protocoles sur leur utilisation pour les processus d'apprentissage automatique au sein du gouvernement du Canada, cela signifie qu'il faut s'assurer que la conformité avec la directive sur la prise de décision automatique du Secrétariat du Conseil du Trésor.
Principaux points à retenir
Dans cette vidéo, vous avez appris que la science des données à l'intersection de l'expertise dans la matière de la programmation informatique, des mathématiques et des statistiques. L'apprentissage automatique est un sous ensemble de l'intelligence artificielle qui vise à apprendre aux ordinateurs comment apprendre sans avoir besoin d'être programmé pour des tâches particulières. L'apprentissage supervisé et l'apprentissage non supervisé sont deux types d'apprentissage automatique utilisés pour prédire un résultat. Nous avons également présenté un cadre pour la construction et l'utilisation responsable des algorithmes d'apprentissage automatique.
Formation complémentaire
Si vous souhaitez en savoir plus sur l'utilisation de l'intelligence artificielle et l'apprentissage automatique au sein du gouvernement du Canada, entrez "directives sur la prise de décision automatisée du Secrétariat du Conseil du Trésor" dans le champ de recherche de votre navigateur préféré.
(Le mot-symbole « Canada » s'affiche.)