L'importance des données désagrégées : introduction (partie 1)

Numéro de catalogue : 892000062024001

Date de diffusion : le 16 juillet 2024

Cette courte vidéo explique comment il est efficace d'utiliser des données désagrégées pour tous les ordres de gouvernement et toutes les organisations au service des collectivités pour prendre des décisions de politique publique fondées sur les données probantes. En utilisant des données désagrégées, les décideurs sont en mesure de concevoir des politiques plus appropriées et plus efficaces qui répondent aux besoins de chaque Canadien diversifié et unique.

Étape du parcours des données
Fondation
Compétence des données
  • Création et utilisation de métadonnées
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
03:38
Coût
Gratuit

Voir la vidéo

L'importance des données désagrégées : Introduction (partie 1) - Transcription

(Le symbole de Statistique Canada et le mot-symbole du Canada est présent avec le titre suivant : « L'importance des données désagrégées : Introduction (partie 1) ».)

(Texte à l'écran : Voici Samir.)

Samir est urbaniste. Il contribue à améliorer les transports publics dans la municipalité en pleine croissance de Greendale. Un jour, il reçoit un rapport sur son bureau : « 80 % des habitants de la ville sont satisfaits du système de transport public actuel. » C'est formidable, n'est-ce pas?

(Texte à l'écran : Carte de Greendale. La carte est divisée en trois catégories : Nord, Centre et Sud. Une quatrième catégorie intitulé « personnes âgées » est dispersée sur l'ensemble de la carte.)

Qu'adviendrait-il si Samir était en mesure d'exploiter des ressources qui lui permettraient d'analyser le rapport plus en profondeur? Puisque Samir possède des connaissances et qu'il sait comment accéder aux données utilisées pour rédiger le rapport, il est en mesure de décomposer (ou de désagréger) les données d'une manière plus approfondie. Il découvre ce qui suit :

  • Seulement 60 % des résidents du secteur du nord de la ville sont satisfaits et se plaignent souvent de l'irrégularité des services d'autobus.
  • Dans le secteur du centre, où habitent de nombreux employés de bureau, on observe une sursaturation d'autobus pendant les heures creuses, mais une pénurie d'autobus pendant les heures de pointe.
  • Le secteur du sud, plus récent et doté d'infrastructures récentes, bénéficie d'un taux de satisfaction de 95 %.
  • Les personnes âgées, qui représentent un pourcentage non négligeable de la population de la ville, affichent un taux de satisfaction de 50 % seulement. Elles signalent le manque d'options accessibles pour les personnes ayant des problèmes de mobilité.

(Un graphique à barres titré comme suit : « Satisfaction de la population de Greendale à l'égard du système de transport public actuel ». L'axe vertical représente le pourcentage de satisfaction et l'axe horizontal a quatre catégories intitulées : « Population du secteur du nord » à 60 % de satisfaction, « Population du secteur du centre » à 70 % de satisfaction, « Population du secteur du sud » à 95 % de satisfaction et « personnes âgées » à 50 % de satisfaction.)

Si Samir s'appuie uniquement sur les données initiales de satisfaction (soit de 80 %), il pourrait conclure que le système de transport public ne nécessite que des modifications mineures. Cela signifie qu'il contribuerait à l'insatisfaction d'une population mal desservie, sans parler du gaspillage des ressources, par exemple avoir trop d'autobus pendant les heures creuses.

Par contre, en ventilant (ou en désagrégeant) les données de satisfaction par zone géographique et par groupe d'âge, il est en mesure de faire ce qui suit :

  • Réévaluer et augmenter la fréquence des trajets d'autobus dans le secteur nord.
  • Modifier les horaires d'autobus dans le secteur central pour qu'ils cadrent mieux avec les heures de pointe des bureaux.
  • Créer un nouveau programme visant à améliorer l'accessibilité pour les personnes âgées.

Il est important que Samir sache où et comment accéder à des données désagrégées pour comprendre les divers besoins des différentes collectivités et régions. Cela lui permet de prendre des décisions qui veillent à ce que chaque résident reçoive la qualité de service qu'il mérite.

(Texte à l'écran apparait un après l'autre : « Genre », « Âge », « Identité ethnoculturelle », « Identité autochtone », « Géographie », « Et bien d'autres... ».)

De même, il peut être très efficace pour tous les ordres de gouvernement et toutes les organisations au service des collectivités d'utiliser des données désagrégées pour prendre des décisions de politique publique fondées sur les données probantes. En utilisant des données désagrégées, les décideurs sont en mesure de concevoir des politiques plus appropriées et plus efficaces qui répondent aux besoins de chaque Canadien différent et unique. Dans la mesure du possible, les données doivent être ventilées en fonction du sexe, de l'âge, de l'identité ethnoculturelle, de l'identité autochtone, des différentes zones géographiques Et de tout autre facteur d'identité pertinent pour la collectivité. Puis elles sont présentées de manière distincte pour chaque sous-groupe précis.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : explorer les mesures de la tendance centrale

Numéro de catalogue : 892000062020002

Date de diffusion : le 3 mai 2021 Mise à jour : le 25 november 2021

Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
  • Raconter une histoire
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
11:34
Coût
Gratuit

Voir la vidéo

Statistique 101 : explorer les mesures de la tendance centrale - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Statistique 101 : explorer les mesures de la tendance centrale")

Statistique 101: Explorer les mesures de la tendance centrale

Comment décrire les données en quelques termes simples? L'emplacement du centre, ou du point d'équilibre, et l'étalement des données constituent deux caractéristiques très importantes d'un ensemble de données. Essayez de concevoir la chose de la manière suivante: si vous tenez les données entre vos mains, seraient-elles fortement concentrées dans un même endroit, comme une balle de golf, ou plutôt dispersées comme de la barbe à papa? Ce que l'on appelle la dispersion correspond à la taille de la région couverte par les données ou, si vous préférez, la variabilité ou l'étalement des données. La tendance centrale se situe là où se trouve le centre des données. Dans cette vidéo, nous allons explorer le concept de tendance centrale. Pour en savoir plus sur la dispersion, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

Objectifs d'apprentissage

À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode. Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Texte à l'écran: Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, soit d'abord la collecte, l'exploration, l'épuration, la description et la compréhension des données, puis leur analyse, afin de pouvoir ultimement communiquer aux autres ce que révèlent ces données.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec une attention sur l'Étape 2 - Explorer, nettoyer et décrire.)

L'examen des mesures de la tendance centrale correspond à l'étape d'exploration, d'épuration et de description des données.

Mesures de la tendance centrale

(Graphique démontrant une distribution biaisée à droite où le mode est situé au sommet. À gauche du sommet se trouve la médiane et la moyenne, respectivement.)

La première chose à faire est de se demander ce que signifie exactement l'expression "tendance centrale". Les mesures de la tendance centrale décrivent la valeur la plus représentative des données sous la forme d'un seul nombre. C'est ce qu'on appelle aussi le point d'équilibre d'un ensemble de données qu'on représente habituellement comme étant la moyenne, la médiane ou le mode. Voyons un peu comment, ces trois mesures sont calculées.

La moyenne

La moyenne correspond à la moyenne arithmétique de toutes les valeurs d'une variable qui sont présents dans un ensemble de données. On la calcule en faisant la somme de toutes les valeurs, puis en divisant cette somme par le nombre de valeurs.

Calcul de la moyenne

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 3, 4, 8, 5, 7, 3.)

Utilisons à titre d'exemple cet ensemble de données. Pour calculer la moyenne, nous faisons d'abord la somme de toutes les valeurs. Nous divisons ensuite cette somme par le nombre de valeurs de l'ensemble. Dans cet exemple, l'ensemble de données contient 6 valeurs. La somme de ces 6 valeurs est égale à 30. Pour calculer la moyenne, nous divisons cette somme par le nombre de valeurs dans l'ensemble de données, soit 30 divisé par 6. La moyenne est donc égale à 5.

Il faut souligner que la présence de valeur aberrantes, c'est à dire des valeurs extrêmement élevées ou extrêmement faibles comparativement aux autres valeurs, peut influer sur la moyenne. En effet, une valeur extrêmement élevée, si elle est présentée dans les données, peut faire augmenter la moyenne au point où celle-ci n'est plus représentative des données prises dans l'ensemble. Vous pouvez voir que la dernière valeur sous cette diapositive est 33, comparativement à 3 à la diapositive précédente. Cette valeur différente peut être exacte, mais elle peut aussi être erronée. Nous ne pouvons pas le savoir. Quoi qu'il en soit, il convient de noter l'effet de cette valeur aberrante sur la moyenne: la somme des 6 valeurs est maintenant égale à 60, et la valeur correspondant à la moyenne double, passant de 5 à 10. Il est donc important de vérifier s'il y a des valeurs aberrantes avant de décider d'utiliser la moyenne pour mesurer la tendance centrale.

La médiane

La médiane est une autre mesure de la tendance centrale. Il s'agit de la valeur centrale lorsque toutes les valeurs sont ordonnées de la plus basse à la plus haute.

Calcul de la médiane: pour un nombre impair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33.)

Il est très simple de calculer la médiane lorsque l'ensemble de données contient un nombre impair de valeurs. Nous ordonnons d'abord les valeurs de la plus basse à la plus élevée. Nous comptons ensuite les valeurs, et nous trouvons celles qui se situent au milieu, de sorte que la moitié des valeurs sont plus élevées et l'autre moitié, moins élevées. Cette valeur se situant au milieu est la médiane. Dans cet exemple, la médiane est 9.

Calcul de la médiane: pour un nombre pair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33, 35.)

Examinons maintenant un ensemble de données qui contient un nombre pair de valeurs. Nous plaçons les valeurs en ordre ascendant, nous comptons le nombre de valeurs et repérons les deux valeurs qui se situent au milieu, de sorte qu'il y ait un nombre égal de valeurs plus élevées et de valeurs plus basses. Nous additionnons ensuite ces deux valeurs, puis nous les divisons par deux. Dans cet exemple, la médiane est encore une fois 9.

Valeurs extrêmes et médiane

(Deux séries de nombres qui composeront l'ensemble de données pour lequel les nombres pour l'ensemble de données a sont 5, 6, 6, 7, 8, 9, 9, 12, 15, 21, 28, 33 et les nombres pour l'ensemble de données b sont 5, 6, 6, 7, 8, 9, 9, 9, 12, 15, 21, 21, 28, 28, 333.)

Outre les méthodes servant à les calculer et à les établir, l'une des principales différences entre la moyenne et la médiane tient à l'effet des valeurs extrêmes. Contrairement à ce qui est le cas pour la moyenne, les valeurs extrêmes n'ont pas la même incidence sur la médiane. Prenons l'ensemble de données A et B, qui sont identiques à l'exception de la valeur la plus élevée, qui passe de 33 dans le premier ensemble de données à 333 dans le second. On constate que, même si seul l'ensemble de données B contient une valeur aberrante, la médiane demeure égale à 9 dans les deux ensembles de données. Même si l'ensemble des données B contenait une ou deux variables aberrantes supplémentaires, la médiane demeurerait 9, parce qu'il s'agit de la valeur milieu dans l'ensemble de données.

Le mode

La troisième mesure de la tendance centrale dont nous allons parler aujourd'hui est le mode. Le mode est la valeur observée le plus souvent dans un ensemble de données. Autrement dit, il s'agit du point des données le plus fréquent dans un ensemble de données. Le mode est la mesure la plus simple à déterminer. La présence de valeurs extrêmes n'a aucune incidence sur lui, car elle ne modifie pas la ou les valeurs les plus fréquemment observées.

Calcul du mode

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 6, 3, 9, 6, 6, 5, 9, 3.)

Pour trouver le mode, comptez le nombre de fois où chaque valeur apparaît. La valeur observée le plus souvent est le mode. Il convient de noter deux choses intéressantes au sujet de cette mesure de la tendance centrale: A) étant donné que le mode correspond à la valeur observée le plus souvent dans un ensemble de données, si toutes les valeurs ont le même nombre d'occurrences, il n'y a pas de mode. B) Si le plus grand nombre d'occurrences est le même pour plus d'une valeur, il y a plus d'un mode. Dans un tel cas, le mode ne sera peut-être pas une mesure appropriée de la tendance centrale.

Question

C'est maintenant à vous de jouer. Examinez les chiffres suivants: 1, 1, 1, 1, 1, 4, 5. Prenez quelques instants pour déterminer la moyenne, la médiane et le mode pour cet ensemble de chiffres. Les réponses apparaîtront sur la diapositive suivante.

Réponse

Pour calculer la moyenne, nous additionnons d'abord les chiffres 1+1+1+1+1+4+5=14. Il y a 7 chiffres, donc la moyenne est égale à 14 divisé par 7, ce qui donne 2. La médiane est la valeur se situant au milieu de l'ensemble de données. Par chance, les chiffres sont déjà en ordre ascendant. Il y a un 1 au milieu avec trois 1 à gauche, et les chiffres 1, 4 et 5 à droite. La médiane est donc 1. Il y en a cinq 1 et seulement un 4 et un 5. Par conséquent, le mode est aussi 1. Un certain nombre de progiciels, dont Excel, ont des fonctions intégrées pour calculer la moyenne, la médiane et le mode. La médiane se situe souvent entre la moyenne et le mode, mais ce n'est pas toujours le cas, comme le montre cet exemple.

Conseils à retenir - Moyenne, médiane et mode

(Une note figurant au bas de la diapositive indique qu'il peut être utile d'examiner plus d'une mesure de tendance centrale.)

Ces conseils ont pour but de vous aider à déterminer quelle mesure de la tendance centrale utiliser dans différentes situations. D'abord, il faut savoir que lorsque les données ne sont pas numériques, par exemple, s'il s'agit de noms de villes, il n'est pas possible de calculer une moyenne ou une médiane, de sorte que le mode devient une mesure à envisager. Ensuite, si les données contiennent des valeurs extrêmes, la médiane sera plus représentative que la moyenne. Enfin, lorsqu'il y a plus d'un mode dans un ensemble de données, cela peut signifier que le mode n'est pas la meilleure mesure de la tendance centrale dans les circonstances.

Question

(Diagramme montrant une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Dans cet exercice de vérification de connaissances, nous allons mettre en application ce que nous avons appris jusqu'ici à propos des mesures de la tendance centrale. Dans le graphique de droite, les salaires des joueurs de hockey sont affichés sur l'axe horizontal et le nombre de joueurs, sur l'axe vertical. Dans cette distribution, à quelle mesure de la tendance centrale correspondent les lignes X, Y et Z?

Réponse

Avez-vous pu trouver la mesure correspondant à chaque ligne? X est le salaire gagné par le plus grand nombre de joueurs. Par conséquent, dans cette distribution, X est le mode. La courbe n'est pas symétrique. Elle présente ce qu'on appelle une distribution oblique à droite, ce qui veut dire qu'il y a un petit nombre de joueurs de hockey qui gagnent un salaire très élevé. Ces valeurs ont comme effet de hausser la moyenne, ce qui signifie que Z est la moyenne. Y correspond à peu près à une valeur centrale, la moitié des joueurs se situant au-dessus et l'autre moitié, en dessous. Y est donc la médiane.

Questions

(Le même diagramme est utilisé de nouveau. Il montre une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Nous allons maintenant prendre un exemple concret pour illustrer des circonstances où une personne pourrait décider d'utiliser une mesure de la tendance centrale particulière plutôt qu'une autre. Supposons que vous êtes le représentant des propriétaires de la Ligue nationale de hockey. Quelle mesure de la tendance centrale vous aiderait à faire valoir que les salaires des joueurs sont trop élevés? Si vous êtes plutôt le représentant du syndicat des joueurs, quelle mesure de la tendance centrale vous aiderait à démontrer que les salaires des joueurs ne sont pas trop élevés? Enfin, quelle mesure de la tendance centrale est susceptible de représenter le mieux les salaires des joueurs?

Réponses

Si vous êtes le représentant des propriétaires et que vous estimez que les salaires des joueurs sont trop élevés, vous utiliserez la moyenne, car c'est la valeur la plus élevée des trois, et vous espérez que personne ne soulignera le fait que la présence de valeurs extrêmes peut avoir une incidence sur la moyenne. Si vous représentez le syndicat des joueurs, vous opterez le mode qui est la valeur la plus faible. Vous pourriez soutenir que, de tous les salaires, c'est celui-là qui est gagné par le plus de joueurs. Cela dit, il serait faux de prétendre que cette valeur est représentative de l'ensemble des salaires des joueurs, parce que le mode n'est que la valeur la plus fréquente, alors que, au niveau de l'ensemble, de nombreux joueurs gagnent beaucoup plus que ce salaire. La médiane est la valeur qui représente le mieux les salaires des joueurs, parce que la moitié d'entre eux gagnent davantage, tandis que l'autre moitié d'entre eux gagnent moins.

Résumé des principaux points

En résumé, nous avons appris aujourd'hui que la tendance centrale est l'expression que nous utilisons lorsque nous faisons référence à une méthode donnée pour déterminer le centre, ou le point d'équilibre, d'un ensemble de données. Nous avons examiné trois façons différentes de calculer la tendance centrale. La moyenne est sans doute la plus connue. Nous avons toutefois appris que les valeurs extrêmes peuvent influer sur la moyenne. Nous avons également traité de la médiane, ou le point milieu, ce qui signifie que la moitié des valeurs se trouvent au-dessous de ce point milieu et l'autre moitié, au-dessus. Les valeurs extrêmes sont moins susceptibles d'avoir une incidence sur la médiane. La troisième mesure de la tendance centrale que nous avons abordé est le mode qui correspond à la valeur la plus fréquemment observée. Il est important de se rappeler qu'un ensemble de données peut n'avoir aucun mode, et qu'il peut aussi en avoir plus d'un.

Formation complémentaire

Pour en savoir plus sur l'étalement ou la dispersion des données, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : Explorer les mesures de la dispersion

Numéro de catalogue : 892000062020003

Date de diffusion : le 3 mai 2021 Mise à jour : le 7 février 2023

Comment décrire les données en quelques termes simples? Deux caractéristiques très importantes d'un ensemble de données sont l'emplacement du centre, ou du point d'équilibre, et la taille de l'étendue.

Bref, si nous tenions les données entre nos mains, seraient-elles concentrées en un seul endroit, comme une balle de golf, ou dispersées un peu partout, comme de la barbe à papa? On appelle le point d'équilibre des données la « tendance centrale ». Mais la taille de la région couverte par les données et son étendue s'appellent la « dispersion ». Dans cette vidéo, nous découvrirons le concept de dispersion. Toutefois, comme condition préalable à cette vidéo, nous vous recommandons fortement de regarder d'abord notre vidéo intitulée « Explorer les mesures de la tendance centrale », car certains des concepts qui y sont présentés, dont la moyenne, seront abordés aujourd'hui.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
Statistique 101 : explorer les mesures de la tendance centrale
Durée
16:06
Coût
Gratuit

Voir la vidéo

Statistique 101 : Explorer les mesures de la dispersion - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Exploration des mesures de dispersion ».)

Statistique 101 : Exploration des mesures de dispersion

Comment décrire les données en quelques termes simples? Deux caractéristiques très importantes d’un ensemble de données sont l’emplacement du centre, ou du point d’équilibre, et la taille de l’étendue.

Bref, si nous tenions les données entre nos mains, seraient-elles concentrées en un seul endroit, comme une balle de golf, ou dispersées un peu partout, comme de la barbe à papa? On appelle le point d’équilibre des données la « tendance centrale ». Mais la taille de la région couverte par les données et son étendue s’appellent la « dispersion ». Dans cette vidéo, nous découvrirons le concept de dispersion. Toutefois, comme condition préalable à cette vidéo, nous vous recommandons fortement de regarder d’abord notre vidéo intitulée « Explorer les mesures de la tendance centrale », car certains des concepts qui y sont présentés, dont la moyenne, seront abordés aujourd’hui.

Objectifs d'apprentissage

À la fin de cette vidéo, vous devriez avoir une compréhension de base des mesures de dispersion comme l’étendue, l’intervalle interquartile et l’écart-type.

Elle s’adresse à ceux et celles qui cherchent à acquérir une compréhension de base du concept de la dispersion, aussi appelé variabilité, de sa signification et de certains concepts connexes utilisés pour l’analyse des données. 

Mesures de dispersion

En statistique, la dispersion décrit l’étalement des valeurs d’une distribution. En d’autres mots, à quel point sont-elles étalées ou comprimées.

Imaginez que vous attendez un colis par la poste. Habituellement, le courrier arrive à n’importe quel moment entre 8 h et 16 h, ce qui signifie que si vous voulez être là quand il arrive, vous pouvez passer toute la journée à attendre à la maison. Toutefois, si vous savez que le courrier arrive habituellement entre 8 h et 10 h, vous avez une meilleure idée du moment de la livraison. Les mesures de dispersion donnent également une indication de la précision avec laquelle les mesures de la tendance centrale, comme la moyenne, décrivent l’étalement des valeurs dans l’ensemble de données. C’est utile lorsqu’on utilise des données-échantillons pour tirer des conclusions sur les comportements ou les caractéristiques de l’ensemble de la population.

Les mesures de dispersion sont également importantes, car elles nous aident à prendre des décisions éclairées sur la façon d’analyser les données et indiquent leur degré d’incertitude.

Étapes du cheminement des données

(Texte à l’écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver et recueillir ; Étape 2 - explorer, nettoyer et décrire ; Étape 3 – analyser et modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l’histoire qu’elles racontent, en passant par le nettoyage, l’exploration, la description, la compréhension et l’analyse des données.

Étape 2 : Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec l'Étape 2 - Explorer, nettoyer et décrire, mise en évidence.)

L’exploration des mesures de dispersion fait partie de l’étape d’explorer, nettoyer et décrire le cheminement des données.

De quoi à l'air l'étalement des données?

(Graphique représentant le nombre de livraisons de pizza en fonction des délais de livraison sous une forme de cloche nommée « une distribution normale ».)

Avant de commencer, jetons un coup d’œil à certaines façons courantes dont les données sont étalées ou regroupées. La distribution des données est souvent représentée à l’aide de diagrammes de dispersion ou d’histogrammes. Leur forme montre l’étalement des valeurs de l’ensemble de données. Les données peuvent être représentées graphiquement en forme de cloche symétrique, comme on peut le voir ici dans le diagramme de temps de livraisons de pizza, où la plupart des valeurs sont regroupées au milieu, entre 20 et 40 minutes, tandis que certaines livraisons prennent moins de temps (p. ex. 15 minutes) et d’autres en prennent plus (p. ex. 40 minutes). C’est ce qu’on appelle une distribution normale, et on en parlera davantage plus tard.

(2 graphiques distincts à gauche et à droite représentant une distribution normale qui est biaisée positivement et négativement, respectivement.)

Si l’ensemble de données n’est pas symétrique, mais comporte plutôt plus de valeurs situées à gauche ou à droite du diagramme, la forme de la cloche devient asymétrique, créant une queue plus longue d’un côté ou de l’autre.  Un ensemble de données est considéré comme asymétrique dans la direction de la queue la plus longue. Lorsque les données sont positivement asymétriques, il y a beaucoup de valeurs situées du côté gauche ou « inférieur » du diagramme, créant une queue qui s’étire vers la droite. Lorsque les données sont négativement asymétriques, nous voyons un plus grand nombre de valeurs situées à l’extrémité supérieure du diagramme, et la queue s’étire vers la gauche ou la partie inférieure du diagramme.

Mesures de dispersion

(Organigramme présentant les trois mesures communes de dispersion : Étendue, Intervalle interquartile et écart-type.)

Revenons maintenant à nos mesures de dispersion… Pour déterminer la dispersion, trois mesures couramment utilisées sont l’étendue, l’intervalle interquartile et l’écart-type. Les diapositives suivantes examinent chacune d’elles individuellement.

Étendue

L’étendue, c’est la différence entre la plus grande valeur et la plus petite valeur dans un ensemble de données. Elle fournit une mesure rapide et simple de l’étalement de ces valeurs. Il est préférable de l’utiliser avec des données qui n’ont pas de valeurs extrêmes. Comme notre livraison de colis. Si nous savons que le colis sera livré entre 10 h et midi, nous pouvons en toute confiance planifier d’autres activités pour la journée. Ce genre d’information est très utile. Cependant, si on nous dit que le colis arrivera entre 8 h et 20 h, eh bien, cette information est-elle réellement utile? Seriez-vous sûr de pouvoir faire une course rapide durant la journée sans manquer votre livraison? Probablement pas.

Sachant que l'étendue est la différence entre la valeur la plus grande et la plus petite, nous allons l'exprimer sous forme d'équations. L'étendue est simplement la plus grande valeur moins la plus petite. Dans cet exemple, la plus petite valeur est 1 et la plus grande est 7 ainsi l'étendue est 7 moins 1, c'est-à-dire 6. Ici, l'étendue est une mesure appropriée, car les points de données sont rapprochés les uns des autres.

Exemple

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 80 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Prenons un exemple. Ici, nous avons les notes d’examen d’un groupe de 12 étudiants. La note la plus élevée est de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la plus faible, qui est de 80 %. L’étendue est donc de 15 %, ce qui est assez petit. L’un des avantages d’utiliser l’étendue comme mesure de la dispersion, c’est qu’elle est facile à calculer.

Exemple (suite)

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiant | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Maintenant, prenons un exemple semblable, mais avec une grande différence. Ici, nous avons des notes d’examen du même groupe de 12 étudiants. La note la plus élevée est encore une fois de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la moins élevée, qui est de 10 %. On obtient ainsi une étendue de 85 %. Il s’agit d’un étalement très vaste. Après un examen plus poussé, on constate qu’un étudiant, Jean, a obtenu un piètre résultat à l’examen, alors que tous les autres ont très bien réussi. Cela fait de la note de Jean une valeur aberrante, car 11 élèves sur 12 ont obtenu une note entre 85 % et 95 %. Sa note à elle seule est la cause principale de ce grand étalement. Et comme l’étendue est une comparaison de la valeur la plus faible par rapport à la valeur la plus élevée, on voit ici comment il peut être une mesure trompeuse de la dispersion lorsque les données comportent des valeurs aberrantes.

Intervalle interquartile

L’intervalle interquartile est semblable à l’étendue. Il s’agit également de la distance entre la valeur la plus élevée et la valeur la plus faible, mais seulement sur le 50 % central de la distribution globale. Il est donc un peu plus stable que l’étendue, car il ne tient pas compte des quartiles inférieur et supérieur des données, ce qui atténue l’incidence des valeurs aberrantes.

Bien que l’intervalle interquartile soit légèrement plus stable que l’étendue, il est important de savoir que lorsqu’on l’utilise comme mesure de la dispersion, on perd des détails sur ce qui se passe aux extrémités de la distribution.

Comment déterminer l'intervalle interquartile?

(Texte à l’écran : Ensemble de données = 3, 1, 8, 5, 3, 6, 4, 8, 6, 7)

Pour déterminer l’intervalle interquartile, il faut d’abord ordonner les données, de la valeur la plus faible à la valeur la plus grande. Après avoir dressé une liste en ordre croissant des dix chiffres qui composent l’ensemble de données sur cette diapositive, et en utilisant les connaissances que vous avez acquises dans la vidéo sur les mesures de la tendance centrale, vous trouveriez la médiane de l’ensemble de données complet, soit la valeur de l’élément central quand les données sont ordonnées de la plus basse à la plus haute. Dans ce cas-ci, comme il y a un nombre pair d’observations, on additionne les deux chiffres centraux et on les divise par deux, ce qui donne 5,5. En calculant la médiane, on peut diviser les données en deux moitiés, ce qui nous permet de passer à l’étape suivante…

Ensuite, on calcule de nouveau la médiane, mais cette fois-ci pour les moitiés supérieure et inférieure des données, ce qui donnerait trois pour la moitié inférieure et sept pour la moitié supérieure. Ensuite, on soustrait la médiane inférieure de la médiane supérieure. L’intervalle interquartile, c’est la différence entre ces deux chiffres, qui dans ce cas équivaut à quatre. Il est important de noter que cette méthode fonctionne bien pour des listes de valeurs simples et courtes. Mais pour les ensembles de données complexes, on peut facilement obtenir les Q1 et Q3 à l’aide de logiciels comme Excel.

Vérification des connaissances

(Tableau présentant le temps qu'il faut pour livrer la pizza pour chaque ménage. Les colonnes, de gauche à droite, s'intitulent : Ménage | Temps de livraison de la pizza en minutes. La première ligne à la dernière ligne contient ce qui suit : 1 | 15 ; 2 | 20 ; 3 | 25 ; 4 | 30 ; 5 | 30 ; 6 | 35 ; 7 | 35 ; 8 | 40 ; 9 | 45 ; 10 | 50.)

À vous maintenant. Disons que vous avez commandé une pizza et qu’on vous dit qu’il faudra environ 30 minutes pour la livraison. Disons maintenant que neuf autres ménages ont fait de même. Dans ce cas-ci, qu’entend-on par « environ 30 minutes »? Nous avons ici un tableau qui montre exactement combien de temps chacun des dix ménages a dû attendre pour recevoir sa pizza. Pour mettre vos connaissances à l’épreuve jusqu’à maintenant, mettez la vidéo sur pause et essayez de calculer l’étendue de temps de livraison, en minutes, à laquelle chaque ménage devrait s’attendre. Calculez ensuite l’intervalle interquartile. Mettez la vidéo en pause maintenant et relancez-la une fois que vous êtes prêt à vérifier vos réponses. Avez-vous obtenu 35 pour l’étendue et 15 pour l’intervalle interquartile? Si oui, bravo! Nous pouvons maintenant passer à notre prochaine mesure de la dispersion : l’écart-type.

Écart-type

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 25 % ; 3 | Thomas | 55 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Jusqu’à présent, cette vidéo a expliqué comment l’étendue et l’intervalle interquartile peuvent nous donner une bonne idée de la valeur médiane ou moyenne d’un ensemble de données. Mais ils ne nous disent pas à quel point le reste des valeurs de l’ensemble de données sont proches de cette médiane. Or, il peut s’agir d’information très importante. Par exemple, revenons à notre classe d’étudiants. Lorsque l’enseignante additionne la note de tout le monde, elle obtient un total de 907. Et lorsqu’elle divise ce nombre par le nombre de notes, soit 12, elle obtient une note moyenne de 76 %. 76 % pourrait être une bonne note, mais est-ce que tout le monde performe à ce niveau? Dans une classe de 12, il n’est pas difficile de constater que certains éprouvent des difficultés. Mais qu’en est-il d’une classe de 200?

(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé, respectivement.)

L’écart-type nous indique la dispersion d’un groupe de valeurs par rapport à la moyenne. Il peut être calculé rapidement et facilement à l’aide de logiciels comme Microsoft Excel, et il est considéré comme la plus solide des trois mesures de dispersion. C’est donc la mesure la plus souvent utilisée dans les analyses statistiques. Un petit écart-type signifie que la plupart des nombres sont proches de la moyenne. Ainsi, lorsqu’une enseignante doit déterminer le rendement de chacun de ses étudiants, un petit écart-type lui indiquerait que la majorité affiche un rendement semblable. Un grand écart-type lui dirait que tout le monde n’a pas le même rendement. Ainsi, si la moyenne de la classe était élevée, un écart-type élevé signifierait que certains étudiants éprouvent encore des difficultés.

(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé avec leurs moyens restant au centre de la distribution, respectivement.)

Mais dans les situations où l’on se contente d’observer et d’enregistrer des données, un écart-type élevé n’est pas nécessairement une mauvaise chose ; il reflète simplement une grande variabilité dans le groupe à l’étude. Par exemple, si on examine tous les salaires au sein d’une grande entreprise, des stagiaires au chef de la direction, l’écart-type peut être très élevé. Par contre, si on réduit le groupe en se concentrant uniquement sur les stagiaires, l’écart-type est plus petit, car les personnes de ce groupe ont des salaires semblables. Le deuxième ensemble de données n’est pas meilleur, il a tout simplement moins de variabilité.

Écart-type et distribution normale

La distribution normale est un exemple de distribution qui pourrait vous aider à mieux comprendre le concept d’écart-type. Dans le contexte des données, une distribution est un modèle mathématique qui reproduit la façon dont les points de données sont distribués ou dispersés. On visualise souvent la distribution normale comme une courbe en forme de sommet ou de cloche. Elle représente la présence de quelques points de données petits et volumineux respectivement sur les côtés gauche et droit de la courbe, alors que la plupart des points de données se trouvent quelque part au centre, où se trouve le sommet. Dans la distribution normale, les points de données dessinent une forme symétrique qui ressemble à la courbe qu’on voit sur cette diapositive, que l’on appelle une courbe en cloche.

Distribution normale

La distribution normale est symétrique, ce qui fait que la moyenne, la médiane et le mode sont les mêmes. Ceux-ci sont représentés par la ligne le long du centre de la courbe en cloche.

(Graphique représentant une distribution normale avec la moyenne, la médiane et le mode au sommet de la distribution.)

Pour la distribution normale standard, la méthode de mesure de la dispersion que nous appelons l’écart-type, ou « ET » sur cette diapositive, a des propriétés très intéressantes. Elle nous indique où nous pouvons nous attendre à trouver les points de données dans la distribution. La théorie de l’échantillonnage et la distribution normale nous indiquent qu’environ 68 % des valeurs de données dans l’ensemble de la population se situeront entre la moyenne plus ou moins 1 fois l’écart-type. De même, environ 95 % des valeurs de données correspondront à la moyenne plus ou moins 2 fois l’écart-type, et environ 99,7 % des valeurs de données correspondront à la moyenne plus ou moins 3 fois l’écart-type.

Résumé des principaux points

Les mesures de dispersion fournissent une indication quantitative de la mesure dans laquelle les valeurs de données sont dispersées ou regroupées.

Dans cette vidéo, nous avons examiné trois mesures courantes de la dispersion : l’étendue, l’intervalle interquartile et l’écart-type. Et nous avons appris que parfois, les données peuvent être dispersées en forme de cloche, la plupart des valeurs étant regroupées au milieu. C’est ce qu’on appelle souvent la distribution normale.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : proportions, ratios et taux

Numéro de catalogue : 892000062021003

Date de diffusion : le 3 mai 2021 Mise à jour : le 1re décembre 2021

Cette vidéo s'adresse aux personnes qui souhaitent acquérir une connaissance de base de trois types de mesures, soit les proportions, les ratios et les taux. Aucune connaissance préalable n'est requise. Bien que les proportions, les ratios et les taux soient semblables, ils ont chacun des propriétés différentes.

Dans cette vidéo, vous apprendrez les différences entre ces trois mesures. De plus, quand vous aurez terminé, vous serez en mesure de répondre aux questions suivantes : Comment chaque type de mesure est-elle calculée et quand est-il préférable d'en utiliser une plutôt que l'autre?

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
13:21
Coût
Gratuit

Voir la vidéo

Statistique 101 : proportions, ratios et taux - Transcription

Statistique 101 : proportions, ratios et taux - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Statistique 101 Proportions, ratios et taux")

Statistique 101: Proportions, ratios et taux

Souvent, la façon la plus facile d'exprimer ce que nous disent les données est simplement de comparer un chiffre avec un autre. Lorsqu'on nous dit "75% des personnes pensent ceci" ou "deux tiers des entreprises font cela", ce qu'on nous présente, ce sont les résultats de l'analyse d'un ensemble particulier de données, et trois mesures utiles pour effectuer les analyses sont les proportions, les ratios et les taux. Toutes ces mesures sont faciles à calculer, à utiliser et à comprendre. Dans cette vidéo, nous expliquons les concepts des proportions, des ratios et des taux, ainsi que leurs différences.

Objectifs d'apprentissage

Cette vidéo s'adresse aux personnes qui souhaitent acquérir une connaissance de base de trois types de mesures, soit les proportions, les ratios et les taux. Aucune connaissance préalable n'est requise. Bien que les proportions, les ratios et les taux soient semblables, ils ont chacun des propriétés différentes. Dans cette vidéo, vous apprendrez les différences entre ces trois mesures. De plus, quand vous aurez terminé, vous serez en mesure de répondre aux questions suivantes: comment chaque type de mesure est-elle calculé et et quand est-il préférable d'en utiliser une plutôt que l'autre?

Étapes du cheminement des données

(Texte à l'écran: Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte à la diffusion, en passant par le nettoyage, l'exploration et l'analyse.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec une attention sur l'Étape 2 - Explorer, nettoyer et décrire.)

Dans le cheminement des données, les proportions, les ratios et les taux font partie de l'étape de l'exploration, du nettoyage et de la description. Ils sont aussi utilisés pour l'analyse et la modélisation.

Qu'est-ce qu'une proportion?

Commençons par les proportions. Une proportion est une partie, une part ou un nombre qui est envisagé par rapport à tout. La plus petite valeur d'une proportion est 0, tandis que la plus grande valeur possible est 1. Une proportion peut être exprimée en pourcentage en multipliant sa valeur par 100. Les proportions sont utiles pour comparer un nombre avec un total. Par exemple, dans un auditoire de 50 personnes, 5 sont gauchères. Cela peut être exprimé en proportion en divisant 5 par 50 pour un résultat de 0,1 ou 10%, en multipliant 0,1 par 100.

Les proportions: un exemple

Imaginez que vous avez un jeu standard de 52 cartes à jouer. Le jeu contient 13 cartes de chaque couleur: carreaux, cœurs, trèfles et piques. Aux fins de cet exemple, nous supposerons qu'il n'y a pas de joker ou de cartes supplémentaire. Quelle est la proportion de carreaux dans un jeu? Pour calculer cette proportion, il faut d'abord compter le nombre de cartes de carreaux. Il y en a 13. Ensuite, nous divisons ce nombre par le nombre total de cartes dans le jeu, soit 52. Cela nous donne une proportion de 0,25. En pourcentage, cela donne 25%.

Qu'est-ce qu'un ratio?

Passons maintenant aux ratios. Un ratio, aussi appelé rapport, exprime les tailles relatives de deux valeurs. La différence entre une proportion et un ratio, c'est qu'avec les ratios, vous avez plus de liberté de comparaison. La notation est également différente. Bien que les ratios puissent être exprimés sous forme de nombres ou de pourcentages, ils sont le plus souvent exprimés avec deux-points. Le deux-points entre les chiffres 2 et 1, par exemple, devrait être interprété comme "un rapport de deux pour un". Cela signifie que la première valeur est deux fois plus grande que la seconde. En même temps, un ratio de 3 pour 2 signifie que pour 3 unités du premier élément, il y a deux unités du deuxième. Un bon exemple nous est donné lorsque nous faisons cuire du riz. Selon le type de riz, les instructions pourraient être "deux parties d'eau pour une partie de riz", ce qui signifie que peu importe si vous cuisinez du riz pour 2, 20 personnes ou le volume de riz dont vous disposez, le simple fait de connaître la ratio d'eau par rapport au riz, 2:1, vous permet de savoir qu'il faut deux fois plus d'eau pour la cuisson.

Une autre différence entre la proportion et le ratio, c'est qu'avec un ratio, vous pouvez choisir la quantité à utiliser comme référence. Au lieu de compter deux parties d'eau pour chaque partie de riz, vous pourriez décider d'exprimer ce ratio comme une partie de riz pour deux parties d'eau. Il est souvent plus facile d'exprimer la quantité la plus élevée par rapport à la plus petite, mais dans certains contextes, l'inverse peut être préférable. Enfin, le ratio est souvent exprimé de façon réduite. Un ratio de 4:2 est mieux compris s'il est exprimé sous la forme de 2:1.

Les ratios: un exemple

Revenons à notre exemple de cartes à jouer. Quel est le ratio entre les carreaux et les cœurs? Pour calculer ce ratio, nous devons d'abord compter le nombre de carreaux. D'après notre question précédente, nous savons qu'il y en a 13. Ensuite, comptons la deuxième partie de notre ratio, qui est le nombre de cœurs. Le nombre de cœurs est aussi de 13. Exprimé en ratio, nous avons 13 pour 13. Toutefois, ce ratio peut être réduit en divisant les deux côtés par le même nombre. Ici, les deux côtés peuvent être divisés par 13, ce qui nous donne un ratio de 1 pour 1. Cela veut dire que pour chaque carte de carreaux dans le jeu, il y a une carte de cœurs.

Vérification des connaissances

Voyons si vous savez calculer les proportions et les ratios. Premièrement, quelle proportion d'un jeu de cartes est composée de dames? Mettez la vidéo en pause ici et redémarrez-la lorsque vous pensez avoir la réponse.

4 cartes sur 52 sont des dames. La proportion des reines dans un jeu est d'environ 0,08 ou 8%.

Vérification des connaissances

Maintenant, quel est le ratio entre les figures et les cartes chiffrées dans un jeu? Mettez la vidéo en pause pour effectuer le calcul et redémarrez-la une fois que vous êtes prêt à avoir la réponse complète.

Il y a quatre couleurs (carreaux, piques, trèfles et cœurs). Dans chaque couleur, il y a trois différentes figures (valet, reine et roi) et dix cartes chiffrées. 4 fois 3 font 12, il y a donc 12 figures dans un jeu. 4 fois10 font 40, il y a donc 40 cartes chiffrées dans un jeu. Autrement dit, le ratio entre les figures et les cartes chiffrées est de 12:40, ou plus simplement, pour 3 figures, il y a 10 cartes chiffrées.

Qu'est-ce qu'un taux?

Passons maintenant aux taux. La façon la plus simple de définir un taux est de dire qu'il s'agit d'une quantité divisée par une autre quantité. Avec cette définition, les proportions et les ratios pourraient être considérés comme des taux. Quelle est donc la différence entre les taux et les deux autres mesures? Les proportions et les ratios sont le plus souvent utilisés pour comparer des quantités ayant la même unité de mesure. Dans l'exemple du jeu de cartes, les deux quantités qui sont comparées sont des chiffres représentant le nombre de cartes. Dans un taux, les deux quantités comparées ont souvent des unités de mesure différentes. Par exemple, la vitesse est un taux, c'est la distance parcourue en kilomètres divisée par le temps qu'il a fallu pour parcourir cette distance en heures. L'unité de mesure du taux est ici le kilomètre par heure (km/h).

Calcul des taux: taux de croissance

(Histogramme démontrant le montant du compte d'épargne ($) au 1er janvier 2018, 2019 et 2020. Respectivement, les montants sont de 800 $; 1 200 $ et 900 $)

Un type de taux particulièrement utile est le taux de croissance. Le taux de croissance compare la variation d'une mesure sur une période avec la valeur de la mesure au début de la période. Il est très utile d'évaluer les variations au fil du temps. Ce graphique représente le montant d'argent disponible dans un compte d'épargne au début des années 2018, 2019 et 2020. Supposons que vous vouliez évaluer la variation de votre compte d'épargne au cours de l'année 2018. Comment procéderiez-vous?

Pour calculer le taux de croissance du solde votre compte d'épargne, vous devez d'abord calculer la variation qui s'est produite au cours de l'année. Pour ce faire, vous prenez le montant économisé au début de 2019, qui était de 1200 $, et vous lui soustrayez le montant qui était dans le compte au début de 2018, soit 800 $. La différence est de 400 $. Ensuite, vous divisez cette différence par le montant du compte au début de 2018. Dans ce cas, cela signifie que vous divisez 400 par 800. Le résultat est 0,5. Ce taux de croissance peut alors être multiplié par 100 si vous voulez l'exprimer en pourcentage. Cela vous donne 50%. Cela signifie qu'en 2018, le montant de votre compte d'épargne a augmenté de moitié par rapport à ce qu'il était au début de l'année.

Vérification des connaissances

(Histogramme démontrant le montant du compte d'épargne ($) au 1er janvier 2018, 2019 et 2020. Respectivement, les montants sont de 800 $; 1 200 $ et 900 $)

À votre tour maintenant. Quel a été le taux de croissance du solde de votre compte d'épargne au cours de l'année 2019, c'est-à-dire du 1er janvier 2019 au 1er janvier 2020? Mettez la vidéo en pause et redémarrez-la une fois que vous êtes prêt à voir la réponse complète.

La réponse est -0,25 ou -25%, et voici pourquoi. Premièrement, nous avons pris le montant dans le compte au début de 2020, soit 900$, et nous avons soustrait le montant du début de 2019, soit 1200$. Cela nous a donné une valeur négative de -300$. Nous avons ensuite divisé cette différence par le montant au début de 2019, soit 1200$. Ce qui s'est traduit par un taux de croissance de -0,25 au -25%. Le taux de croissance négatif signifie que le montant dans le compte d'épargne a diminué en 2019. Un quart, ou 25%, de la valeur initiale a été perdu au cours de l'année.

Comparaison des proportions, ratios et taux

(Tableau contenant les définitions de chacune des 3 mesures. Les colonnes, de gauche à droite, sont intitulées comme suit : Mesure | Description | Conditions | Notations | Exemples dans les statistiques officielles. De la première à la dernière ligne : Proportion | Partie, part ou nombre pris en compte par rapport à toute une | 0, 1, ou n'importe quelle valeur entre 0 et 1 | Nombre ou pourcentage | Proportion de la population canadienne vivant en Colombie-Britannique; Ratio | La taille relative de deux valeurs | Nombres positifs (n'importe quelle valeur) | A:B (un rapport de A à B) ou un certain nombre | Ratio salarial entre les sexes; Taux | Une quantité divisée par une autre | Aucune (valeurs négatives sont autorisées) | Nombre ou pourcentage | Taux annuel de croissance démographique)

Examinons les trois mesures que nous avons vues. Une proportion est une partie, une part ou un nombre envisagé par rapport à un ensemble. Elle peut être égale à 0, à 1 ou à n'importe quelle valeur comprise entre les deux. On peut l'exprimer en nombre ou en pourcentage. Un exemple tiré des statistiques officielles serait la proportion de la population canadienne qui vit dans une province donnée. Un ratio représente la taille relative de deux valeurs. Il peut être utilisé pour comparer deux parties l'une par rapport à l'autre. Les rapports peuvent être constitués de n'importe quelle valeur positive et sont généralement exprimés sous forme de deux chiffres séparés par un deux-points ou par un seul chiffre. Un exemple tiré des statistiques officielles est le ratio des salaires entre les sexes, qui compare les gains selon le sexe. Enfin, un taux est une mesure plus générale dans laquelle une quantité divisée par une autre quantité, et où les deux quantités n'ont pas nécessairement besoin d'avoir les mêmes unités de mesure. Un taux peut prendre n'importe quelle valeur, y compris une valeur négative. Comme les proportions, il peut être exprimé sous forme de nombre ou de pourcentage. Un exemple bien connu est le taux annuel de croissance de la population.

Vérification des connaissances

(Tableau contenant les estimations de la population, le 1er juillet, des femmes et des hommes de la population canadienne entre 2018 et 2020 en des millions de personnes. Femmes : 18,7 (2018); 18.9 (2019); 19.1 (2020). Hommes : 18,4 (2018); 18.7 (2019); 18.9 (2020). Total : 37,1 (2018); 37.6 (2019); 38.0 (2020))

Dans les diapositives suivantes, nous verrons quelques exemples de proportions, de ratios et de taux provenant de données réelles. Le tableau 1 présente les estimations démographiques au milieu de l'année selon le sexe entre 2018 et 2020. Quelle proportion de la population canadienne était de sexe masculin en 2019? Pour trouver la réponse, vous devez diviser le nombre d'hommes 18,7 millions par la population totale 37,6 millions. Cela nous fournit notre réponse: la proportion d'hommes dans la population canadienne au milieu de 2019 était de 0,497. En multipliant par 100, on obtient la réponse en pourcentage: 49,7%.

Maintenant, essayez de calculer le ratio hommes-femmes dans la population canadienne en 2019. Mettez la vidéo en pause et essayez de calculer ce ratio. Si on regarde ce tableau, on peut dire que le ratio est de 18,7 millions d'hommes pour 18,9 millions de femmes. Cependant, cela semble confus. Il doit y avoir une meilleure façon de présenter ce renseignement! Essayons plutôt d'exprimer le ratio en nombres décimaux en divisant le nombre d'hommes par le nombre de femmes. Cela nous donne 0,99. Autrement dit, en juillet 2019, il y avait 0,99 homme pour chaque femme dans la population canadienne. Cela permet à votre auditoire de comprendre qu'il y a moins d'hommes que de femmes dans la population canadienne. De plus, étant donné que ce ratio est proche de 1, nous pouvons conclure que l'écart entre le nombre d'hommes et de femmes est faible.

Enfin, revenons au même tableau pour calculer le taux de croissance de la population canadienne entre 2018 et 2019. Premièrement, on calcule la différence de la population entre les deux années, puis on divise cette différence par la taille de la population de l'année précédente qui, dans ce cas, est 2018. On multiplie ensuite le résultat par 100 afin d'exprimer ce taux en pourcentage. Ici, le taux de croissance est de 1,3%. Comme le taux de croissance est positif, nous pouvons conclure que la population canadienne a augmenté de 2018 à 2019.

Le saviez-vous? Les taux peuvent être utilisés pour effectuer des prévisions!

Saviez-vous que les taux peuvent aussi servir à effectuer des prévisions? Dans le tableau 1 nous pouvons voir que la population canadienne était de 38 millions d'habitants en 2020. Mais si les données n'avaient pas encore été disponibles, comment aurions-nous pu prévoir ce chiffre à partir des estimations de la population de 2018 et de 2019? Une façon rapide et simple de le faire est de supposer que le taux de croissance entre 2019 et 2020 a été le même qu'entre 2018 et 2019. Ensuite, nous appliquons ce taux à la population de 2019 pour calculer la croissance et nous ajoutons la croissance à la population de 2019. Comme nous l'avons vu plus tôt, le taux de croissance entre 2018 et 2019 était de 1,3%. En multipliant ce taux par la population de 2019, soit 37,6 millions, nous obtenons 0,5 million. Cela représente la croissance prévue d'ici au milieu de 2020. Ensuite, en ajoutant ce chiffre à la population de 2019, soit 37,6 millions, nous obtenons 38,1 millions. Comment nous nous en sommes tirés? Le résultat, 38,1 millions, est légèrement supérieur à l'estimation réelle de 38 millions. Cela signifie que le taux de croissance réel entre 2019 et 2020 a finalement été inférieur à celui de l'année précédente. Mais notre prévision était très proche.

Principaux points à retenir

Récapitulons les principaux points que nous avons abordés dans cette vidéo. Les proportions, les ratios et les taux sont utiles pour comparer les chiffres et se ressemblent parfois beaucoup. Cependant, une porportion est une partie, une part ou un nombre considéré par rapport à tout, tandis qu'un ratio correspond à la taille relative de deux valeurs. Un taux est une quantité divisée par une autre quantité et les trois mesures ont des propriétés différentes. Il est également intéressant de noter que les taux comme les taux de croissance peuvent être utiles pour effectuer des prévisions.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : corrélation et causalité

Numéro de catalogue : 892000062021002

Date de diffusion : le 3 mai 2021 Mise à jour : le 1re décembre 2021

Avez-vous déjà remarqué que l'esprit humain aime vraiment créer des liens? À tel point en fait, que l'esprit va souvent créer des liens quand deux variables semblent être si étroitement associées qu'il peut sembler que l'une est dépendante de l'autre. Par exemple, le joueur de hockey des Sénateurs d'Ottawa Bruce Gardiner était tellement superstitieux qu'il était convaincu que la seule façon de se sortir d'une léthargie était de tremper son bâton de hockey dans les toilettes. Des superstitions comme celle-là sont un excellent exemple de la façon dont le cerveau aime percevoir des relations entre deux choses, même quand en réalité il n'existe aucune relation de ce genre. Dans cette vidéo, vous apprendrez comment prouver l'existence d'une relation, ou l'absence de relation, entre deux variables. Il s'agit d'une partie très importante de l'analyse des données.

À la fin de cette vidéo, vous aurez appris les réponses aux questions suivantes :

  • Qu'est-ce que la corrélation?
  • Comment pouvez-vous mesurer, quantifier ou interpréter la corrélation quand vous analysez vos données?
  • Qu'est-ce que la causalité?
  • Et enfin, quelles sont les différences entre les deux
Étape du parcours des données
Analyser, Modéliser
Compétence des données
  • Analyse des données
  • Interprétation des données
  • Prise de decision basée sur les données
  • Visualisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
21:16
Coût
Gratuit

Voir la vidéo

Statistique 101 : corrélation et causalité - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : "Statistique 101 Corrélation et causalité")

Statistique 101 : Corrélation et causalité

La présente vidéo s'adresse aux personnes qui souhaitent acquérir une compréhension de base de la corrélation et de la causalité. Comme préalable, avant de commencer cette vidéo, nous vous conseillons vivement d'avoir déjà regardé nos vidéos intitulées « Que sont les données » et « Types de données ».

Objectifs d'apprentissage

A la fin de cette vidéo, vous aurez appris les réponses aux questions suivantes Qu'est ce que la corrélation? Comment pouvez vous mesurer, quantifier ou interpréter la corrélation quand vous analysez vos données? Qu'est ce que la causalité? Et enfin, quelles sont les différences entre les deux?

Étapes du cheminement des données

(Text à l'écran : Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, receuillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l'histoire qu'elles racontent, en passant par le nettoyage, l'exploration, la description, la compréhension et l'analyse des données.

Étape 3 et 4: Analyser, modéliser et raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur l'Étape 3 - Analyser, modéliser et l'Étape 4 - Raconter l'histoire)

La corrélation et la causalité relève des deux dernières étapes du cheminement des données : Analyser et modéliser et raconter une histoire.

Liens et relations

(Image combinant un bâton de hockey et une toilette qui donne une coupe Stanley avec un point d'interrogation)

Avez vous déjà remarqué que l'esprit humain aime vraiment créer des liens? A tel point fait que l'esprit va souvent créer des liens quand deux variables semblent être si étroitement associé qu'il peut sembler que l'une est dépendant de l'autre. Par exemple, le joueur de hockey des Sénateurs d'Ottawa, Bruce Gardiner, était tellement superstitieux qu'il était convaincu que la seule façon de se sortir d'une léthargie était de tremper son bâton de hockey dans les toilettes. Des superstitions comme celle là sont un excellent exemple de la façon dont le cerveau aime percevoir des relations entre deux choses. Même cas en réalité, il n'existe aucune relation de ce genre. Dans cette vidéo, vous apprendrez comment prouver l'existence d'une relation ou l'absence de relation entre deux variables. Il s'agit d'une partie très importante de l'analyse des données.

Corrélation dans l'analyse des données

Dans le monde des données, la corrélation désigne l'existence d'une relation entre deux variables. La corrélation joue un rôle important dans l'analyse des données lorsqu'on étudie une relation potentielle entre deux variables. Il est important de se poser les questions suivantes. Existe t il une relation entre les deux variables? Dans l'affirmative, la relation est elle positive ou négative? Quelle est la force de cette relation? S'agit il d'une forte corrélation, d'une faible corrélation ou de quelque chose entre les deux? La corrélation peut exister entre toutes ces deux variables, mais en statistique, la corrélation ne peut être calculée que pour des variables numériques.

Qu'est-ce que la corrélation?

(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps)

Commençons par parler de la corrélation dans la vie quotidienne lorsque nous disons qu'il y a une corrélation entre deux ou plusieurs choses. Cela signifie qu'il y a une relation mutuelle entre elles. Cette relation peut être positive ou négative.

Dans une corrélation positive, les valeurs des deux éléments associés se déplacent dans la même direction. Prenez une bouilloire remplie d'eau, par exemple dans la bouilloire reste allumée. Plus la température de l'eau à l'intérieur de la bouilloire augmente.

Dans une corrélation négative, les valeurs se déplacent dans des directions opposées. En d'autres termes, à mesure que la variable augmente, l'autre diminue et vice versa.

Par exemple, imaginez que vous amener une tasse de thé fraîchement infusée à l'extérieur lors d'une journée d'hiver, plus vous passerez de temps à l'extérieur, plus votre thé refroidit. Dans ce cas, à mesure que la variable temporelle augmente, la température diminue.

Visualiser nos données

(Diagramme de dispersion visualisant les données de la diapositive précédente sur la température de l'eau dans une bouilloire au fil du temps)

L'utilisation d'un diagramme de dispersion est un moyen efficace de montrer la relation entre deux variables différentes.

Ici, nous avons utilisé Microsoft Excel pour tracer les sept points du tableau de la diapositive précédente. Vous pouvez faire de même dans de nombreux autres tableurs électroniques. Le nombre de secondes que l'eau passe dans la bouilloire est tracé le long de l'axe horizontal des X et la température de l'eau est tracée le long de l'axe vertical. Ici, nous pouvons clairement constater que à mesure que les valeurs X augmentent, les valeurs Y augmentent aussi. Cela vérifie que nous avons une forte corrélation positive.

(Diagramme de dispersion visualisant les données de la diapositive sur la température de l'eau dans une bouilloire au fil du temps avec une ligne de tendance interceptant les données)

Cette corrélation positive est plus évidente avec l'ajout d'une ligne de tendance linéaire, une ligne de tendance et une ligne droite que nous traçons afin qu'elle se rapproche le plus possible de tous les points de données. Elle peut être générée automatiquement en utilisant le logiciel de votre choix. Comme le montre ce diagramme de dispersion, il fournit une visualisation encore plus claire, ce qui nous permet de voir à quel point nos variables sont corrélées. Dans cet exemple, la ligne suit de toute évidence une tendance à la hausse, ce qui représente une corrélation positive. Si la ligne suivait une tendance vers le bas, elle représenterait une corrélation négative.

Mesurer la corrélation

Pour les variables numériques, la corrélation est mesurée par un coefficient de corrélation. Tandis qu'un diagramme de dispersion où une ligne de tendance peut vous aider à visualiser vos données, un coefficient de corrélation est une mesure de la force de la relation linéaire entre deux variables et est représentée par R. La valeur de R est toujours comprise entre un minimum de moins 1 et un maximum de 1. Le coefficient de corrélation ou R peut être calculé facilement dans Excel en utilisant la fonction de Pearson. Cette fonction est disponible dans plusieurs tableurs électroniques ou applications statistiques. Utilisez celle que vous connaissez et à laquelle vous faites confiance!

Lorsque r est égal à 1, nous disons que deux variables ont une relation parfaitement positive, ce qui signifie que les deux variables augmentent ou diminuent toujours ensemble. Lorsque R est égal à moins 1, les variables ont une relation parfaitement négative. Cela signifie qu'une variable augmente toujours, tandis que l'autre diminue. Enfin, lorsque R est égal à zéro, il n'y a pas de relation linéaire entre les deux variables.

Interpréter le coefficient de corrélation

(Tableau contenant des renseignements sur l'interprétation de la valeur du coefficient de corrélation. Les colonnes, de la gauche vers la droite, sont nommés come suit : Valeur de r | Corrélation | Direction | Force. De la première vers la dernière ligne : 1 | Oui | Positive | Parfait; 0.99 à 0.6 | Oui | Positive | Forte our très forte; 0.59 à 0.20 | Oui | Positive |Faible ou modérée; 0.19 à -0.19 | Non | - | -; -0.2- à -0.59 | Oui | Négative | Faible ou modérée; -0.6 à -0.99 | Oui | Négative | Forte ou très forte; -1| Oui | Négative | Parfaite)

Le coefficient de corrélation, ou r, fournit des renseignements sur l'existence, la direction et la force d'une relation entre deux variables. En réalité, une valeur en R est rarement égale à exactement 1. Ce tableau fournit des lignes directrices générales sur la manière de déterminer la force de relations entre deux variables. Si une valeur R est égale ou inférieure à 0,6, nous avons une forte relation négative. De même, si sa valeur est égale ou supérieure à 0,6, nous avons une forte relation positive.

Si une valeur r est comprise entre moins 0,59 et moins 0,2. Nous avons une faible corrélation négative, même si sa valeur se situe entre 0,2 et 0,59. Nous avons une faible corrélation positive.

Enfin, si le coefficient de corrélation est entre -0,19 et 0,19, nous n'avons pas suffisamment de preuves pour dire que les deux variables sont corrélées.

Exemple 1

(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps. les colonnes, de la gauche vers la droite, sont nommés comme suit : Temps dans la bouilloire (secondes) | Température de l'eau (Celsius). De la première ligne vers la dernière : 30 sec | 20°C; 60 sec | 35°C; 90 sec | 50°C; 120 sec | 65°C; 150 sec | 80°C; 180 sec | 90°C; 210 sec | 100°C;)

Revenons à notre exemple de l'eau en ébullition dans une bouilloire.

Ce tableau des données fournit la température de l'eau dans une bouilloire à 7 moments qui sont espacées de façon égale dans le temps. Après les 30 premières secondes, l'eau est à une température de 20 degrés Celsius.

Au dernier moment, l'eau a atteint son point d'ébullition de 100 degrés Celsius. En utilisant la valeur de R, nous pouvons prouver qu'il existe une corrélation positive entre le temps et la température tant grâce au coefficient de corrélation et à la visualisation des données.

Calculer le coefficient de corrélation

(Tableau contenant les même données que la diapositive précédente)

(Diagramme de dispersion avec une ligne de tendance visualisant les données du même tableau)

(Text : Utilisez la fonction de Pearson --> r=0.997)

Comme nous l'avons mentionné plus tôt, le coefficient de corrélation ou R peut être calculé facilement en utilisant la fonction de Pearson. Les valeurs de la première colonne représentent la première variable le nombre de secondes passées dans la bouilloire. Les valeurs de la deuxième colonne représentent la température de l'eau à chaque point dans le temps.

Ici, nous voyons que la valeur s'avère être supérieure à 0,99. Rappelez vous qu'une valeur de 1 aurait indiqué une corrélation positive parfaite. Cela signifie que notre valeur indique une corrélation positive proche de la perfection. En d'autres termes, pour ces deux variables, il y a une forte corrélation positive entre le temps et la température qui est visible sur le diagramme de diffusion et la ligne de tendance.

Exemple 2

(Diagramme de dispersion représentant le taux de Cybercriminalité par 100 000 habitants en fonctions du Taux de croissance (%) de la population en 2017-2018. La ligne de tendance monte faiblement)

En réalité, il est peu probable que la relation entre deux valeurs soit aussi évidente que le lien entre le temps passé dans une bouilloire et la température de l'eau. Examinons un exemple concret qui compare la croissance démographique à la cybercriminalité en 2018.

Que nous dit le diagramme de dispersion? Tout d'abord, sur l'axe des X, nous voyons à mesure que les valeurs du taux de croissance de la population augmentent, les valeurs des taux de cybercriminalité sur l'axe des Y font de même. Cela laisse entendre que nous devrions avoir une corrélation positive.

Parallèlement, nous remarquons que les points de données sont plutôt éparpillés. Il est difficile de tracer une ligne droite entre ces points de données tout en gardant chaque point de données près de la ligne. Cela nous amènerait à croire qu'il n'y a pas de forte corrélation.

Pour en être sûr, nous décidons d'utiliser un logiciel pour calculer notre coefficient de corrélation et nous voyons que R est égal à 0,3. Cela signifie une faible corrélation positive. Par conséquent, après avoir visualisé les données et déterminer le coefficient de corrélation, nous pouvons conclure qu'en 2018, il y avait une faible corrélation positive entre la croissance démographique et la cybercriminalité.

Vérification des connaissances

(Diagramme de dispersion représentant un nuage de points qui, de façon disperser, diminue en valeur en fonction de l'axe des X)

Faisons une pause pour mettre à l'épreuve vos connaissances sur la corrélation.

Examinons le diagramme de dispersion dans la partie supérieure droite de la diapositive. Qu'est ce que cela nous dit? Y a t'il une corrélation positive entre ces deux variables? B) Une corrélation négative? ou C) Aucune corrélation de tout?

La réponse est B. Ce diagramme de dispersion visualise une forte corrélation négative entre ces deux variables.

Imaginez ensuite que vous analysez trois paires de variables les coefficients de corrélation pour ces trois paires sont moins -0,8, 0,03, 0,42. Quel R indique la relation la plus forte?

La réponse est A) R est égale à 0,8. Cela indique une relation forte et négative. La plus faible de ces trois options est B ou R est égal à 0,03, ce qui indique qu'il n'existe aucune relation entre les variables.

Corrélation =/= Causalité

Passons maintenant à la causalité. En fait, s'il y a un message clé que vous devez retenir de cette vidéo, ce devrait être ceci même si la corrélation et la causalité sont parfois utilisées incorrectement comme des concepts interchangeables, ce n'est pas du tout le cas. Jusqu'à présent, nous avons appris que le coefficient de corrélation nous indique à quel point une paire de variables sont liées de manière linéaire et changent ensemble. Cependant, il ne nous dit pas pourquoi ni comment. C'est ce que fait la causalité. La causalité, c'est quand il y a une explication logique dans le monde. A la question pourquoi cela se produit? Vous avez peut être déjà entendu parler de ce phénomène qui est aussi appelé la relation de cause à effet.

Causalité

La causalité est une relation entre deux événements ou variables ou un évènement ou processus provoque un effet sur l'autre évènement ou processus, par exemple:

Des recherches nous apprennent qu'il existe une corrélation positive entre les ventes de crèmes glacées et les coups de soleil. Cela veut dire qu'à mesure que les ventes de crèmes glacées augmentent, les cas de coups de soleil augmentent également. Par contre, cela ne veut pas dire que l'achat d'une cône de crème glacée, provoque un coup de soleil, n'est ce pas? Bien sûr que non. La causalité ajoute à la corrélation le contexte et le sens dans le monde réel.

(Série d'image démontrant que la vente de crème glacée et le nombre de coups de soleil sont corrélées mais que chaqu'un est causé par le soleil)

La causalité désigne une relation entre deux événements ou variables qui a une explication valable. Contrairement à la corrélation avec la causalité. Cette explication valide transforme la possibilité en réalité.

Dire que quelque chose provoque un effet sur une autre variable signifie que le résultat d'un évènement est directement influencé par l'autre. Soit la cause précède l'effet, soit l'effet change lorsque la cause change.

Par exemple, du temps sec, chaud et ensoleillé poussera les gens à acheter plus de crèmes glacées que du temps froid. Le temps sec, chaud et ensoleillé provoquera également une augmentation des coups de soleil par rapport au temps plus froid et pluvieux. Cela peut donner l'impression que l'achat de crème glacée provoque des coups de soleil, mais ce n'est tout simplement pas vrai. En ce qui concerne le temps chaud ensoleillé, les ventes de crèmes glacées et les coups de soleil. Les trois variables sont corrélées. Mais les seules relations causales dans ce scénario sont entre la météo et les ventes de crème glacée et entre la météo et les gens qui prennent des coups de soleil.

Attention au biais de confirmation!

Tout comme l'esprit humain aime créer des liens. Il a aussi tendance à accepter plus facilement des preuves qui sont en accord avec les croyances existantes de la personne plutôt que celles qui les réfutent. C'est ce qu'on appelle le biais de confirmation. Donc, quand vous analysez vos données, il est très important d'examiner attentivement les conclusions que vous préférez aussi rigoureusement que celles que vous n'aimez pas afin d'éviter de prétendre qu'il existe une relation de causalité entre deux choses. Alors qu'en fait, ce n'est pas le cas.

Comment déterminer une relation de causalité

Il n'y a pas de tests statistiques faciles pour mettre à l'essai une relation de cause à effet. La confirmation statistique de la causalité nécessite généralement des techniques de modélisation avancées. Toutefois, lorsque vous tentez d'établir la présence ou l'absence d'une relation de causalité, il est généralement plus probable qu'il y ait un lien de causalité entre vos deux variables.

Si les quatre critères suivants sont respectés tout d'abord, comme pour la corrélation, les deux variables doivent varier ensemble, ce qui signifie qu'il a été démontré qu'il existe un coefficient de corrélation positif ou négatif.

Ensuite, cette relation doit être plausible et vraiment, ce que cela veut dire est que la relation doit avoir du sens.

Troisièmement, la cause doit précéder l'effet dans le temps. En d'autres termes, la cause doit avoir lieu en premier pour que l'effet ait lieu.

Enfin, la relation ne doit pas être causée par une troisième variable. Une relation qui semble être entre deux variables, mais qui pourrait aussi être expliquée par une troisième est aussi appelée association fallacieuse. Nous l'avons déjà vu dans notre exemple, examinant la corrélation entre l'augmentation des ventes de crèmes glacées et l'augmentation des cas de coups de soleil. Mais en fait, ces deux augmentations étaient l'effet d'une troisième variable le soleil.

Vérification des connaissances : Cette relation est-elle une relation de causalité?

(Diagramme de dispersion représentant Les heures avant que la personne ne mange à nouveau en fonction du poids du gâteau consommé (kg). La ligne de tendance du nuage de points monte.)

Maintenant, jetant un coup d'œil à ce diagramme de dispersion et essayant de déterminer s'il y a ou non une relation de causalité entre la quantité de gâteau qu'une personne mange et à quel point elle se sent rassasié. Ce que nous mesurons au moyen du temps qui passe avant que la personne ne mange à nouveau. Dans cet exemple, nous supposons que tous les répondants sont semblables, à l'exception de la quantité de gâteau qu'ils ont consommé. Pensez aux quatre critères que nous venons de voir. Est ce que les deux variables varient ensemble? La relation était elle plausible? La cause précède l'effet dans le temps et la relation est elle causée par une troisième variable?

(Texte : Oui - r = 0.918; Oui - processus de digestion; Oui - le gâteau est mangé en premier; Probablement pas - si on prend compte des autres aliments consommés)

Après avoir examiné les quatre critères que nous avons établi pour aider à déterminer si la relation est bien une relation de causalité, nous avons déterminé que d'abord, les variables varient effectivement ensemble. Oui, il y a une relation plausible. Oui, le gâteau est mangé en premier. Et c'est ce qui provoque l'effet de se sentir rassasié. Et dans ce cas, il est peu probable que le sentiment de se sentir rassasié ait été causé par une troisième variable puisque nous avons tenu compte de tous les aliments qui ne sont pas des gâteaux.

L'importance de connaître la différence

(Diagramme de dispersion représentant la moyenne pondérée cumulative (MPC) en fonction des Années de leçons de musique. La ligne de tendance du nuage de points monte)

Un problème commun survient quand on présente deux tendances corrélées en avançant qu'un phénomène cause l'autre. Par exemple, ce diagramme de dispersion montre une relation entre le fait de prendre des leçons de musique et l'obtention d'une moyenne pondérée cumulative MPC élevée. Le graphique semble indiquer qu'il existe une corrélation entre les années de leçons de musique et la MPC moyen. Cependant, est ce que les leçons de musique ont une incidence directe ou causent une augmentation de la MPC? Des recherches sociales montrent que ces étudiants hautement performants sont également plus susceptibles d'avoir grandi dans un environnement qui met l'accent sur l'éducation et qui fournit les ressources nécessaires pour réussir sur le plan scolaire. Il est donc possible que ces étudiants aient obtenu des résultats scolaires supérieurs avec ou sans les leçons de musique, et que leur statut socio économique soit la véritable raison derrière la relation. Donc, même si les leçons de musique et les réalisations scolaires sont corrélées, il y a d'autres facteurs qui devraient nous empêcher d'établir une causalité.

Récapitulation des points clés

Voici un aperçu des points clés que nous avons couverts dans cette vidéo.

Premièrement, la corrélation désigne la relation entre deux variables. Il était important de chercher l'existence, la direction et la force de la relation.

Ensuite, nous avons appris à évaluer la force et la direction d'une corrélation en calculant le coefficient de corrélation r. La visualisation des données nous permet également de déterminer rapidement les corrélations.

Ensuite, nous avons expliqué comment la causalité désigne une relation entre deux événements ou variables qui a une explication valable.

Et enfin, il est important de se rappeler que la corrélation ne sous entend pas toujours la causalité, même si deux variables sont fortement corrélées. Il pourrait s'agir d'une simple coïncidence.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Raconter l'histoire des données : comment créer des histoires qui comptent

Numéro de catalogue : 892000062021005

Date de diffusion : le 3 mai 2021 Mise à jour : le 13 décembre 2021

À la fin de cette vidéo, vous devriez mieux comprendre les principes fondamentaux de l'utilisation des données pour raconter une histoire. Nous examinerons certains des principaux éléments d'une histoire de données, y compris les données, le récit et la visualisation, et nous discuterons de la façon dont ils peuvent être utilisés pour construire des messages concis, informatifs et intéressants auxquels votre public peut se fier. Et ensuite, vous découvrirez l'importance de bien planifier une histoire de données, y compris de savoir qui sera votre public, ce qu'il devrait savoir et la meilleure façon de fournir ces renseignements.

Étape du parcours des données
Raconter l'histoire
Compétence des données
  • Interprétation des données
  • Raconter une histoire
  • Visualisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
17:51
Coût
Gratuit

Voir la vidéo

Raconter l'histoire des données : comment créer des histoires qui comptent - Transcription

Raconter l'histoire des données : comment créer des histoires qui comptent - Transcription

(The Statistics Canada symbol and Canada wordmark appear on screen with the title: "Raconter l'histoire des données: Comment créer des histoires qui comptent")

Raconter l'histoire des données: Comment créer des histoires qui comptent

Bienvenue à "Raconter l'histoire". Cette vidéo vise à aider les apprenants à comprendre comment utiliser les données pour raconter des histoires intéressantes et instructives.

Objectifs d'apprentissage

À la fin de cette vidéo, vous devriez mieux comprendre les principes fondamentaux de l'utilisation des données pour raconter une histoire. Nous examinerons certains des principaux éléments d'une histoire de données, y compris les données, le récit et la visualisation, et nous discuterons de la façon dont ils peuvent être utilisés pour construire des messages concis, informatifs et intéressants auxquels votre public peut se fier. Et ensuite, vous découvrirez l'importance de bien planifier une histoire de données, y compris de savoir qui sera votre public, ce qu'il devrait savoir et la meilleure façon de fournir ces renseignements.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, receuillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte à la communication avec les autres de l'histoire que racontent les données, en passant par l'exploration, le nettoyage, la description, la compréhension et l'analyse des données.

Étape 4: Raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur l'Étape 4 - Raconter l'histoire)

Cette vidéo portera principalement sur la dernière étape du cheminement des données: raconter l'histoire. Être un bon conteur d'histoire signifie pouvoir présenter des renseignements sans y ajouter vos opinions. Il est important de garder les choses simples en déterminant ce qui est important et ce qui ne l'est pas. Autrement dit, les conteurs efficaces d'histoires des données doivent aussi être des réviseurs sans pitié et essayer de séparer l'essentiel du superflu.

Qu'est-ce qu'une histoire de données?

Qu'est-ce qu'une histoire de données? Une façon de décrire l'histoire des données est la capacité de communiquer des données non seulement sous forme de chiffres ou de graphiques, mais sous forme de récit que les humains peuvent comprendre. Une histoire de données est composée de trois composantes principales: les données, le récit et les visualisations, qui fonctionnent tous ensemble pour créer un compte rendu oral ou écrit des données qui répond aux besoins de votre public en matière de renseignements. L'objectif d'une histoire de données est de fournir un contexte pour expliquer l'importance des données et aider à communiquer tout message clé que vous essayez de transmettre au moyen de votre histoire de données. Les meilleurs conteurs d'histoires des données sont ceux qui savent comment traduire efficacement leurs résultats en une séries d'éléments essentiels qui font passer le message de la manière la plus directe et la plus succincte possible.

Pourquoi raconter une histoire de données?

Mais pourquoi raconter une histoire de données? Pourquoi ne pas simplement montrer aux gens des chiffres dans une feuille de calcul? Eh bien, franchement, c'est parce que les histoires sont plus faciles à retenir. Les gens se sentent proches des histoires. Et, à vrai dire, les histoires de données sont conçues pour le public et pas pour l'auteur. Depuis que les humains se sont assis pour la première fois autour d'un feu de camp, ils racontent des histoires pour: Informer, pour raconter, faire le point et fournir des faits; pour Persuader, pour vendre, convaincre ou recommander; et aussi pour Divertir, pour faire plaisir, amuser ou toucher nos émotions. Dans l'ensemble, quand nous racontons une histoire de données, nous ne voulons pas seulement que les gens comprennent les données et/ou les renseignements dont nous discutons. Utiliser des histoires aide les gens à mémoriser vos idées principales.

Composantes d'une histoire de données

Précédemment, nous vous avons dit qu'une histoire de données est un compte rendu oral ou écrit des données, composé d'un récit et accompagné de visualisations. Ici, nous allons examiner ce que nous voulons vraiment dire quand nous disons les termes "données", "récit" et "visualisation". Les données sont des statistiques et des renseignements inclus dans votre histoire de données pour soutenir votre message clé. Le récit est fondé sur des données et comprend d'autres renseignements utilisés pour raconter l'histoire des données. Il fournit également un contexte pour expliquer l'importance des données et des messages clés que vous communiquez au moyen de votre histoire de données. Et enfin, les visualisations sont les tableaux, les graphiques, les diagrammes, les cartes, les pictogrammes et autres visualisations de données que vous utilisez pour raconter votre histoire de données. Si cela est fait correctement, les visualisations aident vos messages clés à sauter aux yeux.

Autres détails sur les données

Avant de décider quelles statistiques et quels renseignements inclure dans votre histoire de données, vous devez d'abord confirmer que les données sont de qualité adéquates et valides pour être utilisées à vos fins. Déterminer des données qui répondent aux critères nécessaires pour les inclure dans votre histoire de données peut être une affaire pénible. Vous aurez probablement effectué beaucoup d'analyses et c'est maintenant le moment de mettre en évidence vos principales conclusions et de leur attribuer les sources appropriées.

Autres détails sur le récit

Autre détail sur le récit. Un récit fort repose sur une structure forte. Et qu'entendons-nous par "structure"? Eh bien, si un récit est utilisé pour raconter une histoire de données, alors il doit, comme toutes les bonnes histoires, contenir un début, un milieu et une fin ou, comme nous les appellerons ici, le "Quoi?", le "Et alors?" et le "Et maintenant?". Le "Quoi" présente le sujet et explique le contexte. Quels sont les faits? Que doit savoir le public? Le "Et alors?" explique les données. Quels sont les faits? Pourquoi sont-ils importants? Et le "Et maintenant?" appelle les lecteurs à agir. Il devrait expliquer quelles conclusions peuvent être tirées et quelles sont les prochaines étapes.

Autres détails sur les visualisations

Il existe de nombreuses façons différentes de présenter les données visuellement, comme des graphiques, des diagrammes, des cartes, des tableaux, des pictogrammes, des infographies et des tableaux de bord. Pour obtenir de plus amples renseignements sur les visualisations de données et comment les utiliser, consultez notre vidéo intitulée "Visualisation des données: une introduction", également disponible dans cette série.

Autres détails sur les visualisations

Pour l'instant, notre intention est de vous familiariser avec la dernière composante nécessaire d'une histoire de données efficace. Une fois que vous avez choisi les données à inclure dans votre histoire et que vous aurez construit votre récit autour de celle-ci, il est temps de réfléchir à la meilleure façon de la présenter à votre public. Premièrement, une bonne visualisation des données doit être claire et rapidement interprétable. Pour vérifier cela, vous devez exécuter des tests à des fins d'accessibilité. Rappelez-vous, les visualisations n'existent pas seulement pour avoir l'air intéressantes, elles sont conçues pour aider les lecteurs à interpréter votre histoire de données et à les guider. Cela signifie utiliser des propriétés visuelles que le cerveau humain traite immédiatement sans avoir recours à notre action consciente, et inclut des attributs comme la couleur, la taille, la forme. Nous voulons également nous assurer que les annotations sont utilisées pour attirer l'attention du public, mettre en évidence les messages clés et nous assurer que tous les documents de référence sont cités. Pour éviter les visualisations inefficaces, vous devez vous assurer que tout encombrement inutile a été supprimé et qu'il ne déforme en aucune façon vos messages clés et n'induit pas le lecteur en erreur.

Planification de votre histoire de données

(Diagramme des étapes clés à garder à l'esprit lors de la planification d'une histoire de données: 1) Qui est le public pour l'histoire des données? 2) Quel est le but de l'histoire des données? 3) Quel format le mieux adapté au public et permettra le mieux d'atteindre l'objectif?)

Jusqu'à présent, nous avons examiné les principes fondamentaux de l'utilisation des données pour raconter une histoire, qui comprenait les principales composantes et l'histoire des données, y compris les données, le récit et la visualisation. Ensuite, nous avons discuté du rôle de chacun d'entre eux joue dans la construction de messages concis, informatif et intéressant. Ensuite, nous avons examiné ce que veut dire créer une histoire mémorable sur laquelle votre public peut se fier. Donc, maintenant que nous avons tous les éléments dont nous avons besoin pour créer une histoire de données efficace, il est temps de faire un plan. Quand vous planifiez votre histoire de données, comme pour planifier un voyage de vacances, vous devez savoir où vous êtes maintenant et savoir où vous voulez aller, mais vous n'avez pas déterminé comment vous y arriverez exactement. Les trois étapes de planification de votre histoire de données sont les suivantes: D'abord, qui est le public pour l'histoire de données? Deuxièmement, quel est le but de l'histoire de données? Et troisièmement, quelle est la meilleure forme pour atteindre ce but?

Étape 1: Qui est votre public?

(Text sur l'écran: Le grand public? La haute direction? Des universitaires? Des collègues? des décideurs? Les médias?)

La première étape de la planification de votre histoire de données consiste à connaître votre public. Il y a beaucoup de publics différents et de nombreuses variables différentes qui pourraient influer sur la façon dont nous présentons nos idées. Par exemple, en ce qui concerne le grand public, le niveau de mobilisation et de compréhension à l'égard d'un sujet particulier sera très probablement très différent de celui d'un haut fonctionnaire du gouvernement. Chaque public a une attente unique et précise quant à la façon dont les messages sont présentés. Parmi les autres publics potentiels, on compte des membres de la communauté universitaire qui peuvent traiter des renseignements très détaillés et techniques. Lorsque vous communiquez avec des collègues et des pairs, le ton et le style peuvent être plus informels. Avec les décideurs des politiques officielles, le contraire pourrait être vrai et le ton très sérieux et professionnel. Et avec les médias, vous avez beaucoup de types de publics différents.

Publics différents, renseignements différents

Les types de publics énumérés ici affichent toute une gamme de compréhension. En d'autres termes, la profondeur et le niveau de détails de votre histoire devraient être ajusté en fonction des connaissances, de l'intérêt et des besoins en matière de renseignements de votre public. "Novice" signifie que c'est leur première exposition au sujet. Ici, nous ne faisons aucune supposition sur les connaissances antérieures, mais cela ne signifie pas que nous devons simplifier exagérément le message. Un généraliste est conscient du sujet, mais il cherche plutôt un aperçu pour aider à comprendre les principaux thèmes plutôt que des détails de niveau inférieur. Un public de direction a besoin de quelque chose de plus approfondi et de plus exploitable. Ils comprennent les complexités et les interrelations du sujet. Les public experts veulent que vous exploriez et découvriez de nouveaux domaines de sujets. Ils n'ont pas besoin de beaucoup de détails contextuels ou de haut niveau. Enfin, il y a les décideurs ou les cadres, pour qui le temps est l'élément le plus important. Gardez les choses simples et soyez direct.

Connaissez votre public

Une autre façon de penser à connaître votre public est de leur porter une attention particulière et d'essayer de comprendre différentes perspectives. Lorsque vous planifiez votre histoire de données, demandez-vous "Pourquoi est-ce important pour ce public? Pourquoi cela continue pour eux? Pourquoi devraient-ils s'en soucier?" Par exemple, si vous parlez à un public novice, vous pouvez utiliser des mots communs et leur raconter une histoire qui transmet des renseignements qu'ils peuvent appliquer immédiatement. Un libellé technique et des expressions techniques sont plus susceptibles d'être appréciés par les gestionnaires ou les experts dans le domaine et leur histoire pourrait servir à informer leur propre équipe ou même la haute direction. Inversement, si votre histoire est un appel à l'action pour les décideurs dans un domaine particulier, évitez les détails inutiles et tenez compte du besoin de savoir. Peu importe votre public, utilisez un langage pertinent qui leur est compréhensible.

Étape 2: Quel est l'objectif de l'histoire de données?

L'étape 2 de la planification de votre histoire de données est de connaître votre objectif ou votre but. Il peut y avoir de nombreux objectifs pour une histoire de données. L'un des objectifs pourrait être simplement d'informer votre public sur vos données et leur place dans notre compréhension actuelle du sujet. Un exemple de cela est un bulletin météorologique ou un rapport de circulation. Concis et agréable. Un autre objectif d'une histoire de données est de persuader. Votre histoire de données peut être utilisée pour convaincre un client d'acheter votre produit ou service ou pour persuader votre gestionnaire de suivre vos recommandations sur une nouvelle stratégie de vente pour le nouvel exercice. Le but de votre histoire de données pourrait être même de divertir. Des entreprises entières réussissent ou échouent en fonction de leur capacité de divertir leur public, comme les magazines, les blogs et les sites web. Bien sûr, votre histoire de données pourrait avoir plusieurs objectifs.

Étape 3: Quel est le meilleur format pour atteindre ce but?

L'étape 3 de la planification de votre histoire de données consiste à déterminer le format que vous utiliserez. Le format que vous choisissez affectera d'autres décisions concernant les éléments à utiliser pour raconter votre histoire de données et la quantité de temps et d'espace que vous disposez pour la raconter. Votre public peut également influer sur le format que vous choisissez. Par exemple, il est peu probable que vous choisissiez de créer une infographie pour informer votre gestionnaire ou votre équipe de projet de l'avancement du projet de recherche en cours. Vous pouvez plutôt choisir de fournir un rapport d'information qui peut être facilement modifié et mis à jour d'une semaine à l'autre. Certains rapports d'information ou publications peuvent nécessiter un format très précis, mais vous pouvez avoir davantage de marge de manœuvre dans un rapport à votre équipe. Ils peuvent même préférer une présentation orale. Alors que vous pouvez vouloir utiliser des visuels plus attrayants comme des tableaux de bord pour mobiliser un public externe comme de nouveaux clients ou de nouveaux lecteurs pour votre site web.

Mêmes renseignements, formats différents

(Deux images représentant des informations sur le quartier accessible à pied et l'activité physique. L'image de droite représente la première page d'un document académique. L'image de droite représente une infographie résumant l'article académique.)

Nous avons ici un exemple de la façon dont les mêmes données peuvent être représentées par différents formats, en fonction du public. L'objectif de cette histoire de données est d'informer le public que l'activité physique est positivement associée à la convivialité pour l'activité, ou "potentiel piétonnier", du quartier où vit une personne. Dans ce cas, nous voyons comment le public peut avoir une influence majeure sur le format final de l'histoire de données. À gauche, nous voyons un article de recherche qui a été écrit pour informer les universitaires et les décideurs de notre message clé. Et à droite, nous avons choisi une infographie pour dresser un portrait pour le grand public qui pourrait ne pas être aussi bien informé sur le sujet et bénéficie d'une narration plus visuelle. Les deux formats ont atteint leur objectif d'informer leur public en conséquence.

Tableaux de bord à l'intention des décideurs

Si votre public se trouve à être un décideur, l'une des façons les plus efficaces de raconter une histoire de données détaillée, mais concise, est d'utiliser un tableau de bord. En suivant les indicateurs clés de rendement, un tableau de bord des données gère des renseignements importants qui peuvent être facilement mis à jour au fil du temps. Les tableaux de bord aident à surveiller le rendement d'un ministère ou d'un processus particulier et à produire des résultats rapidement, mais sans contexte, ce qui est important pour raconter une histoire de données efficace et qu'il faut toujours garder à l'esprit pour choisir le bon format pour le bon public.

Récapitulation des points clés

En fin de compte, cette courte vidéo visait à aider les apprenants à raconter des histoires intéressantes et instructives avec des données. Nous avons expliqué les trois composantes les plus importantes de l'histoire de données: les données, le récit et les visualisations, et enfin, nous avons examiné l'importance de planifier la structure de votre histoire de données en déterminant d'abord qui est votre public, quel devrait être le but de l'histoire et comment elle pourrait être présentée le mieux possible. Ensemble, ces éléments sont utilisés pour construire des histoires de données concises, informatives et intéressantes.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Apprentissage automatique : une introduction

Numéro de catalogue : 892000062021003

Date de diffusion : le 3 mai 2021 Mise à jour : le 30 décembre 2021

Cette vidéo est recommandée à ceux qui sont déjà familiers avec les concepts et techniques associés à la programmation informatique et à l'utilisation d'algorithmes pour analyser les données. Une distinction importante que nous établirons dans cette vidéo, c'est la différence entre la science des données, l'intelligence artificielle et l'apprentissage automatique.

Vous apprendrez à quoi peut servir l'apprentissage automatique, comment il fonctionne et différentes méthodes pour le mettre en œuvre. Vous apprendrez également à construire et à utiliser les processus d'apprentissage automatique de manière responsable.

Étape du parcours des données
Analyser, modéliser
Compétence des données
  • Collecte des données
  • Exploration des données
  • Interprétation des données
  • Modélisation des données
  • Prise de décision basée sur des preuves
Audience
Intermédiaire
Conditions préalables suggérées
s.o.
Durée
13:19
Coût
Gratuit

Voir la vidéo

Apprentissage automatique : une introduction - Transcription

Apprentissage automatique : une introduction - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Apprentissage automatique: Une introduction")

Apprentissage automatique: Une introduction

Bienvenue à l'apprentissage automatique: une introduction. Nous expliquerons ici les concepts de base de l'apprentissage automatique et nous inclurons un cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable.

Objectifs d'apprentissage

Cette vidéo est recommandée à ceux qui sont déjà familiers avec les concepts et techniques associés à la programmation informatique et à l'utilisation d'algorithmes pour analyser les données. Une distinction importante que nous établirons dans cette vidéo, c'est la différence entre la science des données, l'intelligence artificielle et l'apprentissage automatique. Vous apprendrez à quoi peut servir l'apprentissage automatique, comment il fonctionne et différentes méthodes pour les mettre en œuvre. Vous apprendrez également à construire et à utiliser les processus d'apprentissage automatique de manière responsable.

Étapes du cheminement des données

(Texte à l'écran: Les étapes du cheminement des données sont appuyées par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - definir, chercher, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, soit d'abord la collecte, l'exploration, le nettoyage, la description et la compréhension des données, puis leur analyse, afin de pouvoir ultimement communiquer aux autres ce que révèlent ces données.

Étape 1,2 et 3: Definir, chercher et recueillir; Explorer, nettoyer et décrire; Analyser et Modéliser

(Diagramme du Cheminement des données avec un attention sur l'Étape 1 - Definir, chercher et recueillir; Étape 2 - Explorer, nettoyer et décrire; Étape 3 - Analyser et modéliser)

On peut se servir de l'apprentissage automatique aux étapes de recherche, de la collecte et de la protection des données dans le cheminement des données pour chercher des données et ne trouver que les parties qui sont nécessaires. On peut également s'en servir aux étapes d'exploration, de nettoyage et de description dans le cheminement des données pour révéler ce qu'elles contiennent. Enfin, l'apprentissage automatique permet, aux étapes de l'analyse et de la modélisation du cheminement des données, de trouver les relations entre les variables et de prévoir les résultats ou les événements futurs.

Qu'est-ce que la science des données?

(Diagramme contenant 3 cercles qui s'intersect au milieu. Les cercles du haut orange, vert gauche et bleu droit représentent l'Expertise du domaine, l'Informatique et Mathématique, respectivement. L'intersection des cercles orange-vert, vert-bleu et bleu-orange représentent le Traitement des données, l'Apprentissage automatique et Recherche statistique, respectivement. L'intersection des trois cercles représente les Science des données.)

Tout d'abord, qu'est ce que la science des données exactement? Elle représente l'intersection de trois éléments: l'expertise dans un domaine particulier, la programmation informatique ainsi que les mathématiques et les statistiques. Les spécialistes des données, les informaticiens, les statisticiens et d'autres types de scientifiques peuvent utiliser l'apprentissage automatique dans leur travail. Les techniques des sciences des données telles que l'intelligence artificielle et l'apprentissage automatique sont utilisées pour résoudre des problèmes analytiquement complexes.

Qu'est-ce que l'intelligence artificielle et l'apprentissage automatique?

L'intelligence artificielle ou IA est un domaine d'étude de l'informatique consacré à la résolution de problèmes communément associés à l'intelligence humaine, tels que la mémoire, la résolution de problèmes et la reconnaissance des formes. Un exemple d'intelligence artificielle serait un ordinateur qui a été programmé pour reconnaître toutes les séquences de coups possibles afin de jouer la partie d'échecs. L'apprentissage automatique, en revanche, est un sous-ensemble de l'intelligence artificielle où l'ordinateur apprend sans avoir été programmé pour des tâches particulières. Au lieu d'avoir des lignes de code indiquant à l'ordinateur quoi faire, dans l'apprentissage automatique, l'ordinateur apprend les modèles dans les données et applique ces modèles pour prédire un résultat. Ainsi, aux échecs, l'ordinateur ne choisit pas un coup au hasard. Après avoir évalué toutes les options possibles, mais il utilise plutôt les données recueillies dans des millions de parties jouées précédemment, non seulement pour s'assurer que son coup est valable, mais aussi pour s'assurer que la séquence est la plus susceptible d'aboutir à une victoire.

Pourquoi utiliser l'apprentissage automatique?

L'apprentissage automatique est un outil qui permet d'élaborer, d'ajuster et de peaufiner des modèles complexes afin de faire des prévisions plus précises à l'aide d'énormes volumes de données. Voyez le comme un cerveau humain: à mesure qu'il reçoit plus de données, le modèle s'améliore et peut tirer des meilleures conclusions menant à des prévisions plus solides. L'apprentissage automatique peut s'utiliser pour automatiser des tâches répétitives et fastidieuses qui, autrement, prendraient de nombreuses heures à réaliser, comme le tri et la catégorisation d'articles d'actualité en ligne.

Comment les algorithmes d'apprentissage automatique "apprennent"

Les algorithmes d'apprentissage automatique apprennent à prédire un résultat de deux manières: l'apprentissage supervisé et l'apprentissage non supervisé. Dans l'apprentissage supervisé. Nous donnons un algorithme, une mise en correspondance des entrées avec les résultats souhaités. Les algorithmes tentent de comprendre la relation entre eux, de sorte que pour les entrées ultérieures, il peut prédire les résultats en suivant la même logique que dans la mise en correspondance initiale. Une exigence importante de l'apprentissage supervisé est de disposer de données dont les entrées et les résultats sont connues. C'est ce qu'on appelle les données étiquetées. Dans l'apprentissage non supervisé, nous n'avons pas de données avec des entrées et des résultats souhaités. L'algorithme recherche ici les similitudes et les schémas dans les données et tente de déterminer une stratégie pour catégoriser les entrées. L'algorithme appliquera la même stratégie pour catégoriser les entrées ultérieures. Nous verrons un exemple de chacun d'entre eux aux deux prochaines diapositives. Nous voyons ici un exemple d'utilisation de l'apprentissage automatique supervisé pour prédire le type de culture sur des images satellites. Sur la droite de la diapositive, vous voyez une image satellite réelle des champs agricoles. C'est l'entrée. La première étape consiste à déterminer les parties de l'image qui sont des cultures par rapport à d'autres éléments comme les routes, l'eau, les clôtures ou les arbres, puis à déterminer chaque type de cultures différent. Il s'agit des résultats. Cette première étape doit être effectuée par une personne. La deuxième étape consiste à créer un algorithme d'apprentissage automatique qui lie les images satellite et l'etiquette correctement de ce qui se trouve à chaque endroit de l'image. L'algorithmique apprend ainsi à déterminer les cultures par leur apparence sur l'image, par exemple par la couleur et la densité d'images. Enfin, l'algorithme lit une image qu'il n'a jamais vue auparavant et tente de préciser quelle culture s'y trouve. En se fondant sur ce qu'il a appris lors de la deuxième étape.

Apprentissage supervisé: déterminer le type de culture sur des images satellites

(Image de satellite d'une région agricoles recouvert de fermes)

Dans cet exemple, nous voyons comment un algorithme d'apprentissage automatique non supervisé peut être utilisé pour distinguer les transactions frauduleuses de toutes les transactions légitimes. Dans un premier temps, toutes les transactions effectuées pendant un certain temps sont examinées par un algorithme. L'algorithme examine de nombreux attributs différents de chaque transaction, tels que la date, le montant, le lieu, le type de magasin et le type de produit ou le service acheté. Ensuite, l'algorithme est appelé à trier les transactions par groupes. Dans ce cas-ci, nous pensons que la fraude est un événement rare et nous nous attendons donc à ce qu'un très faible pourcentage de transactions soit séparé du reste. N'oubliez pas que, dans le cadre d'un apprentissage non supervisé, nous ne savons pas à l'avance quelles transactions sont légitimes et lesquelles sont frauduleuses. Les prochaines diapositives vous présenteront quelques méthodes d'apprentissage automatique. Nous ne couvrons pas tous ici dans cette courte vidéo.

Apprentissage non supervisé: Détecter la fraude par carte de crédit

Le traitement des images est une méthode d'apprentissage automatique. Nous avons déjà vu comment cela fonctionne dans l'exemple du type de culture à partir des images satellites. Cette méthode est utilisée pour extraire des informations, des images, dégager des schémas dans des images, segmenter une image ou compresser une image afin qu'elle occupe moins d'espace de stockage.

Méthodes d'apprentissage automatique: Traitement du langage naturel

Le traitement du langage naturel est une méthode visant à traduire le langage de l'ordinateur et le langage humain. Le traitement du langage naturel a pour objectif de faire en sorte qu'un ordinateur puisse lire une ligne de texte et en comprendre le sens, comme le ferait une personne. Un exemple est un agent conversationnel, lequel s'attend à ce que les gens tapent "comment faire" ou "je ne trouve pas" et des mots clés qui renvoient à des choses qu'ils devraient pouvoir faire ou trouver sur ce site web particulier, puis fournir la réponse appropriée. À chaque interaction, l'agent conversationnel apprend à être de plus en plus sophistiqué dans sa façon d'interpréter ce que les gens tapent et de formuler ses réponses.

Méthodes d'apprentissage automatique: Analyse de sentiments

L'analyse de sentiments est une méthode d'apprentissage automatique qui interprète les émotions contenues dans un texte afin de mesurer le penchant des opinions des gens, qu'elles soient positives, négatives ou neutres. Un exemple est la lecture et l'interprétation des sentiments des gens à partir de critiques d'expériences dans les restaurants.

Méthodes d'apprentissage automatique: Apprentissage profond

Vous a-t-on jamais montré une image qui est toute floue et qui vous êtes sensé à deviner? Puis, peu à peu, la résolution s'améliore, donc d'abord vous savez que c'est une personne, puis vous voyez que c'est une femme, et ensuite vous reconnaissez les caractéristiques physiques uniques qui différencient votre sœur d'un étranger, même si elles ont la même taille, la même couleur de cheveux et yeux. Voilà comment fonctionne l'apprentissage profond. L'algorithme effectue de nombreux passages sur les mêmes données, gagnants chaque fois en précision jusqu'à ce qu'il puisse prédire ce que l'image est réellement. Il fonctionne en utilisant des structures de neurones interconnectés qui imitent le fonctionnement d'un cerveau humain. Un exemple d'apprentissage profond est la conduite de véhicule autonome. Les caméras alimentent en permanence des algorithmes d'apprentissage profond dans l'ordinateur de bord de la voiture, qui analysent et interprètent les images de son environnement et ajuste la vitesse et la direction de déplacement de manière à éviter les collisions.

Mise en place responsable d'un processus d'apprentissage automatique

Les processus d'apprentissage automatique sont généralement élaborés à l'aide de code source ouvert et de code écrit à l'interne. Tous les processus d'apprentissage automatique doivent satisfaire à certaines normes de qualité, indépendamment des processus qui les élaborent ou de l'usage qui en est fait. Les normes de qualité doivent comprendre les caractéristiques suivantes: Rigueur, tant au niveau des méthodes scientifiques utilisées que des tests auxquels les processus sont soumis. Imputabilité, quant à leur mode d'utilisation et à leur finalité. Fiabilité, aux termes d'application rigoureuse. Éthique, en ce qui concerne les données que les algorithmes eux-mêmes. Pour que les processus d'apprentissage automatique de Statistique Canada satisfasse à ses attentes, nous avons élaboré un cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable.

Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable

(Texte à l'écran: Auto-évaluation et examen par les pairs, liste de vérification et production d'un rapport ou d'un tableau de bord)

(Diagramme circulaire sur l'éthique de l'apprentissage automatique responsable. Dans la direction d'une aiguille d'une montre, débutant dans la haute gauche, est intituler: Respect des personnes; Application rigoureuse; Méthodes éprouvées; Respect des données)

Il s'agit d'une représentation visuelle du cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable à Statistique Canada. Le cadre s'articule autour de quatre thèmes: le respect des personnes, le respect des données, l'application rigoureuse et les méthodes éprouvées. Chaque thème a plusieurs attributs. Les attributs associés aux thèmes du respect des personnes sont la valeur pour les Canadiens, la prévention des préjudices, l'équité et la responsabilité. Les attributs associés au thème du respect des données sont la vie privée, la sécurité et la confidentialité. Les attributs associés au thème de l'application rigoureuse sont la transparence et la reproductibilité du processus et des résultats. Les attributs associés aux thèmes des méthodes éprouvées sont des données d'apprentissage de qualité, des inférences valides, une modélisation rigoureuse et l'explicabilité.

Comment mettre en place des processus d'apprentissage automatique responsables

(Texte à l'écran: Un aperçu fiable des processus d'apprentissage automatique responsables)

Passons les thèmes en revue l'un après l'autre. Un processus d'apprentissage automatique assure le respect des personnes en veillant à ce qu'il n'y ait pas de préjugés ou de discrimination dans les données d'apprentissage. Tout le monde est traité de manière équitable. Un processus d'apprentissage automatique qui garantit le respect des personnes est un processus qui protège la vie privée des personnes et des entreprises, assure la sécurité des données à toutes les étapes du traitement et protège les renseignements confidentiels pour éviter leur divulgation. Un processus d'apprentissage automatique bien appliqué est un processus qui garantit la transparence et la reproductibilité du processus et des résultats. Un processus d'apprentissage automatisé qui comprend des méthodes solides est un processus dont les méthodes sont conformes aux directives de qualité qui utilisent des mesures appropriées pour mesurer l'exactitude et le rendement.

Comment utiliser les processus d'apprentissage automatique de façon responsable

Il ne suffit pas de mettre en place des processus d'apprentissage automatique responsable. Il faut aussi les utiliser de manière responsable. Cela signifie qu'il faut faire le suivi de la mesure de rendement dans le temps. Les données traitées par l'algorithmique peuvent évoluer, il est donc important de surveiller son rendement et de réajuster l'algorithmique au besoin. Il devrait y avoir une surveillance humaine et une responsabilité à toutes les étapes. Les gens sont en fin de compte responsables de toutes les prévisions et décisions qui sont les résultats d'un algorithme d'apprentissage automatique pour toutes les systèmes qui utilisent des processus d'apprentissage automatique et surtout pour ceux qui soutiennent directement ou prennent des décisions administratives. Il est essentiel de mettre en œuvre et appliquer des protocoles sur leur utilisation pour les processus d'apprentissage automatique au sein du gouvernement du Canada, cela signifie qu'il faut s'assurer que la conformité avec la directive sur la prise de décision automatique du Secrétariat du Conseil du Trésor.

Principaux points à retenir

Dans cette vidéo, vous avez appris que la science des données à l'intersection de l'expertise dans la matière de la programmation informatique, des mathématiques et des statistiques. L'apprentissage automatique est un sous ensemble de l'intelligence artificielle qui vise à apprendre aux ordinateurs comment apprendre sans avoir besoin d'être programmé pour des tâches particulières. L'apprentissage supervisé et l'apprentissage non supervisé sont deux types d'apprentissage automatique utilisés pour prédire un résultat. Nous avons également présenté un cadre pour la construction et l'utilisation responsable des algorithmes d'apprentissage automatique.

Formation complémentaire

Si vous souhaitez en savoir plus sur l'utilisation de l'intelligence artificielle et l'apprentissage automatique au sein du gouvernement du Canada, entrez "directives sur la prise de décision automatisée du Secrétariat du Conseil du Trésor" dans le champ de recherche de votre navigateur préféré.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Intendance des données : Introduction aux normes en matière de données et aux métadonnées

Numéro de catalogue : 892000062021006

Date de diffusion : le 3 mai 2021 Mise à jour : le 5 novembre 2021

Que vous recueilliez de nouvelles données ou que vous utilisiez des données existantes, appliquer des normes en matière de données vous facilitera la vie. Et documenter vos données sous forme de métadonnées permettra à d'autres de les trouver, de les comprendre et de les utiliser.

Dans cette vidéo, vous apprendrez ce que nous pouvons faire aux données mêmes pour qu'il soit plus facile de les utiliser. Tel est le rôle des normes en matière de données. Et vous apprendrez quels sont les renseignements supplémentaires que nous pouvons fournir pour faciliter l'utilisation des données. Tel est le rôle des métadonnées.

Étape du parcours des données
Fondation
Compétence des données
  • Analyse des données
  • Création et utilisation de métadonnées
  • Gestion et organisation des données
  • Intendance des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
14:52
Coût
Gratuit

Voir la vidéo

Intendance des données : Introduction aux normes en matière de données et aux métadonnées - Transcription

Intendance des données : Introduction aux normes en matière de données et aux métadonnées - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Intendance des données: Introduction aux normes en matière de données et aux métadonnées".)

Intendance des données: Introduction aux normes en matière de données et aux métadonnées

Que vous recueilliez de nouvelles données ou que vous utilisiez des données existantes, appliquer des normes en matière de données vous facilitera la vie. Et documenter vos données sous forme de métadonnées, permettra à d'autres de les trouver, de les comprendre et de les utiliser.

Objectifs d'apprentissage

Dans cette vidéo, vous apprendrez ce que nous pouvons faire aux données mêmes pour qu'il soit plus facile de les utiliser. Tel est le rôle des normes en matière de données Et vous apprendrez quels sont les renseignements supplémentaires que nous pouvons fournir pour faciliter l'utilisation des données. Tel est le rôle des métadonnées.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyerm, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, depuis leur collecte jusqu'au moment d'en raconter l'histoire à d'autres en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse. Les normes en matière de données et les métadonnées les portent tout au long de leur cheminement.

Normes en matière de données

Les normes en matière de données peuvent être appliquées aux données pour qu'il soit plus facile de les utiliser. Il peut s'agir d'utiliser une terminologie commune pour décrire les données, comme dire que les données font partie d'un ensemble de données ou, encore, que les données comportent des variables catégoriques ou des variables numériques. Il peut aussi s'agir d'utiliser des moyens familiers pour représenter des choses courantes, comme les dates, les adresses et la température. Suivre une norme en matière de données peut aussi consister à rendre les données reconnaissables en les conservant dans une base de données ou en utilisant un format de fichier courant. En bref, les normes en matière de données sont les règles utilisées pour normaliser la façon de décrire, de représenter et de structurer les données.

Métadonnées

Les métadonnées sont des renseignements qui sont fournis avec les données pour faciliter l'utilisation de celles-ci. Il peut s'agir de renseignements sur la source des données: d'où elles viennent, qui les a créés, ce à quoi elles servent, la date de leur création, etc. Il peut aussi s'agir de renseignements sur ce qu'on a déjà fait aux données, comment elles ont été nettoyées et traitées et la façon dont les choses ont été calculés. Les métadonnées peuvent aussi inclure une description de la qualité des données, par exemple ce qui manque à celles-ci ou la façon dont elles ont été validées. Si les normes en matière de données ont été respectées lors de la création et du traitement des données, une description de celles-ci peut également être incluse dans les métadonnées. En bref, les métadonnées sont des données qui fournissent de l'information sur d'autres données, ce qui en facilite la recherche, l'interprétation et l'utilisation et permet de s'y fier davantage.

Normes en matière de données et métadonnées

(Diagramme du cycle de vie des données symbolisé comme une route commençant au producteur de données où il est pour une analyse plus approfondie à chaque jonction, aussi longtemps que la règle derrière les normes de données et les métadonnées sont suivies. Si des normes de données et des métadonnées sont utilisées, le cycle de vie des données est infini.)

Nous recueillons et nous manipulons des données parce que nous voulons qu'elles révèlent quelque chose. D'habitude, nous ne recueillons, ne manipulons et n'interprétons pas les données en une seule étape. C'est ce que les données évoluent en cheminant, mais sans pour autant s'arrêter, arrivant à destination pour reprendre la route! Votre travail pourrait consister à créer un tableau de données pour votre patron, qui pourrait le joindre à d'autres tableaux pour créer un tableau de bord que son patron pourrait examiner afin de recommander une décision et ainsi de suite. Les données ne cessent d'avancer, comme un vélo. Mais qu'est-ce qui fait avancer les données? Quelqu'un doit pédaler! Bref, quelqu'un doit pouvoir trouver, comprendre et manipuler ces données pour que les choses continuent à rouler. C'est là qu'interviennent les normes en matière de données. Tout comme il faut mettre les pieds sur les pédales pour faire tourner les roues d'un vélo dans le sens des aiguilles d'une montre, l'utilisation des données répond à des normes. Et tout comme une fiche technique décrit les caractéristiques d'un vélo, les métadonnées expliquent le contenu et le fonctionnement des données. Tant que les normes en matière de données sont respectées et que les métadonnées sont tenues à jour, les données peuvent continuer d'avancer. Mais dès qu'on arrête de suivre les normes en matière de données et qu'il n'y a pas de métadonnées, les données cessent leur cheminement. Plus personne ne les comprend ou ne peut les utiliser.

Pourquoi les normes en matière de données et les métadonnées sont-elles importantes?

Mais pourquoi devons nous utiliser des normes en matière de données et des métadonnées? Pour en retenir l'importance, il suffit de penser au sigle F-A-I-R. Les normes en matière de données et les métadonnées rendent les données faciles à trouver. Elles rendent les données accessibles ou faciles à utiliser. Elles rendent les données interopérables, ce qui signifie simplement qu'elles sont faciles à combiner avec d'autres données. Elles facilitent l'utilisation, le partage et la réutilisation des données.

Types de normes en matière de données

Il y a différents types de normes en matière de données. Nous n'en mentionnerons que quelques-unes. Les normes relatives au format des données sont une façon normalisée de représenter des choses telles que les dates, les nombres négatifs, la devise et, comme c'est le cas au Canada, les codes à deux lettres des noms de provinces. Les normes relatives au format des fichiers de données font en sorte que les fichiers sont faciles à partager et à ouvrir. Le format des variables séparées par des virgules, ou CSV, est un bon format parce qu'il permet à divers logiciels d'ouvrir les fichiers. Les normes relatives aux variables sont un moyen de normaliser les catégories concernant des variables qui ne peuvent prendre que certaines valeurs, comme la situation vis-à-vis de l'activité, les groupes d'âge, l'industrie et la profession. Nous en parlerons davantage à la prochaine diapositive.

Classifications types

Une classification est une façon de regrouper les catégories d'une norme relative aux variables de façon significative et cohérente. Prenons l'exemple des groupes d'âge. Si un chercheur utilise des catégories d'âge s'échelonnant sur quatre ans et qu'un autre utilise des catégories d'âge s'échelonnant sur dix ans, il serait difficile de comparer leurs résultats. Mais si tous deux conviennent que les catégories d'âge devraient s'échelonner sur cinq ans et s'y conforment, cela s'appelle une classification. Les groupes d'une classification devraient être exhaustifs et s'exclure mutuellement. Avant de créer vos propres groupes, il serait bon que vous vérifiiez s'il existe une classification type que vous pourriez utiliser. Il y en a beaucoup sur le site Web de Statistique Canada.

Types de métadonnées

Il y a différents types de métadonnées, mais nous ne parlerons que de quelques unes d'entre elles. Les métadonnées de référence fournissent des renseignements sur la source des données, par exemple qui les a recueilli, quand et à quelles fins. Les métadonnées de référence comprennent également une description des méthodes qui ont été utilisées pour traiter ou analyser les données et une évaluation de la qualité des données. Cela pourrait prendre la forme d'un paragraphe. Les métadonnées descriptives sont des choses telles que les titres, les notes de bas de page et les étiquettes. Elles peuvent apparaître directement dans des tableaux, des graphiques et d'autres produits de visualisation de données. Les métadonnées structurelles sont celles qui renferment la liste des variables figurant dans les données, les identificateurs, les valeurs valides, la plage des valeurs ou la liste des codes, qui est une liste de toutes les valeurs possibles pour les variables catégoriques. Si des classifications ont été utilisées, les métadonnées structurelles les décriront.

Exemple: Normales climatiques, 1981-2010, Saskatoon

(Image du résultat de la recherche « Normales et moyennes climatiques de 1981 - 2010 » sur le site Web du Gouvernement du Canada en mettant l'accent sur l'hyperlien de "Saskatoon Water TP".)

Examinons les normes en matière de données et les métadonnées à l'aide d'un exemple. Pour le consulter, vous pouvez vous rendre sur le site Web du gouvernement du Canada et y chercher un nom de station contenant le mot "Saskatoon". Nous avons choisi la station météorologique, "Saskatoon Water TP".

(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur le titre, les axes et la légende du graphique. Une attention supplémentaire est portée à l'onglet Métadonnées Station/Élément.)

Cliquer sur "Saskatoon Water TP" mène à cette page. Ce graphique a un titre informatif et une légende et ses axes sont étiquetés. Ce sont des exemples de métadonnées descriptives. Trois onglets surmontent le graphique. Nous avons cliqué sur celui intitulé "Métadonnées pour les stations et les éléments".

(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur le lien hypertexte Latitude (dd mm).)

Cliquer sur l'onglet "Métadonnées pour les stations et les éléments" mène à cette page. Le paragraphe sous les onglets est un exemple de métadonnées de référence, qui explique comment déterminer la qualité des statistiques dans les tableaux. Le producteur des données a fourni ces renseignements pour aider l'utilisateur des données à décider si les données conviennent à l'utilisation prévue. Nous avons ensuite cliqué sur l'hyperlien "Latitude".

(Image de la définition des métadonnées de latitude)

Cliquer sur l'hyperlien "Latitude" mène à ce renseignement. Il s'agit d'autres métadonnées de référence pour aider l'utilisateur à comprendre la façon dont la latitude a été mesurée et pour l'informer de la qualité des données de localisation. La latitude et la longitude sont une classification type pour l'indication d'emplacements.

(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada en mettant l'accent sur l'onglet "Données sur les normales".)

Ensuite, nous sommes revenus à cette page web et nous avons cliqué sur l'onglet "Données sur les normales".

(Image du résultat de la recherche « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » sur le site Web du Gouvernement du Canada, en mettant l'accent sur les sous-sections de l'onglet Données sur les normales intitulée « Télécharger des données » et « Données connexes ».)

Cliquer sur l'onglet "Données sur les normales" mène à cette page. Le paragraphe sous les onglets contient d'autres métadonnées de référence, qui décrivent la façon dont les calculs ont été effectués et qui renferme d'autres renseignements sur la qualité des données. Les données sont offertes gratuitement dans les formats CSV et XML, qui sont tous deux des normes courantes relatives au format des fichiers de données. Cette page Web contient également des hyperliens vers d'autres métadonnées connexes.

(Image du fichier CSV du « 1981 - 2010 climate normals and averages for the Saskatoon Water TP » du site Web du gouvernement du Canada mettant l'accent sur les titres de table de la CSV, les abréviations normalisées des provinces, les méthodes de numérotation et la nomenclature des dates.)

Nous avons téléchargé les données en format CSV (ou variables séparées par des virgules). Nous en voyons ici un petit segment. La colonne de gauche affiche explicitement des métadonnées dont le but est d'aider les utilisateurs à comprendre et à utiliser ces microdonnées. La province est SK, l'abréviation normalisée de Saskatchewan. Les valeurs négatives sont indiquées par le signe moins, ce qui est une norme de données courante. Le format des dates est en "aaaa/jj", ce qui est une norme de données assez courante pour les dates.

Exemple: récapitulatif

Revoyons l'exemple. Le producteur de données a recueilli les microdonnées climatiques les a traitées, a appliqué des normes en matière de données pour les dates et les nombres négatifs et a utilisé une classification type pour la latitude et la longitude. Il a utilisé les microdonnées pour créer des produits de données. Dans cet exemple, nous avons vu un diagramme, un graphique et un ensemble de données téléchargeables. Le producteur de données a également créé des métadonnées décrivant tout ce qu'il a fait et il a choisi stratégiquement l'endroit où afficher les métadonnées dans les produits de données afin que l'utilisateur de données sache de façon intuitive et transparente où trouver l'information dont il a besoin. Dans cet exemple, l'utilisateur de données parcourt les produits de données. Les métadonnées lui font découvrir des renseignements sur la qualité des données, les méthodes qui ont été utilisées et les normes en matière de données qui ont été appliquées.

Vérification des connaissances

(Image des immatriculations de véhicules automobiles neufs au Canada dans les site web du Gouvernement du Canada. En mettant l'accent sur les titres des colonnes, les superscripts et les références.)

L'exemple nous a montré à repérer les métadonnées et les normes en matière de données. À vous de jouer maintenant. Ce que vous voyez à l'écran est un tableau de données sur les immatriculations des véhicules automobiles neufs. Maintenant, arrêtez la vidéo et voyez combien d'exemples de métadonnées vous pouvez trouver à l'écran. Repartez la vidéo pour voir nos réponses. Il a des étiquettes sur les lignes et les colonnes du tableau. Il s'agit d'un exemple de métadonnées descriptives. La police est assez petite, mais on voit après les mots "Autres types de carburant" un hyperlien sous forme d'exposant. Si vous pouviez appuyer dessus, vous verriez apparaître un message contextuel indiquant quels sont les autres types de carburant. Il s'agit d'un autre exemple de métadonnées descriptives. Sous le tableau se trouve une mine d'or de renseignements connexes. Si vous pouviez cliquer sur l'un des hyperliens, vous y trouveriez des métadonnées de référence sur la source, les méthodes et la qualité des données.

Récapitulatif des points clés

Les normes en matière de données sont les règles utilisées pour normaliser la façon de décrire, de représenter et de structurer les données. Les normes en matière de données permettent d'utiliser plus facilement les données. Les métadonnées sont des données qui fournissent des renseignements sur d'autres données. Les métadonnées facilitent l'utilisation des données. L'utilisation et le partage des normes en matière de données et des métadonnées facilitent l'utilisation et le partage des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS

ISBN : 978-0-660-69423-8

Date de diffusion : 29 avril 2022

Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS

(Le symbole de Statistique Canada, le mot-symbole « Soutien au contrôle de la confidentialité: Dominance et homogénéité avec SAS » apparaissent à l'écran.)

Bienvenue à la série de formation de l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de la confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles.

Aujourd'hui, nous allons vous montrer un exemple permettant d'utiliser les tests d'homogénéité et de dominance, incluant des tests de NK et P-pourcent pour la variable de revenu en dollar avec SAS. Nous utiliserons un échantillon factice du recensement de 2016 qui ne contient aucun cas réel.

La dominance, c'est lorsque la majeure partie de la contribution à la statistique provient d'une ou de quelques observations (sur la base d'observations non pondérées). Les règles de N, K et P% font partie des règles de dominance. Quant à la règle d'homogénéité, elle vise à éviter la divulgation de statistiques lorsque les répondants occupent une étendue étroite de valeurs (peut-être parce qu'elles ont été imputées du même répondant).

Nous avons choisi le recensement pour cet exemple, mais d'autres enquêtes de Statistique Canada les exigent également. Pour les chercheurs des CDR, Il peut être important de savoir comment réaliser ces tests. En effet, la sortie de résultats de statistiques descriptives ou de modèles impliquant la variable de revenu continue en dollar exige du chercheur qu'il joigne à sa demande de confidentialité des documents de soutien.

Mentionnons qu'il s'agit d'un exemple de tests pour faciliter la vie aux chercheurs. Il existe d'autres exemples de ces programmes en ligne. Cette version-ci est facilement accessible aux chercheurs des CDR. Si vous n'êtes pas sûrs de leur emplacement, demandez-le à votre analyste. La présente version se présente comme un programme SAS où il suffit essentiellement d'entrer les variables d'intérêt dans la macro, incluant la variable de revenu, et de l'exécuter.

D'entrée de jeu, sachez qu'il est possible d'importer une base de données dans un autre langage informatique que SAS dont SPSS et de le transformer en base de données SAS. De plus, il faut savoir qu'il existe d'autres outils pour réaliser les tests avec les logiciels STATA et R disponibles dans les CDR. Ensuite, il suffit de déterminer quelles variables seront introduites dans la macro SAS. Pour les fins de l'exercice, nous pouvons prendre l'exemple d'un chercheur qui demande la sortie d'un tableau croisé de de la moyenne du revenu (qui est une variable continue) par province et par sexe (deux variables catégorielles). Ensuite, on introduit sur la deuxième ligne notre variable de revenu.

Nous utilisons ici la variable totinc. Enfin, il faut donner une instruction à SAS quant à l'emplacement du fichier de données qui nous intéresse. Le reste de la procédure suit. Pour la démonstration, je vais soumettre la partie du test de dominance et d'homogénéité. Vous obtiendrai alors un tableau de sortie de résultats. On retrouve certains indicateurs permettant de voir si chacune des catégories passent ou non les tests. Ici on voit qu'aucun des tests n'a échoué par la mention 0. Aucun problème d'homogénéité et de dominance n'a été détecté. Une valeur de 1 aurait indiqué qu'une catégorie a échoué le test. Le chercheur devrait regrouper les variables pour augmenter les effectifs dans la catégorie en question.

Ce document peut être joint aux résultats qui font l'objet d'une demande de divulgation, sous forme de feuille Excel, par exemple. Le code a exécuté l'envoi d'un fichier Excel à l'emplacement que nous avons indiqué. Il se retrouve sur le Bureau, dans un Dossier, mais vous pouvez choisir l'emplacement de votre choix. Maintenant, on revient au programme pour exécuter le code des tests de N, K, et P-pourcent. Encore une fois, on sélectionne le code à exécuter. Le code génère des fichiers de données nécessaires au calcul des tests. Comme avec le test précédent, le tableau qui se trouve dans la fenêtre de sortie de données indiquent zéro.

On peut conclure qu'aucun problème de N, K et P-pourcent n'a été détecté, et qu'il n'est donc pas nécessaire de regrouper de catégories. Ces résultats peuvent être joints comme document de soutien à la demande de confidentialité. Merci de votre attention! Si vous avez des questions, veuillez contacter le personnel local du CDR ou envoyez un courriel à statcan.maddatadevteam-damequdevdonnees.statcan@canada.ca.

(Le mot-symbole « Canada » s'affiche.)

Soutien au contrôle de la confidentialité: Arrondissement des proportions avec Rounder - une application R Shiny

ISBN : 978-0-660-69431-3

Date de diffusion : 27 avril 2022

Soutien au contrôle de la confidentialité: Arrondissement des proportions avec Rounder - une application R Shiny

(Le symbole de Statistique Canada, le mot-symbole « Canada » et le titre : « Soutien au contrôle de la confidentialité: Arrondissement des proportions avec Rounder - une application R Shiny » apparaissent à l'écran.)

Bienvenue à la série de formation sur l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles. Le code qui prend en charge l'application de Rounder est disponible. Demandez à votre analyste si vous n'êtes pas sûr de savoir où le trouver. Dans cette vidéo, je vais utiliser un fichier de microdonnées à grande diffusion pour montrer les différentes fonctionnalités de l'outil d'arrondissement L'application sera utile pour ceux qui ont besoin de valeurs arrondies, de valeurs pondérées, de fréquences randomisées et pour vérifier si les fréquences atteignent la taille de cellule minimum. Avant de montrer l'application, nous allons configurer l'outil dans nos dossiers et dans R. L'étape 1 est la localisation et l'extraction du module d'application Rounder, qui peut être placé dans le même répertoire que le dossier zippé, dans ce cas-ci, Documents. Après l'extraction, nous allons aller dans le dossier et ouvrir le fichier R appelé Rounder App. Maintenant, nous devons changer le chemin afin qu'il puisse trouver les fichiers requis. Donc, de retour dans l'explorateur de fichiers, nous devons cliquer à droite sur le dossier extrait, sélectionner et copier le chemin que nous allons coller dans l'objet chemin entre les guillemets en s'assurant de modifier les barres obliques inversées par des barres obliques avant et se débarrasser de la partie Rounder du chemin, parce que celle-ci est déjà incluse dans la fonction « libpaths » en dessous. Enfin, nous devons mettre en surbrillance et exécuter tout le code pour que l'application s'ouvre. Ceci est l'application Rounder, c'est l'extrémité avant du module Vetter pour studio R. Rounder est un outil interactif pointer-cliquer qui permet de préparer les documents de soutien pour les proportions, les fréquences, et les moyennes. Cette application R Shiny peut être utilisée pour générer des fréquences pondérés et effectuer des arrondissements aléatoires. Dans cette vidéo, je vais vous montrer comment il fonctionne. En ce moment, j'ai l'application ouverte dans mon navigateur, mais elle fonctionne complètement hors ligne. La première chose que nous allons faire est d'importer un fichier de données. Les types pris en charge sont Stata, SPSS, SAS et csv. Nous allons utiliser l'ESG qui est le fichier à grande diffusion de l'enquête sociale générale. Nous pouvons charger le tout, mais afin de gagner du temps, nous recommandons fortement de sélectionner les variables dont vous avez besoin. Pour cet exemple, j'utiliserai le lieu de naissance canadien, l'achat de plats à emporter, le revenu familial et l'âge du père du répondant, puis nous allons cliquer ici. Nous voyons un résumé de nos données, ce qui signifie qu'il est chargé avec succès. Toutes les fonctions que nous allons voir sont ici. Pour vérifier les proportions, nous allons mettre deux variables. Nous allons passer en revue certaines de ces colonnes. D'abord, nous verrons nos deux variables et ensuite nous verrons une colonne d'avertissement ici. Cet avertissement apparaîtra si votre numérateur est en dessous du seuil de taille de cellule minimale ou si la différence entre votre numérateur et votre dénominateur est inférieure à ce même seuil. Cela est très utile, car il peut être adapté aux seuils minimaux spécifiques des différentes enquêtes. Ici, nous voyons l'arrondissement aléatoire ainsi que le nombre aléatoire ici, nous voyons le numérateur, le numérateur arrondi, la différence entre les deux, le dénominateur le dénominateur arrondi et la différence entre les deux. Et si je fais défiler… nous avons la proportion et la proportion arrondie qui seront utiles aux chercheurs. Et maintenant, ici, nous avons de nombreux paramètres que nous pouvons modifier. Nous pouvons ajouter la pondération et maintenant nous allons voir une nouvelle colonne qui a été ajoutée qui a nos valeurs non pondérées ainsi que nos valeurs pondérées, y compris les proportions pondérées. Ici, nous pouvons basculer entre l'arrondissement conventionnel et aléatoire ainsi que changer le nombre aléatoire. Ici, nous pouvons adapter notre seuil de taille de cellule minimale spécifique à l'enquête et nous verrons que si nous abaissons la valeur, notre avertissement disparaîtra car maintenant il y a suffisamment de répondants dans notre catégorie, et si on le remet à 5 on verra l'avertissement revenir. Ici, nous pouvons changer notre base d'arrondissement et cela affectera nos sorties arrondies, nous pouvons changer le nombre de chiffres à afficher. Nous pouvons garder nos valeurs manquantes ou nous pouvons les supprimer et nos proportions changeront en conséquence. Les fonctionnalités suivantes sont disponibles pour tous les onglets et sont affiché en mode Exportation. Vous pouvez copier ce qui est montré dans le tableau dans votre presse-papier ou vous pouvez télécharger des sorties complètes qui incluront même les sections qui ne sont pas affichées sur le tableau et cela vous donnera la possibilité d'enregistrer le fichier. Voici à quoi ressemble le fichier une fois que vous l'ouvrez et nous verrons que c'est un tableau bien ficelé avec toutes nos colonnes et l'avertissement que nous avons vu précédemment. Ensuite, nous pouvons vérifier les fréquences ce qui est très similaire à vérifier les proportions. Cela nous donnera essentiellement les fréquences de chaque catégorie ainsi que le nombre arrondi que nous pouvons changer et nous verrons nos données dans le tableau ici. Vérifier les valeurs continues nous permettra de vérifier nos variables continues. Supposons que nous sélectionnons une variable continue il nous donnera notre N total, nos N manquants, nos N valides, donc c'est le total moins les valeurs manquantes et notre N valide arrondi qui est déterminé à partir de la base d'arrondissement ici. Les paramètres sont similaires à ce que nous avions dans les sections précédentes et la dernière caractéristique est l'arrondissement aléatoire, ce qui est idéal pour les tailles d'échantillon de modèle. Nous pouvons entrer des valeurs ici et ensuite, lorsque nous cliquons sur arrondissement aléatoire, nous verrons que nous obtenons nos valeurs arrondies ici, ainsi que la différence entre nos valeurs arrondies et la valeur réelle nous avons le nombre aléatoire généré pour l'arrondissement et si vous voulez reproduire vos résultats, vous pouvez entrer manuellement le nombre aléatoire. Ceci était une brève démonstration de l'application Rounder et nous espérons cela rendra le processus de contrôle de la confidentialité un peu plus facile. Merci de votre attention et passez une excellente journée.

(Le mot-symbole « Canada » s'affiche.)