Statistique 101 : Explorer les mesures de la dispersion - Transcription
(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Exploration des mesures de dispersion ».)
Statistique 101 : Exploration des mesures de dispersion
Comment décrire les données en quelques termes simples? Deux caractéristiques très importantes d’un ensemble de données sont l’emplacement du centre, ou du point d’équilibre, et la taille de l’étendue.
Bref, si nous tenions les données entre nos mains, seraient-elles concentrées en un seul endroit, comme une balle de golf, ou dispersées un peu partout, comme de la barbe à papa? On appelle le point d’équilibre des données la « tendance centrale ». Mais la taille de la région couverte par les données et son étendue s’appellent la « dispersion ». Dans cette vidéo, nous découvrirons le concept de dispersion. Toutefois, comme condition préalable à cette vidéo, nous vous recommandons fortement de regarder d’abord notre vidéo intitulée « Explorer les mesures de la tendance centrale », car certains des concepts qui y sont présentés, dont la moyenne, seront abordés aujourd’hui.
Objectifs d'apprentissage
À la fin de cette vidéo, vous devriez avoir une compréhension de base des mesures de dispersion comme l’étendue, l’intervalle interquartile et l’écart-type.
Elle s’adresse à ceux et celles qui cherchent à acquérir une compréhension de base du concept de la dispersion, aussi appelé variabilité, de sa signification et de certains concepts connexes utilisés pour l’analyse des données.
Mesures de dispersion
En statistique, la dispersion décrit l’étalement des valeurs d’une distribution. En d’autres mots, à quel point sont-elles étalées ou comprimées.
Imaginez que vous attendez un colis par la poste. Habituellement, le courrier arrive à n’importe quel moment entre 8 h et 16 h, ce qui signifie que si vous voulez être là quand il arrive, vous pouvez passer toute la journée à attendre à la maison. Toutefois, si vous savez que le courrier arrive habituellement entre 8 h et 10 h, vous avez une meilleure idée du moment de la livraison. Les mesures de dispersion donnent également une indication de la précision avec laquelle les mesures de la tendance centrale, comme la moyenne, décrivent l’étalement des valeurs dans l’ensemble de données. C’est utile lorsqu’on utilise des données-échantillons pour tirer des conclusions sur les comportements ou les caractéristiques de l’ensemble de la population.
Les mesures de dispersion sont également importantes, car elles nous aident à prendre des décisions éclairées sur la façon d’analyser les données et indiquent leur degré d’incertitude.
Étapes du cheminement des données
(Texte à l’écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)
(Diagramme du Cheminement des données : Étape 1 - définir, trouver et recueillir ; Étape 2 - explorer, nettoyer et décrire ; Étape 3 – analyser et modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)
Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l’histoire qu’elles racontent, en passant par le nettoyage, l’exploration, la description, la compréhension et l’analyse des données.
Étape 2 : Explorer, nettoyer et décrire
(Diagramme du Cheminement des données avec l'Étape 2 - Explorer, nettoyer et décrire, mise en évidence.)
L’exploration des mesures de dispersion fait partie de l’étape d’explorer, nettoyer et décrire le cheminement des données.
De quoi à l'air l'étalement des données?
(Graphique représentant le nombre de livraisons de pizza en fonction des délais de livraison sous une forme de cloche nommée « une distribution normale ».)
Avant de commencer, jetons un coup d’œil à certaines façons courantes dont les données sont étalées ou regroupées. La distribution des données est souvent représentée à l’aide de diagrammes de dispersion ou d’histogrammes. Leur forme montre l’étalement des valeurs de l’ensemble de données. Les données peuvent être représentées graphiquement en forme de cloche symétrique, comme on peut le voir ici dans le diagramme de temps de livraisons de pizza, où la plupart des valeurs sont regroupées au milieu, entre 20 et 40 minutes, tandis que certaines livraisons prennent moins de temps (p. ex. 15 minutes) et d’autres en prennent plus (p. ex. 40 minutes). C’est ce qu’on appelle une distribution normale, et on en parlera davantage plus tard.
(2 graphiques distincts à gauche et à droite représentant une distribution normale qui est biaisée positivement et négativement, respectivement.)
Si l’ensemble de données n’est pas symétrique, mais comporte plutôt plus de valeurs situées à gauche ou à droite du diagramme, la forme de la cloche devient asymétrique, créant une queue plus longue d’un côté ou de l’autre. Un ensemble de données est considéré comme asymétrique dans la direction de la queue la plus longue. Lorsque les données sont positivement asymétriques, il y a beaucoup de valeurs situées du côté gauche ou « inférieur » du diagramme, créant une queue qui s’étire vers la droite. Lorsque les données sont négativement asymétriques, nous voyons un plus grand nombre de valeurs situées à l’extrémité supérieure du diagramme, et la queue s’étire vers la gauche ou la partie inférieure du diagramme.
Mesures de dispersion
(Organigramme présentant les trois mesures communes de dispersion : Étendue, Intervalle interquartile et écart-type.)
Revenons maintenant à nos mesures de dispersion… Pour déterminer la dispersion, trois mesures couramment utilisées sont l’étendue, l’intervalle interquartile et l’écart-type. Les diapositives suivantes examinent chacune d’elles individuellement.
Étendue
L’étendue, c’est la différence entre la plus grande valeur et la plus petite valeur dans un ensemble de données. Elle fournit une mesure rapide et simple de l’étalement de ces valeurs. Il est préférable de l’utiliser avec des données qui n’ont pas de valeurs extrêmes. Comme notre livraison de colis. Si nous savons que le colis sera livré entre 10 h et midi, nous pouvons en toute confiance planifier d’autres activités pour la journée. Ce genre d’information est très utile. Cependant, si on nous dit que le colis arrivera entre 8 h et 20 h, eh bien, cette information est-elle réellement utile? Seriez-vous sûr de pouvoir faire une course rapide durant la journée sans manquer votre livraison? Probablement pas.
Sachant que l'étendue est la différence entre la valeur la plus grande et la plus petite, nous allons l'exprimer sous forme d'équations. L'étendue est simplement la plus grande valeur moins la plus petite. Dans cet exemple, la plus petite valeur est 1 et la plus grande est 7 ainsi l'étendue est 7 moins 1, c'est-à-dire 6. Ici, l'étendue est une mesure appropriée, car les points de données sont rapprochés les uns des autres.
Exemple
(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 80 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)
Prenons un exemple. Ici, nous avons les notes d’examen d’un groupe de 12 étudiants. La note la plus élevée est de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la plus faible, qui est de 80 %. L’étendue est donc de 15 %, ce qui est assez petit. L’un des avantages d’utiliser l’étendue comme mesure de la dispersion, c’est qu’elle est facile à calculer.
Exemple (suite)
(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiant | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)
Maintenant, prenons un exemple semblable, mais avec une grande différence. Ici, nous avons des notes d’examen du même groupe de 12 étudiants. La note la plus élevée est encore une fois de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la moins élevée, qui est de 10 %. On obtient ainsi une étendue de 85 %. Il s’agit d’un étalement très vaste. Après un examen plus poussé, on constate qu’un étudiant, Jean, a obtenu un piètre résultat à l’examen, alors que tous les autres ont très bien réussi. Cela fait de la note de Jean une valeur aberrante, car 11 élèves sur 12 ont obtenu une note entre 85 % et 95 %. Sa note à elle seule est la cause principale de ce grand étalement. Et comme l’étendue est une comparaison de la valeur la plus faible par rapport à la valeur la plus élevée, on voit ici comment il peut être une mesure trompeuse de la dispersion lorsque les données comportent des valeurs aberrantes.
Intervalle interquartile
L’intervalle interquartile est semblable à l’étendue. Il s’agit également de la distance entre la valeur la plus élevée et la valeur la plus faible, mais seulement sur le 50 % central de la distribution globale. Il est donc un peu plus stable que l’étendue, car il ne tient pas compte des quartiles inférieur et supérieur des données, ce qui atténue l’incidence des valeurs aberrantes.
Bien que l’intervalle interquartile soit légèrement plus stable que l’étendue, il est important de savoir que lorsqu’on l’utilise comme mesure de la dispersion, on perd des détails sur ce qui se passe aux extrémités de la distribution.
Comment déterminer l'intervalle interquartile?
(Texte à l’écran : Ensemble de données = 3, 1, 8, 5, 3, 6, 4, 8, 6, 7)
Pour déterminer l’intervalle interquartile, il faut d’abord ordonner les données, de la valeur la plus faible à la valeur la plus grande. Après avoir dressé une liste en ordre croissant des dix chiffres qui composent l’ensemble de données sur cette diapositive, et en utilisant les connaissances que vous avez acquises dans la vidéo sur les mesures de la tendance centrale, vous trouveriez la médiane de l’ensemble de données complet, soit la valeur de l’élément central quand les données sont ordonnées de la plus basse à la plus haute. Dans ce cas-ci, comme il y a un nombre pair d’observations, on additionne les deux chiffres centraux et on les divise par deux, ce qui donne 5,5. En calculant la médiane, on peut diviser les données en deux moitiés, ce qui nous permet de passer à l’étape suivante…
Ensuite, on calcule de nouveau la médiane, mais cette fois-ci pour les moitiés supérieure et inférieure des données, ce qui donnerait trois pour la moitié inférieure et sept pour la moitié supérieure. Ensuite, on soustrait la médiane inférieure de la médiane supérieure. L’intervalle interquartile, c’est la différence entre ces deux chiffres, qui dans ce cas équivaut à quatre. Il est important de noter que cette méthode fonctionne bien pour des listes de valeurs simples et courtes. Mais pour les ensembles de données complexes, on peut facilement obtenir les Q1 et Q3 à l’aide de logiciels comme Excel.
Vérification des connaissances
(Tableau présentant le temps qu'il faut pour livrer la pizza pour chaque ménage. Les colonnes, de gauche à droite, s'intitulent : Ménage | Temps de livraison de la pizza en minutes. La première ligne à la dernière ligne contient ce qui suit : 1 | 15 ; 2 | 20 ; 3 | 25 ; 4 | 30 ; 5 | 30 ; 6 | 35 ; 7 | 35 ; 8 | 40 ; 9 | 45 ; 10 | 50.)
À vous maintenant. Disons que vous avez commandé une pizza et qu’on vous dit qu’il faudra environ 30 minutes pour la livraison. Disons maintenant que neuf autres ménages ont fait de même. Dans ce cas-ci, qu’entend-on par « environ 30 minutes »? Nous avons ici un tableau qui montre exactement combien de temps chacun des dix ménages a dû attendre pour recevoir sa pizza. Pour mettre vos connaissances à l’épreuve jusqu’à maintenant, mettez la vidéo sur pause et essayez de calculer l’étendue de temps de livraison, en minutes, à laquelle chaque ménage devrait s’attendre. Calculez ensuite l’intervalle interquartile. Mettez la vidéo en pause maintenant et relancez-la une fois que vous êtes prêt à vérifier vos réponses. Avez-vous obtenu 35 pour l’étendue et 15 pour l’intervalle interquartile? Si oui, bravo! Nous pouvons maintenant passer à notre prochaine mesure de la dispersion : l’écart-type.
Écart-type
(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 25 % ; 3 | Thomas | 55 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)
Jusqu’à présent, cette vidéo a expliqué comment l’étendue et l’intervalle interquartile peuvent nous donner une bonne idée de la valeur médiane ou moyenne d’un ensemble de données. Mais ils ne nous disent pas à quel point le reste des valeurs de l’ensemble de données sont proches de cette médiane. Or, il peut s’agir d’information très importante. Par exemple, revenons à notre classe d’étudiants. Lorsque l’enseignante additionne la note de tout le monde, elle obtient un total de 907. Et lorsqu’elle divise ce nombre par le nombre de notes, soit 12, elle obtient une note moyenne de 76 %. 76 % pourrait être une bonne note, mais est-ce que tout le monde performe à ce niveau? Dans une classe de 12, il n’est pas difficile de constater que certains éprouvent des difficultés. Mais qu’en est-il d’une classe de 200?
(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé, respectivement.)
L’écart-type nous indique la dispersion d’un groupe de valeurs par rapport à la moyenne. Il peut être calculé rapidement et facilement à l’aide de logiciels comme Microsoft Excel, et il est considéré comme la plus solide des trois mesures de dispersion. C’est donc la mesure la plus souvent utilisée dans les analyses statistiques. Un petit écart-type signifie que la plupart des nombres sont proches de la moyenne. Ainsi, lorsqu’une enseignante doit déterminer le rendement de chacun de ses étudiants, un petit écart-type lui indiquerait que la majorité affiche un rendement semblable. Un grand écart-type lui dirait que tout le monde n’a pas le même rendement. Ainsi, si la moyenne de la classe était élevée, un écart-type élevé signifierait que certains étudiants éprouvent encore des difficultés.
(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé avec leurs moyens restant au centre de la distribution, respectivement.)
Mais dans les situations où l’on se contente d’observer et d’enregistrer des données, un écart-type élevé n’est pas nécessairement une mauvaise chose ; il reflète simplement une grande variabilité dans le groupe à l’étude. Par exemple, si on examine tous les salaires au sein d’une grande entreprise, des stagiaires au chef de la direction, l’écart-type peut être très élevé. Par contre, si on réduit le groupe en se concentrant uniquement sur les stagiaires, l’écart-type est plus petit, car les personnes de ce groupe ont des salaires semblables. Le deuxième ensemble de données n’est pas meilleur, il a tout simplement moins de variabilité.
Écart-type et distribution normale
La distribution normale est un exemple de distribution qui pourrait vous aider à mieux comprendre le concept d’écart-type. Dans le contexte des données, une distribution est un modèle mathématique qui reproduit la façon dont les points de données sont distribués ou dispersés. On visualise souvent la distribution normale comme une courbe en forme de sommet ou de cloche. Elle représente la présence de quelques points de données petits et volumineux respectivement sur les côtés gauche et droit de la courbe, alors que la plupart des points de données se trouvent quelque part au centre, où se trouve le sommet. Dans la distribution normale, les points de données dessinent une forme symétrique qui ressemble à la courbe qu’on voit sur cette diapositive, que l’on appelle une courbe en cloche.
Distribution normale
La distribution normale est symétrique, ce qui fait que la moyenne, la médiane et le mode sont les mêmes. Ceux-ci sont représentés par la ligne le long du centre de la courbe en cloche.
(Graphique représentant une distribution normale avec la moyenne, la médiane et le mode au sommet de la distribution.)
Pour la distribution normale standard, la méthode de mesure de la dispersion que nous appelons l’écart-type, ou « ET » sur cette diapositive, a des propriétés très intéressantes. Elle nous indique où nous pouvons nous attendre à trouver les points de données dans la distribution. La théorie de l’échantillonnage et la distribution normale nous indiquent qu’environ 68 % des valeurs de données dans l’ensemble de la population se situeront entre la moyenne plus ou moins 1 fois l’écart-type. De même, environ 95 % des valeurs de données correspondront à la moyenne plus ou moins 2 fois l’écart-type, et environ 99,7 % des valeurs de données correspondront à la moyenne plus ou moins 3 fois l’écart-type.
Résumé des principaux points
Les mesures de dispersion fournissent une indication quantitative de la mesure dans laquelle les valeurs de données sont dispersées ou regroupées.
Dans cette vidéo, nous avons examiné trois mesures courantes de la dispersion : l’étendue, l’intervalle interquartile et l’écart-type. Et nous avons appris que parfois, les données peuvent être dispersées en forme de cloche, la plupart des valeurs étant regroupées au milieu. C’est ce qu’on appelle souvent la distribution normale.
(Le mot-symbole « Canada » s'affiche.)