Statistique 101 : explorer les mesures de la tendance centrale

Numéro de catalogue : 892000062020002

Date de diffusion : le 3 mai 2021 Mise à jour : le 25 november 2021

Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
  • Raconter une histoire
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
11:34
Coût
Gratuit

Voir la vidéo

Statistique 101 : explorer les mesures de la tendance centrale - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Statistique 101 : explorer les mesures de la tendance centrale")

Statistique 101: Explorer les mesures de la tendance centrale

Comment décrire les données en quelques termes simples? L'emplacement du centre, ou du point d'équilibre, et l'étalement des données constituent deux caractéristiques très importantes d'un ensemble de données. Essayez de concevoir la chose de la manière suivante: si vous tenez les données entre vos mains, seraient-elles fortement concentrées dans un même endroit, comme une balle de golf, ou plutôt dispersées comme de la barbe à papa? Ce que l'on appelle la dispersion correspond à la taille de la région couverte par les données ou, si vous préférez, la variabilité ou l'étalement des données. La tendance centrale se situe là où se trouve le centre des données. Dans cette vidéo, nous allons explorer le concept de tendance centrale. Pour en savoir plus sur la dispersion, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

Objectifs d'apprentissage

À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode. Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Texte à l'écran: Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, soit d'abord la collecte, l'exploration, l'épuration, la description et la compréhension des données, puis leur analyse, afin de pouvoir ultimement communiquer aux autres ce que révèlent ces données.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec une attention sur l'Étape 2 - Explorer, nettoyer et décrire.)

L'examen des mesures de la tendance centrale correspond à l'étape d'exploration, d'épuration et de description des données.

Mesures de la tendance centrale

(Graphique démontrant une distribution biaisée à droite où le mode est situé au sommet. À gauche du sommet se trouve la médiane et la moyenne, respectivement.)

La première chose à faire est de se demander ce que signifie exactement l'expression "tendance centrale". Les mesures de la tendance centrale décrivent la valeur la plus représentative des données sous la forme d'un seul nombre. C'est ce qu'on appelle aussi le point d'équilibre d'un ensemble de données qu'on représente habituellement comme étant la moyenne, la médiane ou le mode. Voyons un peu comment, ces trois mesures sont calculées.

La moyenne

La moyenne correspond à la moyenne arithmétique de toutes les valeurs d'une variable qui sont présents dans un ensemble de données. On la calcule en faisant la somme de toutes les valeurs, puis en divisant cette somme par le nombre de valeurs.

Calcul de la moyenne

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 3, 4, 8, 5, 7, 3.)

Utilisons à titre d'exemple cet ensemble de données. Pour calculer la moyenne, nous faisons d'abord la somme de toutes les valeurs. Nous divisons ensuite cette somme par le nombre de valeurs de l'ensemble. Dans cet exemple, l'ensemble de données contient 6 valeurs. La somme de ces 6 valeurs est égale à 30. Pour calculer la moyenne, nous divisons cette somme par le nombre de valeurs dans l'ensemble de données, soit 30 divisé par 6. La moyenne est donc égale à 5.

Il faut souligner que la présence de valeur aberrantes, c'est à dire des valeurs extrêmement élevées ou extrêmement faibles comparativement aux autres valeurs, peut influer sur la moyenne. En effet, une valeur extrêmement élevée, si elle est présentée dans les données, peut faire augmenter la moyenne au point où celle-ci n'est plus représentative des données prises dans l'ensemble. Vous pouvez voir que la dernière valeur sous cette diapositive est 33, comparativement à 3 à la diapositive précédente. Cette valeur différente peut être exacte, mais elle peut aussi être erronée. Nous ne pouvons pas le savoir. Quoi qu'il en soit, il convient de noter l'effet de cette valeur aberrante sur la moyenne: la somme des 6 valeurs est maintenant égale à 60, et la valeur correspondant à la moyenne double, passant de 5 à 10. Il est donc important de vérifier s'il y a des valeurs aberrantes avant de décider d'utiliser la moyenne pour mesurer la tendance centrale.

La médiane

La médiane est une autre mesure de la tendance centrale. Il s'agit de la valeur centrale lorsque toutes les valeurs sont ordonnées de la plus basse à la plus haute.

Calcul de la médiane: pour un nombre impair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33.)

Il est très simple de calculer la médiane lorsque l'ensemble de données contient un nombre impair de valeurs. Nous ordonnons d'abord les valeurs de la plus basse à la plus élevée. Nous comptons ensuite les valeurs, et nous trouvons celles qui se situent au milieu, de sorte que la moitié des valeurs sont plus élevées et l'autre moitié, moins élevées. Cette valeur se situant au milieu est la médiane. Dans cet exemple, la médiane est 9.

Calcul de la médiane: pour un nombre pair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33, 35.)

Examinons maintenant un ensemble de données qui contient un nombre pair de valeurs. Nous plaçons les valeurs en ordre ascendant, nous comptons le nombre de valeurs et repérons les deux valeurs qui se situent au milieu, de sorte qu'il y ait un nombre égal de valeurs plus élevées et de valeurs plus basses. Nous additionnons ensuite ces deux valeurs, puis nous les divisons par deux. Dans cet exemple, la médiane est encore une fois 9.

Valeurs extrêmes et médiane

(Deux séries de nombres qui composeront l'ensemble de données pour lequel les nombres pour l'ensemble de données a sont 5, 6, 6, 7, 8, 9, 9, 12, 15, 21, 28, 33 et les nombres pour l'ensemble de données b sont 5, 6, 6, 7, 8, 9, 9, 9, 12, 15, 21, 21, 28, 28, 333.)

Outre les méthodes servant à les calculer et à les établir, l'une des principales différences entre la moyenne et la médiane tient à l'effet des valeurs extrêmes. Contrairement à ce qui est le cas pour la moyenne, les valeurs extrêmes n'ont pas la même incidence sur la médiane. Prenons l'ensemble de données A et B, qui sont identiques à l'exception de la valeur la plus élevée, qui passe de 33 dans le premier ensemble de données à 333 dans le second. On constate que, même si seul l'ensemble de données B contient une valeur aberrante, la médiane demeure égale à 9 dans les deux ensembles de données. Même si l'ensemble des données B contenait une ou deux variables aberrantes supplémentaires, la médiane demeurerait 9, parce qu'il s'agit de la valeur milieu dans l'ensemble de données.

Le mode

La troisième mesure de la tendance centrale dont nous allons parler aujourd'hui est le mode. Le mode est la valeur observée le plus souvent dans un ensemble de données. Autrement dit, il s'agit du point des données le plus fréquent dans un ensemble de données. Le mode est la mesure la plus simple à déterminer. La présence de valeurs extrêmes n'a aucune incidence sur lui, car elle ne modifie pas la ou les valeurs les plus fréquemment observées.

Calcul du mode

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 6, 3, 9, 6, 6, 5, 9, 3.)

Pour trouver le mode, comptez le nombre de fois où chaque valeur apparaît. La valeur observée le plus souvent est le mode. Il convient de noter deux choses intéressantes au sujet de cette mesure de la tendance centrale: A) étant donné que le mode correspond à la valeur observée le plus souvent dans un ensemble de données, si toutes les valeurs ont le même nombre d'occurrences, il n'y a pas de mode. B) Si le plus grand nombre d'occurrences est le même pour plus d'une valeur, il y a plus d'un mode. Dans un tel cas, le mode ne sera peut-être pas une mesure appropriée de la tendance centrale.

Question

C'est maintenant à vous de jouer. Examinez les chiffres suivants: 1, 1, 1, 1, 1, 4, 5. Prenez quelques instants pour déterminer la moyenne, la médiane et le mode pour cet ensemble de chiffres. Les réponses apparaîtront sur la diapositive suivante.

Réponse

Pour calculer la moyenne, nous additionnons d'abord les chiffres 1+1+1+1+1+4+5=14. Il y a 7 chiffres, donc la moyenne est égale à 14 divisé par 7, ce qui donne 2. La médiane est la valeur se situant au milieu de l'ensemble de données. Par chance, les chiffres sont déjà en ordre ascendant. Il y a un 1 au milieu avec trois 1 à gauche, et les chiffres 1, 4 et 5 à droite. La médiane est donc 1. Il y en a cinq 1 et seulement un 4 et un 5. Par conséquent, le mode est aussi 1. Un certain nombre de progiciels, dont Excel, ont des fonctions intégrées pour calculer la moyenne, la médiane et le mode. La médiane se situe souvent entre la moyenne et le mode, mais ce n'est pas toujours le cas, comme le montre cet exemple.

Conseils à retenir - Moyenne, médiane et mode

(Une note figurant au bas de la diapositive indique qu'il peut être utile d'examiner plus d'une mesure de tendance centrale.)

Ces conseils ont pour but de vous aider à déterminer quelle mesure de la tendance centrale utiliser dans différentes situations. D'abord, il faut savoir que lorsque les données ne sont pas numériques, par exemple, s'il s'agit de noms de villes, il n'est pas possible de calculer une moyenne ou une médiane, de sorte que le mode devient une mesure à envisager. Ensuite, si les données contiennent des valeurs extrêmes, la médiane sera plus représentative que la moyenne. Enfin, lorsqu'il y a plus d'un mode dans un ensemble de données, cela peut signifier que le mode n'est pas la meilleure mesure de la tendance centrale dans les circonstances.

Question

(Diagramme montrant une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Dans cet exercice de vérification de connaissances, nous allons mettre en application ce que nous avons appris jusqu'ici à propos des mesures de la tendance centrale. Dans le graphique de droite, les salaires des joueurs de hockey sont affichés sur l'axe horizontal et le nombre de joueurs, sur l'axe vertical. Dans cette distribution, à quelle mesure de la tendance centrale correspondent les lignes X, Y et Z?

Réponse

Avez-vous pu trouver la mesure correspondant à chaque ligne? X est le salaire gagné par le plus grand nombre de joueurs. Par conséquent, dans cette distribution, X est le mode. La courbe n'est pas symétrique. Elle présente ce qu'on appelle une distribution oblique à droite, ce qui veut dire qu'il y a un petit nombre de joueurs de hockey qui gagnent un salaire très élevé. Ces valeurs ont comme effet de hausser la moyenne, ce qui signifie que Z est la moyenne. Y correspond à peu près à une valeur centrale, la moitié des joueurs se situant au-dessus et l'autre moitié, en dessous. Y est donc la médiane.

Questions

(Le même diagramme est utilisé de nouveau. Il montre une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Nous allons maintenant prendre un exemple concret pour illustrer des circonstances où une personne pourrait décider d'utiliser une mesure de la tendance centrale particulière plutôt qu'une autre. Supposons que vous êtes le représentant des propriétaires de la Ligue nationale de hockey. Quelle mesure de la tendance centrale vous aiderait à faire valoir que les salaires des joueurs sont trop élevés? Si vous êtes plutôt le représentant du syndicat des joueurs, quelle mesure de la tendance centrale vous aiderait à démontrer que les salaires des joueurs ne sont pas trop élevés? Enfin, quelle mesure de la tendance centrale est susceptible de représenter le mieux les salaires des joueurs?

Réponses

Si vous êtes le représentant des propriétaires et que vous estimez que les salaires des joueurs sont trop élevés, vous utiliserez la moyenne, car c'est la valeur la plus élevée des trois, et vous espérez que personne ne soulignera le fait que la présence de valeurs extrêmes peut avoir une incidence sur la moyenne. Si vous représentez le syndicat des joueurs, vous opterez le mode qui est la valeur la plus faible. Vous pourriez soutenir que, de tous les salaires, c'est celui-là qui est gagné par le plus de joueurs. Cela dit, il serait faux de prétendre que cette valeur est représentative de l'ensemble des salaires des joueurs, parce que le mode n'est que la valeur la plus fréquente, alors que, au niveau de l'ensemble, de nombreux joueurs gagnent beaucoup plus que ce salaire. La médiane est la valeur qui représente le mieux les salaires des joueurs, parce que la moitié d'entre eux gagnent davantage, tandis que l'autre moitié d'entre eux gagnent moins.

Résumé des principaux points

En résumé, nous avons appris aujourd'hui que la tendance centrale est l'expression que nous utilisons lorsque nous faisons référence à une méthode donnée pour déterminer le centre, ou le point d'équilibre, d'un ensemble de données. Nous avons examiné trois façons différentes de calculer la tendance centrale. La moyenne est sans doute la plus connue. Nous avons toutefois appris que les valeurs extrêmes peuvent influer sur la moyenne. Nous avons également traité de la médiane, ou le point milieu, ce qui signifie que la moitié des valeurs se trouvent au-dessous de ce point milieu et l'autre moitié, au-dessus. Les valeurs extrêmes sont moins susceptibles d'avoir une incidence sur la médiane. La troisième mesure de la tendance centrale que nous avons abordé est le mode qui correspond à la valeur la plus fréquemment observée. Il est important de se rappeler qu'un ensemble de données peut n'avoir aucun mode, et qu'il peut aussi en avoir plus d'un.

Formation complémentaire

Pour en savoir plus sur l'étalement ou la dispersion des données, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.