Statistique 101 : intervalles de confiance - Transcription
(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Intervalles de confiance ».)
Statistique 101 : Intervalles de confiance
Avez-vous déjà entendu un tel énoncé?
(Texte à l'écran : 37 % des Canadiens prévoient travailler à domicile dans un proche avenir, selon une enquête en ligne réalisée auprès de 2 000 adultes canadiens, avec une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20. Savez-vous ce que signifie « une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20 »? Il s'agit d'un exemple d'intervalle de confiance.)
Vous avez probablement entendu à la radio, à la télévision ou lu dans le journal un énoncé de ce type : 37 % des Canadiens prévoient travailler à domicile dans un avenir proche, selon une enquête en ligne réalisée auprès de 2 000 adultes canadiens, avec une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20. Mais qu'est-ce que cela signifie exactement, et pourquoi les renseignements sont-ils présentés de cette manière? Travailler avec des statistiques implique un élément d'incertitude. Dans cette vidéo, nous allons voir comment les intervalles de confiance et leurs concepts sous-jacents nous aident à comprendre et à mesurer cette incertitude. L'énoncé ci-dessus présente en fait un exemple d'intervalle de confiance, même si, à première vue, il ne ressemble pas à un intervalle. Dans ce cas, l'intervalle est de 37 % +/- 2,0 % – en d'autres termes, l'intervalle va de 35 % à 39 %. À la fin de cette présentation, vous serez en mesure de lire des énoncés similaires et de comprendre qu'ils représentent des intervalles de confiance. Vous comprendrez également ce qu'est une « marge d'erreur » et ce que signifie l'expression « 19 fois sur 20 ». Comme préalable à cette vidéo, assurez-vous d'avoir regardé nos autres vidéos « Statistique 101 » intitulées « Explorer les mesures de la tendance centrale » et « Explorer les mesures de la dispersion ».
Objectifs d'apprentissage
(Texte à l'écran : Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes :
- Que sont les intervalles de confiance?
- Pourquoi utilise-t-on des intervalles de confiance?
- Quels facteurs ont un impact sur un intervalle de confiance?)
À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux. Si vous comprenez les mesures de la tendance centrale et les mesures de la dispersion avant de regarder cette vidéo, vous comprendrez mieux les intervalles de confiance.
Étapes du cheminement des données
(Texte à l'écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)
(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir ; Étape 2 - explorer, nettoyer, décrire ; Étape 3 - analyser, modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)
Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à l'exploration, au nettoyage, à la description et à la compréhension des données, à l'analyse des données et, enfin, à la communication avec les autres de l'histoire que racontent les données.
Étape 2 : Explorer, nettoyer et décrire ; Étape 3 : Analyser et modéliser ; et Étape 4 : Raconter l'histoire
Les intervalles de confiance sont utiles aux étapes 2, 3 et 4 du cheminement des données.
Qu'est-ce qu'un intervalle de confiance?
(Texte à l'écran :
Présente une plage de valeurs possibles, plutôt qu'une seule valeur estimée.
Représente l'incertitude résultant de l'utilisation d'un échantillon.
La largeur de l'intervalle de confiance est liée au niveau d'incertitude.)
(Figure 1 montrant un exemple d'intervalle de confiance : la note moyenne à un test de mathématiques dans une classe de 100 élèves. La valeur estimée est de 70 %, la borne inférieure est à 60 % et la borne supérieure est à 80 %. Les valeurs comprises entre les limites inférieure et supérieure représentent l'intervalle de confiance.)
Un intervalle de confiance est une plage de valeurs possibles pour une chose que nous voulons estimer – p. ex. quelle est la note moyenne à un test de mathématiques dans une classe de 100 élèves? Elle est généralement basée sur un échantillon représentatif de la population ; cependant, l'échantillon est souvent petit par rapport à la population. Dans cet exemple, nous avons les notes de mathématiques d'un échantillon de 10 élèves d'une classe de 100 élèves. Comme l'estimation est basée sur un échantillon, il subsiste une certaine incertitude quant à la valeur réelle. L'intervalle de confiance tient compte de cette incertitude en présentant une plage de valeurs, et pas seulement l'estimation elle-même. Plus l'incertitude est grande, plus l'intervalle de confiance sera large.
Pourquoi utilise-t-on des intervalles de confiance?
(Figure 1 montrant un jeune homme se demandant pourquoi nous utilisons des intervalles de confiance.)
En statistique, nous estimons souvent une valeur pour une population totale en utilisant un échantillon. La valeur dérivée de l'échantillon n'est pas la valeur réelle, mais une estimation de celle-ci.
Exemple d'intervalle de confiance
(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 70 %, une borne inférieure à 60 %, une borne supérieure à 80 % et une valeur vraie de 73 %.)
Dans cet exemple, nous avons une classe de 100 élèves, chacun ayant une note en pourcentage pour un test de mathématiques. La moyenne de la classe pour le test de mathématiques est de 73 %. Cependant, nous n'examinons pas les notes de tous les membres de la population, mais seulement celles d'un échantillon de 10 personnes. En prenant un échantillon aléatoire on obtient une note moyenne estimée à 70 %, avec un intervalle de confiance de + ou – 10 %. Dans cet exemple, notre estimation de 70 % est différente de la moyenne réelle de 73 %, mais la moyenne réelle se situe dans l'intervalle de confiance.
Exemple d'intervalle de confiance
(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 65 %, une borne inférieure à 55 %, une borne supérieure à 75 % et une valeur vraie de 73 %.)
En prenant un autre échantillon aléatoire, nous obtenons une note moyenne estimée différente, égale à 65 %, qui n'est pas non plus égale à la vraie moyenne de 73 %, mais l'intervalle de confiance de 55 % à 75 % contient toujours la vraie moyenne.
Exemple d'intervalle de confiance
(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 78 %, une borne inférieure à 68 %, une borne supérieure à 88 % et une valeur vraie de 73 %.)
Un troisième échantillon de la même classe permet d'obtenir une note moyenne estimée à 78 %. Encore une fois, cette estimation diffère de la vraie moyenne de 73 %, mais de nouveau, l'intervalle de confiance contient la vraie moyenne.
Valeur estimée
(Figure illustrant un intervalle de confiance, avec la valeur estimée mise en évidence au centre.)
L'estimation de l'échantillon se situe généralement au centre de l'intervalle de confiance.
Valeur estimée
(Figure illustrant un intervalle de confiance, mettant en évidence les bornes inférieure et supérieure de l'intervalle à égale distance de la valeur estimée.)
Les bornes supérieure et inférieure de l'intervalle de confiance sont à égale distance au-dessus et au-dessous de la valeur estimée.
Valeur estimée
(Figure démontrant un intervalle de confiance, mettant en évidence la marge d'erreur en dessous et au-dessus de la valeur estimée.)
La distance entre la valeur estimée et la borne supérieure ou inférieure est appelée marge d'erreur. La taille de la marge d'erreur reflète l'incertitude à propos de la valeur réelle. Plus l'incertitude est grande, plus la marge d'erreur est grande.
Facteurs ayant un impact sur un intervalle de confiance
(Figure montrant des personnes avec des points d'interrogation sur la tête.)
Trois facteurs déterminent la largeur de l'intervalle de confiance : le niveau de confiance, la variabilité au sein de la population et la taille de l'échantillon. Nous allons maintenant voir ces facteurs un par un.
Niveau de confiance
(Figure démontrant une valeur estimée et deux intervalles de confiance, un premier avec un niveau de confiance de 95 % et un second avec un niveau de confiance de 99 %.)
Le niveau de confiance nous indique à quel point nous sommes certains que l'intervalle de confiance contient la vraie valeur de la population. Pour un niveau de confiance de 95 %, nous sommes sûrs à 95 % que l'intervalle de confiance contient la vraie valeur. En d'autres termes, si nous devions répéter l'enquête de nombreuses fois, l'intervalle de confiance contiendrait la vraie valeur 19 fois sur 20. Pour un niveau de confiance de 99 %, nous sommes sûrs à 99 % que l'intervalle de confiance contient la vraie valeur. Notez qu'un niveau de confiance plus élevé nécessite un intervalle de confiance plus long.
Variabilité au sein de la population
(Figure démontrant les notes au test de mathématiques pour deux groupes différents, une classe de mathématiques régulières et une classe de mathématiques enrichies.)
Par variabilité d'une population, nous entendons la différence entre les membres de la population, les uns par rapport aux autres. Dans l'exemple présenté ici, les notes des élèves de la classe de mathématiques enrichies sont moins variables que celles des élèves de la classe de mathématiques régulières. Dans la classe de mathématiques régulières, les notes varient de 54 % à 87 %. Dans la classe de mathématiques enrichies, les notes varient de 86 % à 96 %, soit environ un tiers de la variabilité de la classe de mathématiques régulières. Si la variabilité est élevée dans la population, elle le sera également dans l'échantillon. Si nous avions deux échantillons aléatoires différents de la population, la différence entre les deux estimations différentes aurait également tendance à être plus grande. Ainsi, une plus grande variabilité dans la population entraîne une plus grande variabilité dans les échantillons, ce qui entraîne une plus grande variabilité dans les estimations. Cette plus grande variabilité des estimations se traduit par une plus grande marge d'erreur, de sorte que l'intervalle de confiance est plus large. De même, si la variabilité est plus faible dans la population, elle sera plus faible dans l'échantillon, et l'estimation aura une variabilité plus faible, ce qui entraînera une marge d'erreur plus faible et un intervalle de confiance plus étroit.
Taille de l'échantillon
(Figure démontrant une classe de 100 élèves.)
Un échantillon plus grand produira des estimations plus précises – c'est-à-dire des estimations avec une variabilité plus faible. Par exemple, dans une classe de 100 élèves, la moyenne provenant d'un échantillon de taille 20 aura une variabilité plus faible que la moyenne provenant d'un échantillon de taille 10. La moyenne provenant d'un échantillon de taille 50 aurait une variabilité encore plus faible. Ainsi, plus la taille de l'échantillon est grande, plus la variabilité de l'estimation est faible, plus la marge d'erreur est petite et plus l'intervalle de confiance est étroit. Prenons un exemple...
Exemple – échantillon de taille 10
(Figure démontrant une classe de 100 élèves et un échantillon de 10 élèves, avec une note moyenne estimée à 64 % et la moyenne réelle de la classe à 73 %.)
La note moyenne de la classe est de 73 %. La moyenne pour l'échantillon aléatoire de 10 élèves est de 64 %.
Exemple – échantillon de taille 50
(Figure démontrant une classe de 100 élèves et un échantillon de 50 élèves, avec une note moyenne estimée à 71 % et la moyenne réelle de la classe à 73 %.)
Comme nous le voyons dans cet exemple, avec une taille d'échantillon beaucoup plus grande, la variabilité de l'estimateur est beaucoup plus faible, et il aurait tendance à être beaucoup plus proche de la vraie valeur. L'intervalle de confiance serait alors plus étroit.
Vérification des connaissances
C'est maintenant votre tour. Comment interpréteriez-vous l'énoncé suivant : Selon une étude récente, les adultes vivant dans une ville donnée pèsent en moyenne 75 kg, avec une marge d'erreur de +/- 10 kg, 9 fois sur 10. Quelle est la valeur estimée? Quel est l'intervalle de confiance? Quel est le niveau de confiance? Prenez un moment pour réfléchir à toute l'information contenue dans cette phrase.
Réponse
Premièrement, nous pouvons conclure que la valeur estimée a été obtenue en utilisant un échantillon de la population. Deuxièmement, nous comprenons que le poids moyen estimé est de 75 kg et que l'intervalle de confiance va de 65 kg à 85 kg. L'intervalle de confiance est assez large, ce qui peut laisser supposer une petite taille d'échantillon, une grande variabilité dans le poids des individus, ou même les deux. Le niveau de confiance est de 90 %, soit 9 fois sur 10. Cela signifie que si un échantillonnage aléatoire devait être répété de nombreuses fois, l'intervalle de confiance contiendrait la vraie valeur 9 fois sur 10. Un niveau de confiance plus élevé, 95 % par exemple, nécessiterait un intervalle de confiance encore plus large.
Principaux points à retenir
Pour résumer ce que nous avons appris aujourd'hui : les intervalles de confiance peuvent aider à comprendre et à mesurer l'incertitude associée aux valeurs estimées à partir d'échantillons ; les données provenant d'échantillons ne fournissent pas des valeurs réelles, mais des valeurs estimées ; la longueur de l'intervalle de confiance peut varier en fonction de la taille de l'échantillon, de la variabilité au sein de la population et du niveau de confiance requis.
(Le mot-symbole « Canada » s'affiche.)
Vous avez probablement entendu à la radio,
à la télévision ou lu dans un journal,
un énoncé de ce type:
37 % des Canadiens prévoient travailler
à domicile dans un proche avenir,
selon une enquête en ligne réalisée
auprès de 2000 adultes canadiens,
avec une marge d'erreur de plus
ou moins 2 points de pourcentage,
19 fois sur 20.
Mais qu'est-ce que cela signifie
exactement, et pourquoi les renseignements
sont-ils présentés de cette manière ?
Travailler avec des statistiques
implique un élément d'incertitude.
Dans cette vidéo,
nous allons voir comment les
intervalles de confiance et leurs concepts
sous-jacents nous aident à comprendre
et à mesurer cette incertitude.
L'énoncé ci-dessus présente en fait un
exemple d'intervalle de confiance,
même si, à première vue,
il ne ressemble pas à un intervalle.
Dans ce cas,
l'intervalle est de 37 % de plus ou moins 2 % -
en d'autres termes,
l'intervalle va de 35 % à 39 %.
À la fin de cette présentation,
vous serez en mesure de lire des énoncés
similaires et de comprendre qu'ils
représentent des intervalles de confiance.
Vous comprendrez également ce
qu'est une « marge d'erreur » et ce que
signifie l'expression « 19 fois sur 20 ».
Comme préalable à cette vidéo,
assurez-vous d'avoir regardé nos
autres vidéos Statistiques 101
intitulées « Explorez les mesures de
la tendance centrale » et « Explorer
les mesures de la dispersion ».
À la fin de cette vidéo,
vous comprendrez ce que sont
les intervalles de confiance,
pourquoi nous les utilisons et quels
facteurs ont un impact sur eux.
Si vous comprenez les mesures
de la tendance centrale et
les mesures de la dispersion
avant de regarder cette vidéo,
vous comprendrez mieux les
intervalles de confiance.
Ce diagramme est une représentation
visuelle du cheminement des données,
de la collecte des données à l'exploration,
au nettoyage, à la description et
à la compréhension des données,
à l'analyse des données et, enfin, à la
communication avec les autres de l'histoire
que racontent les données.
Les intervalles de confiance sont utiles aux
étapes 2, 3 et 4 du cheminement des données.
Un intervalle de confiance est une
plage de valeurs possibles pour
une chose que nous voulons estimer.
Par exemple, quelle est la note
moyenne à un test de mathématiques
dans une classe de 100 élèves ?
Elle est généralement basée sur un
échantillon représentatif de la population;
cependant, l'échantillon est souvent
petit par rapport à la population.
Dans cet exemple,
nous avons les notes de mathématiques
d'un échantillon de 10 élèves
d'une classe de 100 élèves.
Comme l'estimation est
basée sur un échantillon,
il subsiste une certaine incertitude
quant à la valeur réelle.
L'intervalle de confiance tient
compte de cette incertitude en
présentant une plage de valeurs, et pas
seulement l'estimation elle-même.
Plus l'incertitude est grande,
plus l'intervalle de confiance sera large.
En statistiques, nous estimons souvent
une valeur pour une population
totale en utilisant un échantillon.
La valeur dérivée de l'échantillon
n'est pas la valeur réelle,
mais une estimation de celle-ci.
Dans cet exemple,
nous avons une classe de 100 élèves,
chacun ayant une note en pourcentage
pour un test de mathématiques.
La moyenne de la classe pour le
test de mathématiques est de 73 %.
Cependant, nous examinons pas les notes
de tous les membres de la population,
mais seulement celles d'un
échantillon de 10 personnes.
En prenant un échantillon aléatoire
on obtient une note moyenne
estimée à 70 %, avec un intervalle
de confiance de plus ou moins 10 %.
Dans cet exemple,
notre estimation de 70 % est différente
de la moyenne réelle de 73 %,
mais la moyenne réelle se situe
dans l'intervalle de confiance.
En prenant un autre échantillon aléatoire,
nous obtenons une note moyenne
estimée différente, égale à 65 %,
qui n'est pas non plus égale
à la vrai moyenne de 73 %,
mais l'intervalle de confiance de 55 % à
75 % contient toujours la vraie moyenne.
Un troisième échantillon de la même classe permet
d'obtenir une note moyenne estimée à 78 %.
Encore une fois,
cette estimation diffère de la
vraie moyenne de 73 %,
mais de nouveau, l'intervalle de
confiance contient la vraie moyenne.
L'estimation de l'échantillon
se situe généralement au centre
de l'intervalle de confiance.
Les bornes supérieure et inférieure
de l'intervalle de confiance sont
à égale distance au-dessus et
au-dessous de la valeur estimée.
La distance entre la valeur estimée
et la borne supérieure ou inférieure
est appelée la marge d'erreur.
La taille de la marge d'erreur reflète
l'incertitude à propos de la valeur réelle.
Plus l'incertitude est grande,
plus la marge d'erreur est grande.
Trois facteurs déterminent la largeur
de l'intervalle de confiance:
le niveau de confiance,
la variabilité au sein de la population
et la taille de l'échantillon.
Nous allons maintenant voir
ces facteurs un par un.
Le niveau de confiance nous indique à
quel point nous sommes certains que
l'intervalle de confiance contient
la vraie valeur de la population.
Pour un niveau de confiance de 95 %, nous
sommes sûrs à 95 % que l'intervalle de
confiance contient la vraie valeur.
En d'autres termes,
si nous devions répéter l'enquête
de nombreuses fois,
l'intervalle de confiance contiendrait
la vraie valeur 19 fois sur 20.
Pour un niveau de confiance de
99 %, nous sommes sûrs à
99 % que l'intervalle de confiance
contient la vraie valeur.
Notez qu'un niveau de confiance
plus élevé nécessite un
intervalle de confiance plus long.
Par variabilité d'une population,
nous entendons la différence
entre les membres de la population,
les uns par rapport aux autres.
Dans l'exemple présenté ici,
les notes des élèves de la classe de
mathématiques enrichies sont moins
variables que celles des élèves de
la classe de mathématiques régulière.
Dans la classe de mathématiques régulières,
les notes varient de 54 % à 87 %. Dans
la classe de mathématiques enrichies,
les notes varient de 86% à 96%,
soit environ 1/3 de la variabilité de
la classe de mathématiques régulières.
Si la variabilité est élevée dans
la population,
elle le sera également dans l'échantillon.
Si nous avions deux échantillons
aléatoires différents de la population,
la différence entre les deux estimations
différentes aurait également
tendance à être plus grande.
Ainsi, une plus grand variabilité dans
la population entraîne une plus grande
variabilité dans les échantillons,
ce qui entraîne une plus grande
variabilité dans les estimations.
Cette plus grande variabilité
des estimations se traduit par
une plus grande marge d'erreur,
de sorte que l'intervalle de
confiance est plus large.
De même,
si la variabilité est plus
faible dans la population,
elle sera plus faible dans
l'échantillon, et l'estimation
aura une variabilité plus faible,
ce qui entraînera une marge
d'erreur plus faible et un
intervalle de confiance plus étroit.
Un échantillon plus grand produira
des estimations plus précises,
c'est-à-dire des estimations
avec une variabilité plus faible.
Par exemple, dans une classe de 100 élèves,
la moyenne provenant d'un échantillon
de taille 20 aura une variabilité
plus faible que la moyenne provenant
d'un échantillon de taille 10.
La moyenne provenant d'un
échantillon de taille 50 aurait une
variabilité encore plus faible.
Ainsi, plus la taille de
l'échantillon est grande,
plus la variabilité de
l'estimation est faible,
plus la marge d'erreur est petite et
plus l'intervalle de confiance est étroit.
Prenons un exemple.
La note moyenne de la classe est de 73 %.
La moyenne pour l'échantillon
aléatoire de 10 élèves et de 64 %.
Comme nous le voyons dans cet exemple,
avec une taille d'échantillon
beaucoup plus grande,
la variabilité de l'estimateur
est beaucoup plus faible, et il
aurait tendance à être beaucoup plus
proche de la vraie valeur.
L'intervalle de confiance
serait alors plus étroit.
C'est maintenant votre tour.
Comment interpréter-vous
l'énoncé suivant:
selon une étude récente,
les adultes vivant dans une ville
donnée pèsent en moyenne 75 kg,
avec une marge d'erreur de plus
ou moins 10 kg, 9 fois sur 10.
Quelle est la valeur estimée ?
Quel est l'intervalle de confiance ?
Quel est le niveau de confiance ?
Prenez un moment pour réfléchir à toute
l'information contenue dans cette phrase.
Premièrement, nous pouvons conclure
que la valeur estimée a été obtenue en
utilisant un échantillon de la population.
Deuxièmement,
nous comprenons que le poids moyen
estimé est de 75 kg, et que l'intervalle
de confiance va de 65 kg à 85 kg.
L'intervalle de confiance est assez large,
ce qui peut laisser supposer
une petite taille d'échantillon,
une grande variabilité dans le
poids des individus ou même les deux.
Le niveau de confiance est de 90 %,
soit 9 fois sur 10.
Cela signifie que si un échantillonnage
aléatoire devait être répété
de nombreuses fois,
l'intervalle de confiance contiendrait
la vraie valeur 9 fois sur 10.
Un niveau de confiance plus élevé,
95 % par exemple,
nécessiterait un intervalle de
confiance encore plus large.
Pour résumer
ce que nous avons appris aujourd'hui:
les intervalles de confiance peuvent
aider à comprendre et à mesurer
l'incertitude associée aux valeurs
estimées à partir d'échantillons;
les données provenant d'échantillons
ne fournissent pas des valeurs réelles,
mais des valeurs estimées; la longueur
de l'intervalle de confiance peut
varier en fonction de la taille
de l'échantillon,
de la variabilité au sein de la population
et du niveau de confiance requis.