Statistique 101 : biais statistique - Transcription
(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : biais statistique ».)
Dans le langage courant, les biais font référence à la façon dont le point de vue, les valeurs ou les croyances d'une personne peuvent influer sur son jugement ou ses décisions dans des circonstances particulières.
Dans cette vidéo, nous expliquerons le concept de biais statistique, qui se produit lorsque les statistiques diffèrent systématiquement de la réalité qu'elles tentent de mesurer en raison de problèmes liés à la manière dont les données ont été produites.
Objectifs d'apprentissage
Avant de parler de biais, nous allons commencer par dire quelques mots sur l'erreur. Les statistiques sont des mesures qui décrivent notre société, l'activité économique ou d'autres aspects du monde qui nous entoure. Bien qu'elles tentent d'estimer la valeur réelle aussi précisément que possible, elles peuvent souvent contenir un certain niveau d'erreur. Le biais statistique est la différence entre la mesure statistique et la valeur réelle.
Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes:
- Quels sont les différents types d'erreurs?
- Quels sont les types d'erreurs qui entraînent un biais statistique?
À quelle étape du parcours des données est-il possible que des erreurs entraînant des biais statistiques puissent survenir?
Étapes du cheminement des données
(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)
Ce diagramme est une représentation visuelle du parcours des données, de leur collecte jusqu'au moment d'en raconter l'histoire à d'autres, en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse.
Les erreurs entraînant un biais statistique peuvent survenir à n'importe quelle étape du parcours des données.
Quels sont les différents types d'erreurs?
Lorsqu'on essaie de mesurer et d'analyser des données, il faut s'attendre à un certain niveau d'erreur. Qu'entendons nous exactement lorsque nous disons qu'il existe différents types d'erreurs? Accepter que des erreurs existent n'est pas nécessairement une mauvaise chose, mais il est important de comprendre que toutes les erreurs ne sont pas égales. Les 2 principaux types d'erreurs que nous allons étudier aujourd'hui sont l'erreur aléatoire et l'erreur systématique.
Erreur aléatoire ou systématique
Les erreurs aléatoires introduisent une variabilité entre des mesures distinctes du même objet. Par exemple, des réponses ou des mesures reçues ou effectuées à des moments différents peuvent entraîner une variabilité de réponse ou un autre échantillon sélectionné de façon aléatoire peut entraîner une variabilité d'échantillonnage.
Le caractère aléatoire peut également se manifester dans les procédures de traitement des données. Néanmoins, dans ces cas, les mesures ont toujours tendance à se regrouper autour de la valeur réelle. Par conséquent, malgré quelques erreurs, elles sont toujours exactes.
D'autre part, les mesures systématiques se traduisent par une variabilité non aléatoire qui déforme ou éloigne la mesure de la valeur réelle, ce qui donne une mesure qui peut être plus petite, plus grande, plus élevée ou plus basse que la valeur réelle et peut aboutir à des conclusions incorrectes.
Qu'est-ce qu'un biais statistique?
Maintenant que nous comprenons la différence entre les erreurs aléatoires, les erreurs systémiques et la manière dont les erreurs systémiques peuvent entraîner des conclusions inexactes, à partir de ce point de la vidéo, nous appellerons ces conclusions inexactes biais statistique, car lorsque nous parlons de biais statistiques, ce que nous voulons vraiment dire, c'est qu'une statistique diffère de la réalité qu'elle tente de mesurer en raison d'erreurs systématiques dans la manière dont les données ont été recueillies, déclarées ou analysées?
Où chercher un biais statistique
Les statistiques biaisées peuvent provenir d'un grand nombre de sources de données, qu'il s'agisse de données d'enquête, de données administratives, de mégadonnées, etc. De même, il existe de nombreux types d'erreurs différentes qui peuvent entraîner des biais. Aujourd'hui, cependant, nous nous concentrerons sur 3 domaines particuliers susceptibles d'afficher des erreurs systémiques qui peuvent entraîner des statistiques biaisées. Il s'agit d'erreurs : de collecte des données, de mesure et d'analyse.
Collecte des données
En commençant par la collecte des données, un biais peut avoir lieu en cas d'erreurs systématiques dans la façon dont les données sont recueillies, ce qui mène à des données qui ne représentent pas adéquatement la population que l'on cherche à mesurer. Voici quelques exemples de biais :
- le biais de couverture,
- le biais de non-réponse et
- le biais d'autosélection.
Biais de couverture
Un biais de couverture survient lorsque, en raison de la matière dont le processus de collecte des données a été conçu, il exclut (ou inclut) des groupes qui font (ou ne font pas) partie de la population cible. Les principales sources d'erreurs de couverture sont les suivantes:
- le sous-dénombrement - le fait de ne pas inclure tous les membres de la population qui devraient être inclus; et
- le surdénombrement - le fait d'inclure dans la population des membres qui ne devraient pas être inclus.
Par exemple, une enquête tente de mesurer les habitudes de dépenses quotidiennes des Canadiens, mais le questionnaire n'est disponible que sur les téléphones intelligents. Les résultats de l'enquête ne comprendront pas les données des personnes ne possédant pas de téléphones intelligents. Comme le nombre de personnes possédant un téléphone intelligent inférieur à la population cible de tous les Canadiens, il y a un biais de couverture, car une partie de la population, celle qui ne possède pas de téléphone intelligent, n'est pas « couverte » par l'enquête.
Biais de non-réponse
Un biais de non-réponse se produit lorsque la réponse des répondants diffère par rapport à celle des personnes qui choisissent de ne pas répondre.
Parmi les causes de biais de non-réponse, citons le manque d'intérêt à l'égard du sujet. Par exemple, les gens peuvent être moins enclins, à répondre à une enquête si elle ne les intéresse pas ou s'il estime qu'elle ne leur procure personnellement aucun avantage. Les sujets sensibles peuvent également entraîner un biais de non-réponse si une personne a le sentiment que le questionnaire pose des questions trop personnelles ou trop sensibles.
Biais d'autosélection
Un biais d'autosélection se produit lorsque les personnes qui se portent volontaires pour fournir des données ou participer à une étude différente de celles qui ne se portent pas volontaires. On pourrait même dire que le biais d'autosélection est l'exact opposé du biais de non-réponse, même s'il contribuent tous deux à des conclusions inexactes.
Mesure
Le prochain domaine que nous allons explorer dans notre recherche des sources du biais statistique est la mesure. Un biais de mesure se produit en cas d'erreur systématiques dans la façon de mesurer ou de rendre compte du concept d'intérêt.
Voici quelques exemples:
- le biais de rappel,
- le biais dû à la désirabilité sociale,
- les questions suggestives et
- les outils de mesure défectueux.
Biais de rappel
Un biais de rappel se produit lorsque les répondants ne se souviennent pas précisément d'événements ou d'expériences antérieures ou en omettant des détails. Par exemple, un répondant peut avoir de la difficulté à se souvenir du montant qu'il a payé pour l'essence au cours du dernier mois. Ou encore, si l'on demande aux répondants de parler des visites chez le médecin au cours de l'année écoulée, il peut inclure une visite datant de 15 mois ou oublier une visite datant de 10 mois.
Biais dû à la désirabilité sociale
Un biais dû à la désirabilité sociale se produit lorsque les participants, consciemment ou non, répondent aux questions en tentant de donner une image plus positive d'eux-mêmes. Par exemple, une personne peut surdéclarer ce qu'elle considère comme étant un bon comportement, comme la quantité d'exercice qu'elle fait dans une journée ou la quantité de fruits et légumes qu'elle mange, ou sous-déclarer des comportements socialement plus indésirables, comme le tabagisme.
Questions suggestives
On parle de questions suggestives lorsqu'une question d'enquête incite, encourage ou guide le répondant vers une réponse préalablement déterminée ou souhaitée. Par exemple, la formulation, « la plupart des gens pensent que c'est un excellent restaurant. Êtes-vous d'accord? » Peut susciter des réponses plus positives qu'une formulation plus neutre, comme « comment évaluez-vous ce restaurant? »
Outils de mesure défectueux
Un biais peut se produire lorsque les outils ou les mesures servant à recueillir des données sont défectueux, fonctionnent mal ou sont utilisés de manière inexacte, ce qui entraîne des estimations systématiquement différentes. Par exemple, des outils de mesure comme un pèse-personne dans un cabinet médical qui est mal étalonné et qui affichera donc systématiquement des poids incorrects.
Analyse
Jusqu'à présent, nous avons vu comment les erreurs peuvent entraîner des biais lors des étapes de collecte et de mesure des données, mais, dans cette 3e et dernière partie de la vidéo, nous aborderons le biais analytique, qui peut se produire lorsque l'analyse des données est effectuée à partir de données non représentatives ou lorsqu'un modèle ou un chercheur oriente, les résultats d'une étude vers un résultat spécifique.
Voici des exemples de biais induits par les chercheurs:
- le biais de confirmation et
- le biais de modélisation.
Biais de confirmation
Si l'analyse est réalisée pour soutenir un point de vue ou un récit spécifique, elle peut être biaisée, c'est-à-dire qu'elle peut laisser de côté ou exclure des éléments importants qui ne correspondent pas à ce point de vue ou à ce récit. Un biais de confirmation se produit lorsque les analystes de données ne retiennent que les données et les résultats qui cadrent avec leur hypothèse ou leurs propres croyances.
Biais de modélisation
Un biais peut survenir dans la modélisation des données lorsque les données utilisées ne sont pas représentatives ou lorsque le modèle ou l'algorithme est également biaisé et ne représente pas de façon exacte le phénomène qu'il cherche à représenter.
Un exemple de données de formation non représentatives est l'utilisation des données historiques d'une entreprise pour pourvoir un nouveau poste. Si l'algorithme porte sur des données montrant que la plupart des embauches et des promotions réussies dans l'entreprise sont le fait d'hommes, il apprendra à rechercher et à continuer de suggérer des hommes dans les futurs rôles.
Un exemple d'algorithme biaisé, toutefois, est le fait que l'algorithme soit programmé pour filtrer au préalable les résultats en excluant les candidats dont le nom de famille comporte des caractères non présents dans l'alphabet anglais.
Principaux points à retenir
Pour récapituler ce que nous avons appris dans cette vidéo :
- Il existe deux principaux types d'erreurs : l'erreur aléatoire et l'erreur systémique.
- Le biais statistique désigne les différences entre une estimation et la valeur réelle.
- Les trois domaines particuliers susceptibles de faire l'objet d'erreurs pouvant entraîner des biais comprenant les suivants : les biais dans la population couverte par les données, les biais dans la mesure des concepts d'intérêt et les biais dans l'analyse ou les méthodes utilisées pour l'analyse.
(Le mot-symbole « Canada » s'affiche.)