Statistique 101 : corrélation et causalité - Transcription
(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : "Statistique 101 Corrélation et causalité")
Statistique 101 : Corrélation et causalité
La présente vidéo s'adresse aux personnes qui souhaitent acquérir une compréhension de base de la corrélation et de la causalité. Comme préalable, avant de commencer cette vidéo, nous vous conseillons vivement d'avoir déjà regardé nos vidéos intitulées « Que sont les données » et « Types de données ».
Objectifs d'apprentissage
A la fin de cette vidéo, vous aurez appris les réponses aux questions suivantes Qu'est ce que la corrélation? Comment pouvez vous mesurer, quantifier ou interpréter la corrélation quand vous analysez vos données? Qu'est ce que la causalité? Et enfin, quelles sont les différences entre les deux?
Étapes du cheminement des données
(Text à l'écran : Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)
(Diagramme du Cheminement des données : Étape 1 - définir, trouver, receuillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)
Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l'histoire qu'elles racontent, en passant par le nettoyage, l'exploration, la description, la compréhension et l'analyse des données.
Étape 3 et 4: Analyser, modéliser et raconter l'histoire
(Diagramme du Cheminement des données avec un attention sur l'Étape 3 - Analyser, modéliser et l'Étape 4 - Raconter l'histoire)
La corrélation et la causalité relève des deux dernières étapes du cheminement des données : Analyser et modéliser et raconter une histoire.
Liens et relations
(Image combinant un bâton de hockey et une toilette qui donne une coupe Stanley avec un point d'interrogation)
Avez vous déjà remarqué que l'esprit humain aime vraiment créer des liens? A tel point fait que l'esprit va souvent créer des liens quand deux variables semblent être si étroitement associé qu'il peut sembler que l'une est dépendant de l'autre. Par exemple, le joueur de hockey des Sénateurs d'Ottawa, Bruce Gardiner, était tellement superstitieux qu'il était convaincu que la seule façon de se sortir d'une léthargie était de tremper son bâton de hockey dans les toilettes. Des superstitions comme celle là sont un excellent exemple de la façon dont le cerveau aime percevoir des relations entre deux choses. Même cas en réalité, il n'existe aucune relation de ce genre. Dans cette vidéo, vous apprendrez comment prouver l'existence d'une relation ou l'absence de relation entre deux variables. Il s'agit d'une partie très importante de l'analyse des données.
Corrélation dans l'analyse des données
Dans le monde des données, la corrélation désigne l'existence d'une relation entre deux variables. La corrélation joue un rôle important dans l'analyse des données lorsqu'on étudie une relation potentielle entre deux variables. Il est important de se poser les questions suivantes. Existe t il une relation entre les deux variables? Dans l'affirmative, la relation est elle positive ou négative? Quelle est la force de cette relation? S'agit il d'une forte corrélation, d'une faible corrélation ou de quelque chose entre les deux? La corrélation peut exister entre toutes ces deux variables, mais en statistique, la corrélation ne peut être calculée que pour des variables numériques.
Qu'est-ce que la corrélation?
(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps)
Commençons par parler de la corrélation dans la vie quotidienne lorsque nous disons qu'il y a une corrélation entre deux ou plusieurs choses. Cela signifie qu'il y a une relation mutuelle entre elles. Cette relation peut être positive ou négative.
Dans une corrélation positive, les valeurs des deux éléments associés se déplacent dans la même direction. Prenez une bouilloire remplie d'eau, par exemple dans la bouilloire reste allumée. Plus la température de l'eau à l'intérieur de la bouilloire augmente.
Dans une corrélation négative, les valeurs se déplacent dans des directions opposées. En d'autres termes, à mesure que la variable augmente, l'autre diminue et vice versa.
Par exemple, imaginez que vous amener une tasse de thé fraîchement infusée à l'extérieur lors d'une journée d'hiver, plus vous passerez de temps à l'extérieur, plus votre thé refroidit. Dans ce cas, à mesure que la variable temporelle augmente, la température diminue.
Visualiser nos données
(Diagramme de dispersion visualisant les données de la diapositive précédente sur la température de l'eau dans une bouilloire au fil du temps)
L'utilisation d'un diagramme de dispersion est un moyen efficace de montrer la relation entre deux variables différentes.
Ici, nous avons utilisé Microsoft Excel pour tracer les sept points du tableau de la diapositive précédente. Vous pouvez faire de même dans de nombreux autres tableurs électroniques. Le nombre de secondes que l'eau passe dans la bouilloire est tracé le long de l'axe horizontal des X et la température de l'eau est tracée le long de l'axe vertical. Ici, nous pouvons clairement constater que à mesure que les valeurs X augmentent, les valeurs Y augmentent aussi. Cela vérifie que nous avons une forte corrélation positive.
(Diagramme de dispersion visualisant les données de la diapositive sur la température de l'eau dans une bouilloire au fil du temps avec une ligne de tendance interceptant les données)
Cette corrélation positive est plus évidente avec l'ajout d'une ligne de tendance linéaire, une ligne de tendance et une ligne droite que nous traçons afin qu'elle se rapproche le plus possible de tous les points de données. Elle peut être générée automatiquement en utilisant le logiciel de votre choix. Comme le montre ce diagramme de dispersion, il fournit une visualisation encore plus claire, ce qui nous permet de voir à quel point nos variables sont corrélées. Dans cet exemple, la ligne suit de toute évidence une tendance à la hausse, ce qui représente une corrélation positive. Si la ligne suivait une tendance vers le bas, elle représenterait une corrélation négative.
Mesurer la corrélation
Pour les variables numériques, la corrélation est mesurée par un coefficient de corrélation. Tandis qu'un diagramme de dispersion où une ligne de tendance peut vous aider à visualiser vos données, un coefficient de corrélation est une mesure de la force de la relation linéaire entre deux variables et est représentée par R. La valeur de R est toujours comprise entre un minimum de moins 1 et un maximum de 1. Le coefficient de corrélation ou R peut être calculé facilement dans Excel en utilisant la fonction de Pearson. Cette fonction est disponible dans plusieurs tableurs électroniques ou applications statistiques. Utilisez celle que vous connaissez et à laquelle vous faites confiance!
Lorsque r est égal à 1, nous disons que deux variables ont une relation parfaitement positive, ce qui signifie que les deux variables augmentent ou diminuent toujours ensemble. Lorsque R est égal à moins 1, les variables ont une relation parfaitement négative. Cela signifie qu'une variable augmente toujours, tandis que l'autre diminue. Enfin, lorsque R est égal à zéro, il n'y a pas de relation linéaire entre les deux variables.
Interpréter le coefficient de corrélation
(Tableau contenant des renseignements sur l'interprétation de la valeur du coefficient de corrélation. Les colonnes, de la gauche vers la droite, sont nommés come suit : Valeur de r | Corrélation | Direction | Force. De la première vers la dernière ligne : 1 | Oui | Positive | Parfait; 0.99 à 0.6 | Oui | Positive | Forte our très forte; 0.59 à 0.20 | Oui | Positive |Faible ou modérée; 0.19 à -0.19 | Non | - | -; -0.2- à -0.59 | Oui | Négative | Faible ou modérée; -0.6 à -0.99 | Oui | Négative | Forte ou très forte; -1| Oui | Négative | Parfaite)
Le coefficient de corrélation, ou r, fournit des renseignements sur l'existence, la direction et la force d'une relation entre deux variables. En réalité, une valeur en R est rarement égale à exactement 1. Ce tableau fournit des lignes directrices générales sur la manière de déterminer la force de relations entre deux variables. Si une valeur R est égale ou inférieure à 0,6, nous avons une forte relation négative. De même, si sa valeur est égale ou supérieure à 0,6, nous avons une forte relation positive.
Si une valeur r est comprise entre moins 0,59 et moins 0,2. Nous avons une faible corrélation négative, même si sa valeur se situe entre 0,2 et 0,59. Nous avons une faible corrélation positive.
Enfin, si le coefficient de corrélation est entre -0,19 et 0,19, nous n'avons pas suffisamment de preuves pour dire que les deux variables sont corrélées.
Exemple 1
(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps. les colonnes, de la gauche vers la droite, sont nommés comme suit : Temps dans la bouilloire (secondes) | Température de l'eau (Celsius). De la première ligne vers la dernière : 30 sec | 20°C; 60 sec | 35°C; 90 sec | 50°C; 120 sec | 65°C; 150 sec | 80°C; 180 sec | 90°C; 210 sec | 100°C;)
Revenons à notre exemple de l'eau en ébullition dans une bouilloire.
Ce tableau des données fournit la température de l'eau dans une bouilloire à 7 moments qui sont espacées de façon égale dans le temps. Après les 30 premières secondes, l'eau est à une température de 20 degrés Celsius.
Au dernier moment, l'eau a atteint son point d'ébullition de 100 degrés Celsius. En utilisant la valeur de R, nous pouvons prouver qu'il existe une corrélation positive entre le temps et la température tant grâce au coefficient de corrélation et à la visualisation des données.
Calculer le coefficient de corrélation
(Tableau contenant les même données que la diapositive précédente)
(Diagramme de dispersion avec une ligne de tendance visualisant les données du même tableau)
(Text : Utilisez la fonction de Pearson --> r=0.997)
Comme nous l'avons mentionné plus tôt, le coefficient de corrélation ou R peut être calculé facilement en utilisant la fonction de Pearson. Les valeurs de la première colonne représentent la première variable le nombre de secondes passées dans la bouilloire. Les valeurs de la deuxième colonne représentent la température de l'eau à chaque point dans le temps.
Ici, nous voyons que la valeur s'avère être supérieure à 0,99. Rappelez vous qu'une valeur de 1 aurait indiqué une corrélation positive parfaite. Cela signifie que notre valeur indique une corrélation positive proche de la perfection. En d'autres termes, pour ces deux variables, il y a une forte corrélation positive entre le temps et la température qui est visible sur le diagramme de diffusion et la ligne de tendance.
Exemple 2
(Diagramme de dispersion représentant le taux de Cybercriminalité par 100 000 habitants en fonctions du Taux de croissance (%) de la population en 2017-2018. La ligne de tendance monte faiblement)
En réalité, il est peu probable que la relation entre deux valeurs soit aussi évidente que le lien entre le temps passé dans une bouilloire et la température de l'eau. Examinons un exemple concret qui compare la croissance démographique à la cybercriminalité en 2018.
Que nous dit le diagramme de dispersion? Tout d'abord, sur l'axe des X, nous voyons à mesure que les valeurs du taux de croissance de la population augmentent, les valeurs des taux de cybercriminalité sur l'axe des Y font de même. Cela laisse entendre que nous devrions avoir une corrélation positive.
Parallèlement, nous remarquons que les points de données sont plutôt éparpillés. Il est difficile de tracer une ligne droite entre ces points de données tout en gardant chaque point de données près de la ligne. Cela nous amènerait à croire qu'il n'y a pas de forte corrélation.
Pour en être sûr, nous décidons d'utiliser un logiciel pour calculer notre coefficient de corrélation et nous voyons que R est égal à 0,3. Cela signifie une faible corrélation positive. Par conséquent, après avoir visualisé les données et déterminer le coefficient de corrélation, nous pouvons conclure qu'en 2018, il y avait une faible corrélation positive entre la croissance démographique et la cybercriminalité.
Vérification des connaissances
(Diagramme de dispersion représentant un nuage de points qui, de façon disperser, diminue en valeur en fonction de l'axe des X)
Faisons une pause pour mettre à l'épreuve vos connaissances sur la corrélation.
Examinons le diagramme de dispersion dans la partie supérieure droite de la diapositive. Qu'est ce que cela nous dit? Y a t'il une corrélation positive entre ces deux variables? B) Une corrélation négative? ou C) Aucune corrélation de tout?
La réponse est B. Ce diagramme de dispersion visualise une forte corrélation négative entre ces deux variables.
Imaginez ensuite que vous analysez trois paires de variables les coefficients de corrélation pour ces trois paires sont moins -0,8, 0,03, 0,42. Quel R indique la relation la plus forte?
La réponse est A) R est égale à 0,8. Cela indique une relation forte et négative. La plus faible de ces trois options est B ou R est égal à 0,03, ce qui indique qu'il n'existe aucune relation entre les variables.
Corrélation =/= Causalité
Passons maintenant à la causalité. En fait, s'il y a un message clé que vous devez retenir de cette vidéo, ce devrait être ceci même si la corrélation et la causalité sont parfois utilisées incorrectement comme des concepts interchangeables, ce n'est pas du tout le cas. Jusqu'à présent, nous avons appris que le coefficient de corrélation nous indique à quel point une paire de variables sont liées de manière linéaire et changent ensemble. Cependant, il ne nous dit pas pourquoi ni comment. C'est ce que fait la causalité. La causalité, c'est quand il y a une explication logique dans le monde. A la question pourquoi cela se produit? Vous avez peut être déjà entendu parler de ce phénomène qui est aussi appelé la relation de cause à effet.
Causalité
La causalité est une relation entre deux événements ou variables ou un évènement ou processus provoque un effet sur l'autre évènement ou processus, par exemple:
Des recherches nous apprennent qu'il existe une corrélation positive entre les ventes de crèmes glacées et les coups de soleil. Cela veut dire qu'à mesure que les ventes de crèmes glacées augmentent, les cas de coups de soleil augmentent également. Par contre, cela ne veut pas dire que l'achat d'une cône de crème glacée, provoque un coup de soleil, n'est ce pas? Bien sûr que non. La causalité ajoute à la corrélation le contexte et le sens dans le monde réel.
(Série d'image démontrant que la vente de crème glacée et le nombre de coups de soleil sont corrélées mais que chaqu'un est causé par le soleil)
La causalité désigne une relation entre deux événements ou variables qui a une explication valable. Contrairement à la corrélation avec la causalité. Cette explication valide transforme la possibilité en réalité.
Dire que quelque chose provoque un effet sur une autre variable signifie que le résultat d'un évènement est directement influencé par l'autre. Soit la cause précède l'effet, soit l'effet change lorsque la cause change.
Par exemple, du temps sec, chaud et ensoleillé poussera les gens à acheter plus de crèmes glacées que du temps froid. Le temps sec, chaud et ensoleillé provoquera également une augmentation des coups de soleil par rapport au temps plus froid et pluvieux. Cela peut donner l'impression que l'achat de crème glacée provoque des coups de soleil, mais ce n'est tout simplement pas vrai. En ce qui concerne le temps chaud ensoleillé, les ventes de crèmes glacées et les coups de soleil. Les trois variables sont corrélées. Mais les seules relations causales dans ce scénario sont entre la météo et les ventes de crème glacée et entre la météo et les gens qui prennent des coups de soleil.
Attention au biais de confirmation!
Tout comme l'esprit humain aime créer des liens. Il a aussi tendance à accepter plus facilement des preuves qui sont en accord avec les croyances existantes de la personne plutôt que celles qui les réfutent. C'est ce qu'on appelle le biais de confirmation. Donc, quand vous analysez vos données, il est très important d'examiner attentivement les conclusions que vous préférez aussi rigoureusement que celles que vous n'aimez pas afin d'éviter de prétendre qu'il existe une relation de causalité entre deux choses. Alors qu'en fait, ce n'est pas le cas.
Comment déterminer une relation de causalité
Il n'y a pas de tests statistiques faciles pour mettre à l'essai une relation de cause à effet. La confirmation statistique de la causalité nécessite généralement des techniques de modélisation avancées. Toutefois, lorsque vous tentez d'établir la présence ou l'absence d'une relation de causalité, il est généralement plus probable qu'il y ait un lien de causalité entre vos deux variables.
Si les quatre critères suivants sont respectés tout d'abord, comme pour la corrélation, les deux variables doivent varier ensemble, ce qui signifie qu'il a été démontré qu'il existe un coefficient de corrélation positif ou négatif.
Ensuite, cette relation doit être plausible et vraiment, ce que cela veut dire est que la relation doit avoir du sens.
Troisièmement, la cause doit précéder l'effet dans le temps. En d'autres termes, la cause doit avoir lieu en premier pour que l'effet ait lieu.
Enfin, la relation ne doit pas être causée par une troisième variable. Une relation qui semble être entre deux variables, mais qui pourrait aussi être expliquée par une troisième est aussi appelée association fallacieuse. Nous l'avons déjà vu dans notre exemple, examinant la corrélation entre l'augmentation des ventes de crèmes glacées et l'augmentation des cas de coups de soleil. Mais en fait, ces deux augmentations étaient l'effet d'une troisième variable le soleil.
Vérification des connaissances : Cette relation est-elle une relation de causalité?
(Diagramme de dispersion représentant Les heures avant que la personne ne mange à nouveau en fonction du poids du gâteau consommé (kg). La ligne de tendance du nuage de points monte.)
Maintenant, jetant un coup d'œil à ce diagramme de dispersion et essayant de déterminer s'il y a ou non une relation de causalité entre la quantité de gâteau qu'une personne mange et à quel point elle se sent rassasié. Ce que nous mesurons au moyen du temps qui passe avant que la personne ne mange à nouveau. Dans cet exemple, nous supposons que tous les répondants sont semblables, à l'exception de la quantité de gâteau qu'ils ont consommé. Pensez aux quatre critères que nous venons de voir. Est ce que les deux variables varient ensemble? La relation était elle plausible? La cause précède l'effet dans le temps et la relation est elle causée par une troisième variable?
(Texte : Oui - r = 0.918; Oui - processus de digestion; Oui - le gâteau est mangé en premier; Probablement pas - si on prend compte des autres aliments consommés)
Après avoir examiné les quatre critères que nous avons établi pour aider à déterminer si la relation est bien une relation de causalité, nous avons déterminé que d'abord, les variables varient effectivement ensemble. Oui, il y a une relation plausible. Oui, le gâteau est mangé en premier. Et c'est ce qui provoque l'effet de se sentir rassasié. Et dans ce cas, il est peu probable que le sentiment de se sentir rassasié ait été causé par une troisième variable puisque nous avons tenu compte de tous les aliments qui ne sont pas des gâteaux.
L'importance de connaître la différence
(Diagramme de dispersion représentant la moyenne pondérée cumulative (MPC) en fonction des Années de leçons de musique. La ligne de tendance du nuage de points monte)
Un problème commun survient quand on présente deux tendances corrélées en avançant qu'un phénomène cause l'autre. Par exemple, ce diagramme de dispersion montre une relation entre le fait de prendre des leçons de musique et l'obtention d'une moyenne pondérée cumulative MPC élevée. Le graphique semble indiquer qu'il existe une corrélation entre les années de leçons de musique et la MPC moyen. Cependant, est ce que les leçons de musique ont une incidence directe ou causent une augmentation de la MPC? Des recherches sociales montrent que ces étudiants hautement performants sont également plus susceptibles d'avoir grandi dans un environnement qui met l'accent sur l'éducation et qui fournit les ressources nécessaires pour réussir sur le plan scolaire. Il est donc possible que ces étudiants aient obtenu des résultats scolaires supérieurs avec ou sans les leçons de musique, et que leur statut socio économique soit la véritable raison derrière la relation. Donc, même si les leçons de musique et les réalisations scolaires sont corrélées, il y a d'autres facteurs qui devraient nous empêcher d'établir une causalité.
Récapitulation des points clés
Voici un aperçu des points clés que nous avons couverts dans cette vidéo.
Premièrement, la corrélation désigne la relation entre deux variables. Il était important de chercher l'existence, la direction et la force de la relation.
Ensuite, nous avons appris à évaluer la force et la direction d'une corrélation en calculant le coefficient de corrélation r. La visualisation des données nous permet également de déterminer rapidement les corrélations.
Ensuite, nous avons expliqué comment la causalité désigne une relation entre deux événements ou variables qui a une explication valable.
Et enfin, il est important de se rappeler que la corrélation ne sous entend pas toujours la causalité, même si deux variables sont fortement corrélées. Il pourrait s'agir d'une simple coïncidence.
(Le mot-symbole « Canada » s'affiche.)