Supplément à l'Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada relative au Test du recensement de 2019

Date : Avril 2019

Gestionnaire de programme : Marc Hamel, directeur général, Programme du recensement

Mention du fichier de renseignements personnels (FRP)

Les renseignements personnels recueillis dans le cadre du test du recensement sont décrits dans le FRP « Recensement de la population — Test du contenu du Programme du recensement » de Statistique Canada.

Le FRP « Recensement de la population – Test du contenu du Programme du recensement » (numéro de fichier : StatCan PPU 007) est publié dans le site Web de Statistique Canada, dans le plus récent chapitre de Renseignements sur les programmes et les fonds de renseignements.

Description de l'activité statistique

Le test du recensement vise à déterminer s'il est possible de facilement comprendre les questions à l'étude pour le Recensement de la population de 2021, nouvelles ou révisées, et d'y répondre correctement, à évaluer la réaction du public à ces questions en les testant auprès d'un petit échantillon et à évaluer le comportement du personnel lorsqu'il utilise de nouveaux systèmes et de nouvelles procédures. Ce test quantitatif, obligatoire aux termes de la Loi sur la statistique et comportant un échantillon de logements à travers tout le pays, sera réalisé de mai à juillet 2019.

L'objectif du Recensement de la population consiste à fournir des données, des analyses et des services statistiques, en vue de mesurer les changements qui touchent la population du Canada et ses caractéristiques démographiques. Il pose les fondements de la prise de décisions dans les secteurs public et privé, ainsi que de la recherche et de l'analyse dans les domaines qui préoccupent la population du Canada.

Le Recensement de la population est un moyen fiable d'estimer la population des provinces, des territoires et des municipalités. Les données recueillies sont liées à des mesures législatives fédérales et provinciales et servent à la répartition des paiements de transfert fédéraux. Le recensement fournit également des données sur les caractéristiques de la population et des logements au sein de petites régions géographiques ainsi que pour de petits groupes de population afin de soutenir les activités d'évaluation et d'élaboration des politiques, de planification et d'administration de tous les ordres de gouvernement, de même que les activités des utilisateurs de données du secteur privé.

Pour assurer la pertinence continue du recensement pour les Canadiens, Statistique Canada procède à une consultation officielle au début de chaque cycle de recensement. Durant cette période, Statistique Canada invite les utilisateurs de données, les intervenants et le grand public à lui faire part des données qu'ils utilisent, des fins auxquelles elles sont utilisées, ainsi que des éventuelles lacunes qu'elles comportent et que Statistique Canada devrait songer à combler lors du prochain cycle du recensement. Le rapport Résultats de la consultation du Recensement de la population de 2021 : Ce que nous ont dit les Canadiens a été publié sur le site Web de Statistique Canada le 8 avril 2019.

Comme dans les recensements antérieurs, les Canadiens ont pu participer à de vastes consultations sur les questions à inclure dans le Recensement de la population de 2021. Statistique Canada a effectué en 2018 des tests qualitatifs sur les nouvelles questions et les questions révisées élaborées pour tenir compte des nouveaux besoins mentionnés dans les consultations, en ayant recours à des méthodes comme les interviews individuelles et les groupes de discussion.

Raison du supplément

Alors que l'Évaluation générique des facteurs relatifs à la vie privée (EFVP) porte sur la protection de la vie privée et les risques pour la sécurité liés aux activités statistiques de Statistique Canada, ce supplément décrit les nouveaux risques potentiels associés à la collecte, au traitement et à l'utilisation de données concernant le nouveau contenu du recensement à l'étude, et aux possibles préoccupations des Canadiens quant au degré d'intrusion de la collecte. Voici les principaux ajouts au contenu soumis aux tests :

  • une nouvelle question sur le sexe qui permet aux répondants de déclarer un sexe non binaire qui satisfait aux nouvelles normes de Statistique Canada relatives au sexe et au projet de loi C-16 (Loi canadienne sur les droits de la personne);
  • de nouvelles questions sur la langue des ayants droit afin de déterminer le droit des enfants à s'inscrire dans des écoles francophones à l'extérieur du Québec et dans des écoles anglophones à l'intérieur du Québec, dans l'application de l'article 23 de la Charte canadienne des droits et libertés;
  • une nouvelle question d'identification des anciens combattants, afin de faciliter l'exécution du mandat d'Anciens Combattants Canada (données probantes pour la prestation de services, l'élaboration de politiques, l'évaluation de prog
  • une nouvelle question sur la santé autodéclarée pour fournir un prédicateur fiable des besoins en matière de services de santé, notamment l'état de santé des populations vulnérables et pour de petits domaines;
  • une liste modifiée d'exemples d'appartenance ancestrale et de religion; questions modifiées sur l'immigration et le lieu de naissance (la liste d'exemples a d'importantes répercussions sur les structures de réponse);
  • deux questions modifiées sur l'identité autochtone; de nouvelles questions sur les Métis et les Inuits afin de mettre à jour la terminologie et de combler les besoins de renseignements plus précis sur les Métis et les Inuits et de régler les problèmes des données de recensement mis en évidence dans les ententes sur les revendications territoriales;
  • de nouvelles questions sur les titres scolaires les plus récents, le domaine/lieu des études et l'année d'achèvement; les compétences numériques des nouveaux diplômés; des questions modifiées (c.-à-d. titres et fréquentation scolaire) — afin de rehausser la pertinence en tenant compte des modifications apportées dans la prestation de l'enseignement collégial au Canada; d'accroître la qualité; de savoir si les nouveaux diplômés possèdent les compétences numériques qui leur seront nécessaires dans l'économie numérique;
  • de nouvelles questions sur les expériences acquises sur le marché de l'emploi; des questions modifiées sur le déplacement domicile-travail afin d'accroître la pertinence de mieux saisir les expériences acquises sur le marché de l'emploi, comme le sous-emploi et le travail involontairement à temps partiel; une meilleure saisie du navettage afin de mieux combler les besoins des utilisateurs de données.

Ce supplément décrit en outre les procédures en place pour le traitement des empreintes digitales. Conformément à la Politique du gouvernement sur la sécurité, tout le personnel recruté pour le Recensement doit avoir obtenu une cote de fiabilité, qui nécessite la vérification nominale du casier judiciaire (VNCJ) à partir des empreintes digitales, dans le respect de la Norme sur le filtrage de sécurité du Conseil du Trésor. L'organisme travaille avec un tiers fournisseur pour tester l'exécution des tâches automatisées relatives à la vérification des empreintes digitales et de la solvabilité dans le cadre du Test du recensement de 2019.

Nécessité et proportionnalité


La collecte et l'utilisation de renseignements personnels dans le cadre du Test du Recensement de la population de 2019 peuvent se justifier selon la vérification en quatre parties du Commissariat à la protection de la vie privée du Canada :

  • Nécessité : le mandat de Statistique Canada consiste à s'assurer que les Canadiens ont accès à une source fiable de statistiques officielles sur le Canada pour répondre à leurs besoins d'information les plus prioritaires. La production efficace de statistiques pertinentes, accessibles et de grande qualité favorise le fonctionnement efficient de l'économie canadienne et la gouvernance efficace de notre société. Dans l'exécution de ce mandat, Statistique Canada est tenu de réaliser un recensement de la population tous les cinq ans, conformément à la Loi sur la statistique (L.R.C., 1985, a. S-19). Selon la loi, le gouvernement (par l'entremise d'un décret) prescrit les questions à poser dans le recensement. La même loi oblige chaque personne à fournir les renseignements demandés dans le cadre du recensement, et engage Statistique Canada à protéger la confidentialité des renseignements personnels fournis par les répondants. Le prochain recensement aura lieu en mai 2021. Puisqu'il s'agit d'une opération statistique majeure, le recensement constitue un formidable défi pour Statistique Canada et nécessite une planification minutieuse afin d'assurer son achèvement réussi. La réalisation d'un test du recensement, un élément essentiel à sa réussite, est habituellement prévue deux ans avant le recensement. Le contenu proposé pour le recensement découle d'un cadre de détermination du contenu du recensement qui commence par la consultation d'intervenants externes à propos de leurs utilisations des données et de leurs besoins connexes en information, y compris les exigences en matière de pertinence et de qualité, suivie d'une évaluation du contenu canadien qui englobe le fardeau du répondant et les préoccupations sociétales en matière de protection de la vie privée, ainsi que d'une évaluation des facteurs de détermination par Statistique Canada, notamment les coûts, les facteurs opérationnels, la qualité des données et les mesures de protection contre une perte d'efficience ou de qualité dans d'autres programmes de Statistique Canada.

    Le contenu particulier à l'étude répond à des exigences en matière dedonnées hautement prioritaires mentionnées dans les consultations, par exemple :
    • une nouvelle question sur le sexe et des questions modifiées sur le sexe et le lien avec la Personne 1, permettant aux répondants du recensement de déclarer un sexe non binaire, à l'appui des nouvelles normes de Statistique Canada relatives au sexe et au projet de loi C-16 (Loi canadienne sur les droits de la personne);
    • de nouvelles questions sur la langue des ayants droit afin de déterminer le droit des enfants à s'inscrire dans des écoles francophones à l'extérieur du Québec et dans des écoles anglophones à l'intérieur du Québec, dans l'application de l'article 23 de la Charte canadienne des droits et libertés;
    • une nouvelle question d'identification des anciens combattants, qui facilite l'exécution du mandat d'Anciens Combattants Canada, avec des données probantes pour la prestation de services, l'élaboration de politiques, l'évaluation de programme;
    • une nouvelle question sur la santé autodéclarée fournit des données fortement corrélées avec la santé réelle de la personne, un prédicateur fiable des besoins en matière de services de santé, et indiquerait l'état de santé des populations vulnérables et pour de petits domaines;
    • une question modifiée sur l'identité autochtone et une nouvelle question sur les Métis et les Inuits, une mise à jour de la terminologie et la réponse à un besoin de renseignements plus précis sur les Métis; à un besoin de renseignements plus précis sur les Inuits; la résolution de problèmes concernant les données de recensement mis en évidence dans les ententes sur les revendications territoriales;
    • de nouvelles questions sur les titres scolaires les plus récents, le domaine/lieu des études et l'année d'achèvement; les compétences numériques des nouveaux diplômés, titres et fréquentation scolaire, rehaussent la pertinence en tenant compte des modifications apportées dans la prestation de l'enseignement collégial au Canada, accroissent la qualité et déterminent si les nouveaux diplômés possèdent les compétences numériques qui leur seront nécessaires dans l'économie numérique;
    • de nouvelles questions sur les expériences acquises sur le marché de l'emploi et des questions modifiées sur le déplacement domicile-travail, pour une pertinence accrue d'une meilleure capture des expériences acquises sur le marché de l'emploi, comme le sous-emploi et le travail involontairement à temps partiel, de même qu'une meilleure saisie des renseignements sur le navettage afin de mieux combler les besoins des utilisateurs de données.
  • Efficacité : la collecte et l'utilisation de ces données pendant le Test du recensement de 2019 se révéleront efficaces pour l'atteinte des objectifs de Statistique Canada, parce qu'elles servent à garantir que le Recensement de la population de 2021 générera des renseignements pertinents, hautement prioritaires et significatifs sur le plan statistique.

    Un nombre considérable de modifications du contenu sont testées en 2019. Certaines touchent des concepts de base, comme le sexe et qui devrait faire partie du dénombrement d'un ménage (couverture). De nombreuses modifications proposées du contenu de 2021 touchent de plus petits groupes de population (transgenres, non binaires, couples du même sexe; groupes ethniques; résidents ayant des visas de travail ou d'étudiant; populations autochtones; etc.). Pour être efficace, le test du contenu doit discerner avec précision les différences statistiques entre le contenu de 2016 (repère) et les différentes versions du contenu modifié afin que le contenu proposé puisse générer des renseignements pertinents et significatifs sur le plan statistique.
  • Proportionnalité : les données du programme de Recensement de la population brossent un portrait socioéconomique complet de la population canadienne au fil du temps, ce qui respecte les exigences clés des secteurs de politiques, notamment les conditions du marché du travail, l'immigration, les peuples autochtones, la scolarité, la mobilité, le développement des compétences, les langues officielles, le logement et le revenu. Tous les ordres de gouvernement, le secteur privé, les universités et les organismes sans but lucratif ont un besoin vital de ces renseignements pour leur prise de décisions et pour élaborer et surveiller les programmes et les politiques. Pour une réalisation efficiente et réussie du Recensement de la population du recensement de 2019, Statistique Canada procède au Test du recensement de 2019 auprès d'un échantillon de 258 000 ménages de tout le Canada. Le test sert de multiples fins, de la mise à l'essai de questions améliorées ou nouvelles à celle des améliorations apportées aux outils et aux procédures de collecte. La détermination de la taille de l'échantillon et du plan complexe du test fait en sorte que tous les objectifs du test sont atteints, tout en réduisant autant que possible le fardeau du répondant et le coût. Des tests quantitatifs plus modestes ont déjà été réalisés pour faciliter la réduction de la taille de l'échantillon du Test du recensement de 2019. Sans ce test du contenu, un risque significatif menacerait la réussite du Recensement de la population de 2021.
  • Solutions de rechange : Le Programme du recensement est l'une des seules sources d'information pour les petites régions géographiques fondées sur les mêmes concepts statistiques pour l'ensemble du pays, et la seule source d'information pour de nombreuses caractéristiques socioéconomiques.

    La réalisation de tests exhaustifs précédera le Recensement de 2021 afin d'évaluer les modifications apportées au contenu, les documents de communication, les procédures sur le terrain et les méthodes de collecte. Le Test de 2019 vise à mesurer avec précision les comportements des répondants face aux modifications apportées au contenu et aux procédures sur le terrain et aux méthodes de collecte. Des tests volontaires, en 2019, procureraient des résultats imprécis ou non concluants pour un grand nombre de modifications proposées au contenu du questionnaire. La documentation portant sur la collecte des données d'enquête montre que les tests de recensement obligatoires fournissent les mesures les plus précises sur les incidences dans le cadre d'études sur de petits sous-groupes de la population.

    Des réponses volontaires au test pourraient générer un biais de non-réponses, surtout pour les groupes de population plus petits. Des préoccupations du même ordre ont été soulevées dans le contexte de l'Enquête nationale auprès des ménages (ENM) de 2011. L'ENM de 2011 a montré que dans un contexte volontaire, certains répondants ont tendance à omettre des questions ou à abandonner plus souvent, ce qui amplifie la non-réponse à certaines questions, surtout celles situées près de la fin du questionnaire. Ces questions pourraient subir une plus forte incidence et mener à des conclusions erronées, ce qui entraînerait la formulation de recommandations sur le contenu nouveau ou modifié du Recensement de 2021 fondée sur des résultats de test incomplets. De plus, sans réduction du risque de biais de non-réponses, un test volontaire nécessiterait un échantillon de plus grande taille afin de tenir compte du total de non-réponses. Selon un plan provisoire, au moins 60 000 logements additionnels devraient faire partie du test, et compte tenu de la proportion plus élevée de non-réponses prévues, le nombre de rappels et de tentatives de contact avec les ménages sélectionnés serait plus élevé.

    Par ailleurs, bien Statistique Canada continue d'étudier la possibilité d'utiliser de nouvelles sources administratives pour remplacer la collecte des données auprès des répondants, les recherches ne sont pas encore assez avancées pour envisager l'utilisation de données administratives pour remplacer le nouveau contenu à l'étude pour le Recensement de la population de 2021.

Facteurs d'atténuation

Le Test du recensement de 2019 respectera les politiques de Statistique Canada en matière de collecte, de traitement et de diffusion de l'information.

Cette section définit les mesures de protection mises en place pour atténuer les risques pour la protection de la vie privée qui sont mentionnés dans l'EFVP générique, puisqu'ils sont liés à cette activité en particulier.

Entreposage

Les renseignements personnels des répondants parviennent directement à Statistique Canada par l'entremise de questionnaires électroniques sécurisés exploitables sur le Web ou, dans le cas des formats de questionnaire papier, par la poste, directement à un centre de dépouillement sécurisé de Statistique Canada, où les renseignements sont saisis et un document électronique, créé.

Les enregistrements sont conservés dans une base de données des réponses qui renferme les réponses des ménages, dont des renseignements personnels, afin de procéder à des couplages d'enregistrements avec les fichiers de réponses du Recensement de la population de 2016 et les fichiers de données fiscales.

Tous les enregistrements électroniques sont conservés dans l'environnement sécurisé de technologie de l'information de Statistique Canada. Les questionnaires papier sont conservés en toute sécurité dans l'environnement de traitement à accès contrôlé de Statistique Canada.

Les enregistrements sont conservés pour une période de 5 ans après la fin du test du recensement, puis ils sont détruits.

Traitement et analyse

La longue expérience de l'organisme en matière de couplage a montré qu'il est possible d'utiliser des associations particulières d'éléments des renseignements personnels pour identifier des personnes dans différentes sources des données avec un niveau très élevé de confiance, puis de relier les personnes entre divers fichiers.

Les renseignements personnels suivants seront recueillis et utilisés pour effectuer des couplages d'enregistrements :

  • prénom et nom de famille (recueillis);
  • date de naissance (recueillie);
  • sexe (recueilli);
  • adresse réelle complète (puisée dans la base de sondage et recueillie);
  • numéro de téléphone (puisé dans la base de sondage et recueilli);
  • mobilité en un an et en cinq ans (recueillie);
  • pays de citoyenneté (recueilli);
  • lieu de naissance (recueilli);
  • statut d'immigrant (recueilli auprès des répondants ayant reçu un questionnaire témoin ou la version 2 du questionnaire test; ajouté à partir de couplages pour les répondants ayant reçu la version 1 du questionnaire test);
  • année d'immigration (recueillie auprès des répondants ayant reçu un questionnaire témoin ou la version 2 du questionnaire test; ajoutée à partir de couplages pour les répondants ayant reçu la version 1 du questionnaire test);
  • identificateur de la base (puisé dans la base de sondage).

Le couplage des données du Programme du Recensement de la population et des données du Test du recensement de 2019 servira à des analyses statistiques visant à évaluer l'incidence des nouvelles questions ou des questions modifiées du questionnaire en comparant le Test du recensement de 2019 à d'autres sources existantes ou à des données recueillies dans le Recensement de 2016. Le fichier de couplage servira seulement à Statistique Canada, à des fins de recherche, de développement et de traitement méthodologiques. Les données couplées ne donneront lieu à aucune publication d'estimations statistiques.

Les identificateurs personnels, comme le nom, le numéro de téléphone et l'adresse (exception faite du code postal), seront coupés des fichiers couplés et remplacés par un identificateur statistique anonymisé.

Accès

L'accès à toute donnée confidentielle détenue par Statistique Canada fait l'objet d'une étroite surveillance et se limite aux employés désignés, conformément aux exigences opérationnelles du programme. Les employés doivent présenter les justificatifs de l'accès et obtenir l'approbation nécessaire. De plus, toutes les autorisations d'accès s'appliquent uniquement à une durée déterminée et doivent être régulièrement renouvelées, y compris les justificatifs relatifs au renouvellement de l'autorisation.

La base de données des réponses du Test de 2019 n'a pas encore été créée. Le nombre d'employés ayant accès à la base de données des réponses du Test du recensement de 2019 variera en fonction du calendrier des activités de préparation du Recensement de 2021 et de la nécessité, pour le personnel, d'y avoir accès dans le cadre de leur travail. L'accès aux renseignements identificatoires (noms, adresses et numéros de téléphone) que renferme cette base de données sera contrôlé et limité à un petit groupe d'employés ayant besoin de cet accès. La plupart des employés qui analyseront les données n'auront pas accès aux renseignements identificatoires contenus dans la base de données.

Diffusion

Statistique Canada se servira des données recueillies durant le Test du recensement de 2019 seulement à des fins analytiques, sans les rendre publiques. Statistique Canada ne divulguera aucun renseignement personnel provenant du Test du recensement de 2019 sans le consentement du répondant.

Transparence

La politique de Statistique Canada est de fournir à tous les répondants les renseignements sur le but d'une enquête (y compris l'utilisation prévue des statistiques qui seront produites à partir de l'enquête ainsi que les utilisateurs de ces statistiques), l'autorité en vertu de laquelle l'enquête est menée, le caractère obligatoire ou volontaire de la participation à l'enquête, la protection de la confidentialité, les couplages d'enregistrements envisagés et l'identité des parties cosignataires à tout accord de partage des données, s'il y a lieu.

Pour le Test du recensement de 2019, ces renseignements sont fournis dans la lettre d'invitation à remplir le questionnaire du test du recensement, dans le questionnaire électronique lui-même et dans la foire aux questions accessible sur le site Web du Recensement.

Ce supplément à l'EFVP sera mis à la disposition du public sur le site Web de Statistique Canada à titre d'addenda à l'EFVP générique. Statistique Canada a en outre préparé une liste de questions et réponses et de points de discussion pour aider le personnel interne à répondre aux questions du public ayant trait au Test.

Autres facteurs

Cette section présente d'autres considérations relatives à la confidentialité qui sont liées au Test du recensement de 2019.

Utilisation de données administratives pour les logements collectifs

Statistique Canada tente de recueillir auprès des résidents de logements collectifs les mêmes renseignements que ceux recueillis auprès d'autres Canadiens, et a eu recours à diverses méthodes de collecte, dans le passé. Le Test du recensement de 2019 reprendra la méthode utilisée pour le Recensement de 2016, où les dossiers administratifs d'établissements institutionnels ont servi d'instruments de collecte, le cas échéant, pour remplacer les dénombrements directs de résidents.

Messages texte de rappel sur le téléphone cellulaire

En 2016, le Recensement de la population a eu recours à la diffusion de messages vocaux en tant que dernier rappel envoyé aux Canadiens pour qu'ils remplissent leur questionnaire de recensement avant le début des activités de suivi sur le terrain auprès des non-répondants. Ces rappels ont entraîné un nombre accru de réponses. Puisque de plus en plus de Canadiens utilisent des téléphones cellulaires, Statistique Canada envisage la possibilité de recourir à une nouvelle méthode en utilisant des messages texte de rappel dans le Test du recensement de 2019 et de savoir ainsi si cette méthode s'avérerait efficace en tant que complément aux messages vocaux, en 2021.

Le 3 juin 2019, tous les logements non répondants pourvus de numéros de téléphone cellulaire dans le champ de la portion du contenu du test de 2019 (environ 27 000 logements) recevront l'un des trois traitements : un tiers recevra un message vocal de rappel, un tiers recevra un seul rappel textuel et le dernier tiers ne recevra aucun rappel. Il est à noter que lorsque les répondants dans le champ d'enquête reçoivent un troisième rappel par la poste pour remplir leur questionnaire de recensement, ils sont avisés que Statistique Canada pourrait communiquer ensuite avec eux par téléphone ou en personne. Les logements non répondants sans numéro de téléphone cellulaire recevront un message vocal de rappel.

Recrutement d'employés en vertu de la Loi sur la statistique

Les candidats éventuels pour les opérations sur le terrain dans le cadre du Recensement doivent remplir une demande d'emploi par l'entremise de l'Application de recrutement en ligne sécurisée sur le Web. Les renseignements personnels associés à la demande d'emploi sont conservés dans le Portail de gestion de la collecte (outil interne sécurisé de Statistique Canada pour le personnel sur le terrain), qui est dédié à l'EFVP générique de Statistique Canada. Ils comprennent le nom, l'adresse, les coordonnées, le statut de citoyen, l'expérience, les capacités et les références. Les recruteurs se servent de ces renseignements pour sélectionner, tester et interviewer les candidats, ainsi que pour lancer le processus de cote de sécurité.

Conformément à la Politique du gouvernement sur la sécurité, toute personne embauchée pour le Recensement doit obtenir une cote de fiabilité. Le processus d'obtention comprend une vérification nominale du casier judiciaire (VNCJ) à partir des empreintes digitales et une enquête de solvabilité, conformément à la Norme sur le filtrage de sécurité du Conseil du Trésor. Statistique Canada compte effectuer environ 80 000 évaluations de la sécurité pour la cote de fiabilité dans le cadre du processus de dotation pour le Recensement de la population de 2021.

L'organisme travaille avec un tiers fournisseur (en tant que personne réputée être employée) pour tester l'exécution des tâches automatisées relatives à la vérification des empreintes digitales et de la solvabilité dans le cadre du Test du recensement de 2019. Le tiers fournisseur n'aura pas accès aux renseignements des candidats, sauf s'il doit avoir accès au système pour régler des problèmes critiques, auquel cas il devra obtenir l'approbation de sa demande par le Bureau de la sécurité ministérielle après consultation auprès du Programme du recensement. L'accès sera supervisé et soumis à des contrôles d'accès. Deux agents ministériels de la sécurité seront autorisés à accéder aux résultats du filtrage de sécurité durant les périodes de production et de rétention.

L'exécution des tâches liées au filtrage de sécurité commence avec le consentement écrit des candidats à la vérification nominale du casier judiciaire à partir des empreintes digitales et une enquête de solvabilité. Par la suite, leurs empreintes digitales sont prises à l'aide d'appareils de dactyloscopie mobiles et accrédités au cours des séances d'examens de recrutement administrées par le personnel de Statistique Canada. La solution de filtrage de sécurité utilisée pour le test est accréditée par la Gendarmerie royale du Canada (GRC). Cela comprend des lecteurs d'empreintes digitales et une application Web servant à capturer les empreintes digitales des candidats accompagnées de leurs nom, adresse et date de naissance. La solution s'interface en toute sécurité avec les deux systèmes informatiques de la GRC pour effectuer une vérification nominale du casier judiciaire, et avec un service d'établissement de cote de crédit, pour effectuer une enquête de solvabilité. Les résultats sont ensuite envoyés directement au Bureau de la sécurité ministérielle (BSM) de Statistique Canada, par transmission électronique sécurisée faisant partie d'un flux de travail automatisé. Les agents du BSM procèdent à une évaluation plus poussée de tous les candidats n'ayant pas la citoyenneté canadienne, ayant déclaré avoir un casier judiciaire ou avoir séjourné à l'étranger plus de 6 mois au cours des 5 années précédentes. Le personnel de Statistique Canada effectue concurremment des vérifications des références. Les candidats qui passent la sélection par évaluation de la sécurité (vérifications du casier judiciaire et de la solvabilité) et la vérification des références reçoivent une cote de fiabilité et sont jugés admissibles à l'obtenti

Un examen des procédures proposées est réalisé afin d'assurer leur conformité avec l'autorisation pluriinstitutionnelle de disposer de documents portant sur la fonction « administration générale » (98/001) de Bibliothèque et Archives Canada. Comme pour les opérations courantes de Statistique Canada et en vertu de la disposition, les fiches de résultats sur le casier judiciaire et les résultats de l'enquête de solvabilité sont stockés sur un lecteur réseau sécurisé, dans le dossier électronique personnel du candidat, pendant les périodes de conservation exigées :

  • les fiches de résultats sur le casier judiciaire (qui contient les empreintes digitales) et les résultats de l'enquête de solvabilité des candidats qui ont les qualifications requises pour un poste et font partie d'un bassin de candidats (non embauchés) sont conservés pour la durée du bassin, puis détruits de façon sécuritaire;
  • les fiches de résultats sur le casier judiciaire (qui contient les empreintes digitales) et les résultats de l'enquête de solvabilité des candidats embauchés sont conservés pendant deux ans après la fin de l'emploi;
  • les empreintes digitales des candidats ayant échoué au test et n'ayant pas été embauchés n'ont aucune valeur opérationnelle et sont considérées de nature transitoire. Ils sont supprimés de façon sécuritaire dès que la confirmation du fait qu'ils ne sont plus nécessaires.

Conclusion

Cette évaluation conclut que, grâce aux mesures de protection existantes de Statistique Canada, les risques résiduels sont suffisamment faibles pour que Statistique Canada accepte de gérer le risque.

Supplément à l'Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada liée à l'Enquête sur la sécurité individuelle au sein de la population étudiante postsecondaire

Date : Mars 2019

Gestionnaire de programme : Directeur, Division du tourisme et du Centre de la statistique de l'éducation

Introduction

La Plateforme longitudinale entre l'éducation et le marché du travail (PLEMT) st un environnement qui permet l'intégration de variables provenant de sources administratives de base sur l'éducation à celles d'autres ensembles de données sélectionnés. Le PLEMT ne contient aucun identificateur personnel. Des clés de couplage anonymes sont créées à l'aide de l'Environnement de couplage de données sociales (ECDS) à partir duquel a été réalisée une évaluation séparée des facteurs relatifs à la vie privée (Environnement de couplage de données sociales).

Référence au Fichier de renseignements personnels

Conformément à la Loi sur la protection des renseignements personnels, Statistique Canada a enregistré des fichiers de renseignements personnels (FRP) pour ses fonds de renseignements personnels, notamment les ensembles de données de base qui seront couplés par l'intermédiaire de la PLEMT : le Système d'information sur les étudiants postsecondaires (SIEP) (PPU 090), le Système d'information sur les apprentis inscrits (SIAI) (PPU 083) et le fichier sur la famille T1 (FFT1) (PPU 111). L'utilisation aux fins de couplage des renseignements personnels provenant de ces programmes est décrite dans ces FRP en tant qu'usages compatibles.
En cas d'intégration de sources de données supplémentaires à la PLEMT, les FRP pertinents sont ajoutés ou mis à jour, selon les besoins.

Veuillez consulter la page « Renseignements sur les programmes et les fonds de renseignements » pour voir les descriptions de ces fichiers de renseignements personnels.

Raison du supplément

L'évaluation générique des facteurs relatifs à la vie privée (EFVP) de Statistique Canada présente et analyse les principes de protection de la vie privée et les niveaux de risques potentiels à la sécurité ayant trait à ses activités statistiques. Les mesures de protection déjà en place ont été jugées suffisantes pour atténuer les risques potentiels relatifs à la protection de la vie privée associés à la PLEMT.

Ce supplément à l'EFVP vise par conséquent à décrire ce nouvel environnement de données et à illustrer clairement la nécessité d'obtenir ces renseignements personnels afin d'atténuer toute inquiétude que pourraient avoir les Canadiens à propos de cette activité statistique.

Description de l'activité statistique

La Plateforme longitudinale entre l'éducation et le marché du travail (PLEMT) est une plateforme d'ensembles de données intégrés en toute sécurité, qui donne accès, à l'aide de clés d'appariement, à des variables analytiques utilisées en recherche. La PLEMT donne accès à des renseignements longitudinaux anonymisés à propos de cohortes d'étudiants de collèges et d'universités et d'apprentis inscrits, afin de mieux comprendre leur cheminement dans le réseau d'enseignement postsecondaire et l'incidence de leurs études et de leur formation sur leurs perspectives de carrière en termes de gains.

Les recherches faisant appel aux données de la PLEMT porteront sur une grande variété de questions stratégiques relatives à la persévérance des étudiants et des apprentis, à leur achèvement, à leur mobilité et à leurs parcours. Ces données permettront aux décideurs politiques de comprendre les différents parcours que les étudiants peuvent suivre tout au long de leurs études postsecondaires ou de leur formation d'apprenti, de même que les caractéristiques des étudiants qui peuvent être liées à ces parcours. Ces données peuvent aussi servir à éclairer des questions stratégiques liées aux résultats sur le marché du travail : p. ex. quels résultats et expériences postsecondaires sont liés à de meilleurs résultats sur le marché du travail, et comment les caractéristiques (personnelles ou familiales) des étudiants peuvent être liées à leurs résultats sur le marché du travail. Les résultats obtenus à partir de la PLEMT seront aussi utiles aux jeunes Canadiens et à leurs familles lorsqu'ils auront à prendre des décisions concernant leurs études à venir.

Les ensembles de données de base de la PLEMT sont : le Système d'information sur les étudiants postsecondaires (SIEP), le Système d'information sur les apprentis inscrits (SIAI) et le fichier sur la famille T1 (FFT1) (tiré des données de la déclaration de revenus, pour tous les enregistrements couplés à ceux du SIEP et du SIAI). Le SIEP est un fonds de données renfermant toutes les inscriptions et tous les grades décernés par les collèges et universités publics du Canada selon le type de programme/diplôme d'études et le domaine d'études pour chaque année scolaire. Le SIAI est un ensemble de données administratives annuelles pancanadiennes (provinciales et territoriales) sur les apprentis inscrits et les travailleurs qualifiés. Le PLEMT de base comprend les données du SIEP à partir de 2009, les données du SIAI à partir de 2008, et les données du FFT1 à partir de 1992 pour toutes les provinces et tous les territoires.

L'intégration d'autres ensembles de données à la PLEMT à l'aide de l'ECDS décrite en détail ci-dessous sera nécessaire pour traiter des questions de recherche additionnelles connexes. Dans ces nouveaux ensembles de données, les fichiers de renseignements personnels seront ajoutés ou mis à jour, selon les besoins.

Les identificateurs personnels obtenus sur les étudiants postsecondaires et les apprentis sont utilisés dans l'ECDS pour attribuer des identificateurs statistiques anonymes qui permettent à Statistique Canada de les relier à d'autres sources d'information en sa possession aux fins d'analyse statistique et de recherche, une fois qu'il en aura obtenu l'approbation, conformément à la Directive sur le couplage de microdonnées. Les identificateurs personnels obtenus sont retirés du reste des renseignements et conservés de façon sécuritaire, leur accès étant restreint à tout au plus 25 employés de Statistique Canada ayant une exigence opérationnelle de les consulter, accès qui leur est retiré dès qu'il n'est plus nécessaire. La Directive sur la gestion des fichiers de microdonnées statistiques de Statistique Canada prescrit la durée de leur conservation avant leur élimination. En aucun cas les renseignements personnels sur les étudiants obtenus d'établissements d'enseignement postsecondaire et de formation d'apprentis serviront à des fins administratives ou analytiques.

Les ensembles de données intégrés dans la PLEMT sont assujettis aux exigences de confidentialité de la Loi sur la statistique. Comme pour toutes les données recueillies en vertu de la Loi sur la statistique, les ensembles de données analytiques intégrés qui sont accessibles à des fins de recherche ne renferment aucun identificateur personnel. Un accès est accordé aux chercheurs qui sont considérés comme des employés de Statistique Canada une fois qu'ils ont obtenu leur cote de sécurité et porté un serment de discrétion conformément à la Loi sur la statistique. L'accès aux données est approuvé en cas de besoins particuliers, pour un laps de temps donné, et doit avoir lieu dans des conditions sécurisées comme les bureaux de Statistique Canada ou les centres de données de recherche. Statistique Canada examine minutieusement tous les extrants pour en assurer la confidentialité avant les retirer du milieu sécurisé ou de les divulguer au public.

Seuls des renseignements statistiques agrégés et non confidentiels sur les étudiants et les apprentis canadiens seront rendus publics et, par conséquent, aucune personne ne sera identifiable dans les produits divulgués au public. Jamais un renseignement personnel ne sera divulgué sans le consentement de celui qui a recueilli les données à l'origine et l'autorisation du statisticien en chef, selon ce qu'exige la Loi sur la statistique.

Les Canadiens auront accès aux résultats obtenus à partir de la PLEMT dans une foule de produits, notamment des tableaux de données et des rapports d'analyse, publiés par Statistique Canada. Voici quelques exemples des avantages que les résultats procurent aux Canadiens : l'obtention des renseignements aux futurs étudiants et apprentis inscrits sur les gains par domaine d'études et métier; des perspectives sur les parcours d'études que les décideurs politiques pourraient utiliser pour mettre sur pied des programmes qui répondent mieux aux besoins des étudiants durant leurs études; des aperçus des caractéristiques familiales et générales des étudiants qui influent sur leur participation aux études postsecondaires et leur achèvement de celles-ci, dont peuvent se servir les décideurs politiques pour éclairer leurs décisions visant à optimiser la participation aux études postsecondaires et le taux de réussite.

Nécessité et proportionnalité

L'utilisation de renseignements personnels pour la PLEMT peut se justifier selon la vérification en quatre parties du Commissariat à la protection de la vie privée du Canada :

  1. Nécessité : La Plateforme longitudinale entre l'éducation et le marché du travail est une initiative conjointe de Statistique Canada, d'Emploi et Développement social Canada et des ministères provinciaux et territoriaux responsables des études postsecondaires qui vise à étendre les possibilités des ensembles de données administratives existants. La PLEMT permet l'intégration de différents ensembles de données, tant longitudinales que transversales, afin de faciliter le traitement d'un vaste éventail de questions prioritaires ayant trait à la persévérance des étudiants et des apprentis, de l'achèvement, de la mobilité, du parcours pédagogique et des résultats sur le marché du travail en fonction du temps, qu'il serait impossible de traiter à partir des seuls ensembles de données annuelles sous-jacents. La PLEMT facilite la production et la publication d'analyses, d'indicateurs et de tableaux de données portant sur ces sujets. Elle est essentielle à l'analyse longitudinale des données du SIEP et du SIAI, et à l'analyse entre établissements institutionnels et provinces/territoires.

  2. Efficacité : La PLEMT fait nettement augmenter les possibilités analytiques en rendant le SIEP et le SIAI longitudinaux. De plus, leur intégration à d'autres sources de données qui renferment des renseignements contextuels et sur les résultats des étudiants postsecondaires et les apprentis comblera les lacunes de données observées, ce que seuls des enregistrements administratifs peuvent faire. Il est par exemple possible de comparer les gains après l'achèvement de divers types de programmes d'enseignement ou de formation, pour différents types d'étudiants, à l'aide de données administratives au lieu de données d'enquête, ce qui réduit considérablement le fardeau imposé aux Canadiens. Il est possible d'examiner les parcours relatifs aux études postsecondaires au fil du temps et entre les établissements institutionnels et les provinces/territoires. Plusieurs années de données administratives existantes permettront d'établir les taux d'achèvement de programme au lieu de devoir attendre la fin d'un ou de plusieurs cycles d'une nouvelle enquête.

    Les ensembles de données analytiques comportant des clés d'appariement anonymes dont les chercheurs approuvés (de « personnes réputées être employées ») disposent par l'intermédiaire des centres de données statistiques de Statistique Canada élargissent les possibilités d'accès et de recherche chez les intervenants et autres pour l'utilisation de ces renseignements étoffés et l'habilitation de nouveaux projets.

  3. Proportionnalité : Toute utilisation de renseignements personnels suppose un certain degré d'intrusion perçue et oblige à gérer minutieusement la situation. La conception des méthodes et pratiques applicables à la PLEMT (et à l'ECDS) vise la protection de la vie privée et des renseignements personnels, tout en conservant la capacité d'intégrer des variables analytiques issues de différentes sources existantes pour combler les lacunes de données.

    En plus de combler les lacunes de données, la mise au point de la PLEMT offre des possibilités de recherche additionnelles sur les ensembles de données de base pour éclairer les politiques et les pratiques. Intégrer les ensembles de données administratives actuelles de Statistique Canada permet d'entreprendre de nouvelles analyses statistiques étendues. Cela permet également de prochains travaux de couplage avec d'autres bases de données administratives et axées sur les enquêtes de Statistique Canada — là encore en enrichissant et en élargissant les possibilités analytiques pour mieux éclairer les politiques publiques et la recherche.

  4. Autres données : La PLEMT fournit des clés pour apparier les enregistrements annuels d'étudiants et d'apprentis en fonction du temps. Sans cette option de données longitudinales, il est impossible d'analyser les parcours des étudiants dans les programmes d'études postsecondaires et de formation d'apprentis. Impossible aussi d'en tirer des indicateurs de rendement longitudinaux, comme les taux d'achèvement. L'appariement d'un recensement de données administratives sur les étudiants postsecondaires et les apprentis inscrits à des renseignements fiscaux sur les gains permet d'analyser à un niveau plus poussé les diplômes d'études et les types de programmes, de même que les résultats après les études. Dans un environnement sécurisé approuvé, les employés et les personnes réputées être employées peuvent analyser les liens entre les parcours d'étudiants et leurs résultats sur le marché du travail, sur une base annuelle. Aucune autre source ne permet une analyse aussi détaillée. Les sources d'enquête sont limitées par la taille de l'échantillon, les taux de réponse et une collecte moins fréquente, en plus du manque de détail des données. Une nouvelle enquête est dispendieuse et porteuse d'un fardeau de réponse. Statistique Canada a des preuves depuis longtemps de l'importante diminution des taux de réponse aux enquêtes longitudinales au fil du temps, ce qui entraîne un biais et réduit nettement la qualité et l'exactitude. C'est la raison pour laquelle la majorité des enquêtes longitudinales ont été abandonnées.

Transparence

Un résumé de ce supplément à l'EFVP sera mis à la disposition du public sur le site Web de Statistique Canada à titre d'addendum à l'EFVP générique. Vous trouverez une série de guides de référence décrivant la PLEMT sur le site Web de Statistique Canada (« Guides de référence technique de la Plateforme longitudinale entre l'éducation et le marché du travail (PLEMT) » (numéro 37200001 au catalogue). Le site Web de Statistique Canada présente également des renseignements sur les ensembles de données accessibles sur la PLEMT par l'intermédiaire de ses centres de données de recherche et sur les projets de recherche basés sur la PLEMT (Liste de tous les projets des CDR réalisés au cours des 12 derniers mois).

Statistique Canada a collaboré avec le Conseil des ministres de l'Éducation (Canada) (CMEC) et le Conseil canadien des directeurs de l'apprentissage (CCDA), et EDSC, afin d'obtenir les priorités relatives aux questions de recherche à orientation prédéterminée. Ces communications serviront à guider le développement de la PLEMT et à établir l'ordre de priorité des ensembles de données à ajouter. Statistique Canada travaille à un plan visant à accroître la transparence relative à l'utilisation de données administratives pour le développement de la PLEMT et poursuit ses travaux concertés avec le CMEC et le CCDA pour assurer l'efficacité des documents de communication qui en découleront.

Environnement de fichiers couplables – Entreprises

Survol

Survol de l'Environnement de fichiers couplables – Entreprises

Programmes et applications

Exemples de programmes et d'applications utilisant l'Environnement de fichiers couplables – Entreprises

Pour commencer

Ce qu'il faut considérer avant d’entamer un projet de couplage d’enregistrements à l’aide de l’Environnement de fichiers couplables – Entreprises


L'Environnement de fichiers couplables – Entreprises * (EFC-E) est l'espace virtuel dans lequel les microdonnées sur les entreprises tirées de sources administratives et d'enquêtes de Statistique Canada sont couplées aux fins d'analyse et de recherche afin de produire des renseignements précieux sur l’économie canadienne.

Le couplage de microdonnées est une méthode statistique dont l'objectif est de maximiser l'utilisation des renseignements existants en couplant différents fichiers et différentes variables pour créer de nouveaux renseignements qui servent l’intérêt des Canadiens. En appliquant cette méthode aux données sur les entreprises, l’EFC-E crée de nouveaux renseignements sans imposer de fardeau de réponse additionnel aux entreprises ni engendrer de coûts de collecte additionnels pour les intervenants.

En plus des données sur les entreprises, l'EFC-E comprend désormais des couplages avec les bases de données sociales, comme le Recensement de la population et la Base de données longitudinales sur l'immigration. Ces couplages enrichissent l'EFC-E en intégrant certains renseignements, comme le genre, l'âge, le groupe racisé, le niveau de scolarité et la langue des propriétaires d'entreprises et des employés.

Les bases de données découlant de ces couplages permettent de combler les lacunes en matière de données et d'appuyer la recherche et les politiques des ministères fédéraux, des administrations publiques provinciales et des chercheurs universitaires. Pour obtenir une description mise à jour de l'EFC-E ainsi qu'une liste de ses sources de données, consultez la page de la Base de métadonnées intégrée de Statistique Canada.

Principaux thèmes couverts par les sources de données de l'Environnement de fichiers couplables – Entreprises

Principaux thèmes couverts par les sources de données de l'Environnement de fichiers couplables – Entreprises
Description - Principaux thèmes couverts par les sources de données de l'Environnement de fichiers couplables – Entreprises

Cette image représente un diagramme circulaire montrant les principaux thèmes couverts par les sources de données de l’Environnement de fichiers couplables - Entreprises. Le côté gauche du cercle représente les thèmes couverts par les sources de données d'enquête et le côté droit, ceux couverts par les sources de données administratives. Au centre du diagramme circulaire se trouve un autre cercle, plus petit, dans lequel on peut voir, à gauche, le Registre des entreprises entouré par le mot « Entreprises ». Du côté droit de ce cercle de plus petite taille, on peut voir le recensement et la Base de données longitudinales sur l'immigration, avec les mots « Propriétaires et employés » autour. Au centre de ce cercle plus petit, on trouve l'image d'un édifice du côté gauche, et l'image d'une personne du côté droit.

Parmi les exemples de thèmes figurant du côté gauche du diagramme circulaire réservé aux données d'enquête, il y a l'innovation, la recherche et développement, les petites et moyennes entreprises, la propriété intellectuelle et l'investissement et le commerce.

Parmi les exemples de thèmes figurant du côté droit du diagramme circulaire réservé aux données administratives, il y a les données fiscales, l'emploi, le soutien à la croissance et à l'innovation en entreprise, le crédit d'impôt pour la recherche et développement, et les importateurs et les exportateurs.

Foire aux questions

  • Quels sont les avantages de l'utilisation de l'Environnement de fichiers couplables – Entreprises?

    I have logged onto my Electronic File Transfer account, where is the dataset?

    L'EFC-E permet aux utilisateurs de produire de nouveaux renseignements sur les entreprises grâce au couplage de microdonnées de sources de données existantes. Il favorise ainsi l'utilisation efficace des fonds de données existants, en plus de réduire le fardeau de réponse des entreprises canadiennes. Par ailleurs, il permet de combler les lacunes existantes en matière de données, d'englober l'ensemble des entreprises canadiennes et de produire de longues séries de données, ce qui facilite les comparaisons harmonieuses.

  • Quels types de couplages peut-on effectuer dans l’Environnement de fichiers couplables – Entreprises? 

    What output will I receive?

    Les couplages sont effectués pour les entreprises, au niveau de l’entreprise en tant qu’unité statistique.

  • Quels autres types de couplage peut-on effectuer à Statistique Canada?

    Why is my output file name different than my submitted file name?

    En ce qui concerne les couplages effectués au niveau de la personne, consultez la page Web de l'Environnement de couplage de données sociales.
    Les bases de données ouvertes constituent la composante centrale de l'Environnement de couplage de données ouvertes.

  • Comment puis-je en savoir plus sur l'Environnement de fichiers couplables – Entreprises?

    How are the data rounded?

    Si vous avez des questions à propos de l'EFC-E ou d'un projet potentiel pour celui-ci, écrivez-nous à statcan.elfe-eefc.statcan@statcan.gc.ca.

L'importance des données désagrégées : introduction (partie 2)

Numéro de catalogue : 892000062024002

Date de diffusion : le 16 juillet 2024

Cette courte vidéo explique comment l'utilisation de données désagrégées peut aider les décideurs à élaborer des politiques plus précises et plus efficaces, puisqu'ils seront en mesure de cerner les besoins et les défis uniques des différents groupes démographiques.

Étape du parcours des données
Fondation
Compétence des données
  • Création et utilisation de métadonnées
Audience
Essentiel
Conditions préalables suggérées
L'importance des données désagrégées : introduction (partie 1)
Durée
09:04
Coût
Gratuit

Voir la vidéo

L'importance des données désagrégées : Introduction (partie 2) - Transcription

(Le symbole de Statistique Canada et le mot-symbole du Canada est présent avec le titre suivant : « L'importance des données désagrégées : Introduction (partie 2) ».)

Qu'est-ce que les données désagrégées?

Dans un pays comme le Canada, on peut s'attendre à voir des portraits diversifiés de communautés, de groupes ethnoculturels, de stades de la vie, de genres et de professions. Ces groupes de personnes, petits ou grands, peuvent être confrontés à différents défis socio-économiques ou obtenir divers résultats tout au long de la vie, notamment en ce qui concerne la réussite scolaire ou les trajectoires sur le marché du travail. Certains groupes précis peuvent même être plus vulnérables et avoir des problèmes de santé mentale au cours de leur vie, ou même se retrouver sans abris. Pour mieux comprendre les données, nous les désagrégeons. Cela signifie que les données soigneusement recueillies et agrégées (soit l'étape essentielle pour veiller à ce que les données demeurent confidentielles) sont par la suite ventilées pour diverses populations en répartissant les données des ensembles de données globaux en sous-catégories, comme la région, le genre, l'ethnicité ou une combinaison de tels facteurs.

Où pouvez-vous trouver des données désagrégées?

Compte tenu de l'utilité potentielle des données désagrégées, vous pourriez aussi vous poser la question suivante : où puis-je trouver les données dont j'ai besoin? En réalité, vous aurez peut-être à consulter plusieurs sources pour obtenir toutes les réponses à vos questions. Pour brosser un portrait complet, vous aurez peut-être à combiner des données provenant de diverses sources. Les nombreux produits et services de Statistique Canada peuvent être très utiles. Notre site Web donne accès à un large éventail de rapports de recherche et de données désagrégées provenant d'une collection croissante d'enquêtes et de sources de données administratives. Les données peuvent également être complétées par de précieux renseignements provenant de personnes ayant une expérience vécue, d'activités de mobilisation et de consultations, et d'autres sources de renseignements qualitatifs.

Chaque initiative nécessitera l'analyse de différents groupes de données désagrégées

(Catégories à l'écran révélé un à la suite de l'autre : « Genre et/ou sexe », « Âge », « Diversité ethnoculturelle », « Identité autochtone », « Géographie », « Niveau de scolarité », « Profession », « Revenu », « Orientation sexuelle », « Invalidité », « Langue », « Statut d'immigration », « Emploi », « Situation familiale », « Et bien d'autres... ».)

Voici quelques exemples de groupes de données désagrégées qu'il est important de prendre en considération aujourd'hui. Chaque jour, nous évoluons en tant que personnes et nous devons relever des défis précis liés à l'étape où nous en sommes dans la vie. Certains d'entre nous s'occupent de jeunes enfants ou de personnes âgées. D'autres pourraient entamer des études universitaires ou chercher à perfectionner leurs compétences après avoir perdu un emploi. En 2022, le Canada a accueilli plus d'un million d'immigrants. Beaucoup sont donc nouveaux dans le pays. Les données désagrégées reflètent qui nous sommes et aident à déterminer les défis auxquels nous sommes confrontés à un moment donné. Chaque politique ou initiative communautaire devra déterminer les groupes de données désagrégés sur lesquels mettre l'accent. Ces groupes évolueront aussi au fil du temps, au fur et à mesure que nos collectivités changent. Prenons l'exemple de Samir. Il s'est penché sur la géographie, l'âge et l'incapacité pour améliorer la prestation des services de transport public à Greendale. Une autre initiative devra prendre en compte des groupes différents. Essentiellement, les données désagrégées signifient que vous pouvez adapter l'analyse à vos besoins.

Il en est de même pour les initiatives orientées vers les entreprises

(Catégories à l'écran révélé un à la suite de l'autre : « Géographie », « Secteur », « Taille de l'entreprise », « Sous contrôle étranger ou national », « Exportateur/importateur », « Propriété majoritaire des groupes (p. ex. les femmes, les Autochtones, les personnes racisées) », « Constitué en société », « Âge de l'entreprise », « Et bien d'autres... ».)

Tout comme les personnes, les entreprises ne sont pas toutes identiques. Il est également important pour les politiques ou les programmes qui ciblent les entreprises de prendre en compte les groupes de données désagrégées. Chacune de ces caractéristiques peut influer sur les résultats et les défis des entreprises. Prenons par exemple une petite entreprise de restauration exploitée par un nouvel immigrant. Cette petite entreprise devra relever des défis différents de ceux d'une usine alimentaire appartenant à une entreprise multinationale.

Désagrégeons les données selon le sexe

Voici un exemple de données désagrégées. Imaginons que vous avez comme tâche de créer une initiative stratégique pour aider les gens à se trouver un emploi. Imaginons d'abord le taux de chômage pour l'ensemble du Canada afin de déterminer s'il y a des écarts considérables entre les femmes et les hommes. Le taux de chômage reflète principalement les personnes à la recherche d'un emploi. Ce taux est exprimé en pourcentage de l'ensemble de la population active, c'est-à-dire les personnes qui ont un emploi ou cherchent du travail. Pour 2023, les résultats sont relativement comparables entre les sexes, le taux de chômage atteignant 5,3 % pour les femmes et 5,6 % pour les hommes. Ces tendances reflètent les performances de l'économie et du marché du travail cette année-là. La ventilation des données en fonction du sexe ne semble pas suffire pour cerner les écarts notables. Voilà pourquoi nous devons analyser les données plus profondément et ajouter d'autres dimensions pertinentes afin de comprendre la situation de chômage.

Désagrégeons les données selon le sexe et l'âge

Désagrégeons maintenant les données selon le sexe et l'âge. En consultant le graphique, nous pouvons constater que les jeunes âgés de 15 à 24 ans affichent des taux de chômage plus élevés que les personnes faisant partie du principal groupe d'âge actif et les personnes plus âgées. De plus, le taux de chômage chez les jeunes hommes est légèrement supérieur à celui des jeunes femmes. Environ un jeune homme sur neuf faisant partie de la population active n'occupe pas d'emploi; le taux de chômage de ce groupe était de 11,6 % en 2023. À titre de comparaison, le taux de chômage chez les jeunes femmes était de 10 %. Quels sont d'autres facteurs d'identité qui pourraient être pris en compte dans cette analyse? Comme nous savons déjà que le Canada compte une population de jeunes très diversifiée, il pourrait être intéressant de ventiler les données en fonction de l'appartenance à un groupe racisé, en plus du sexe et de l'âge.

Désagrégeons les données selon le sexe, l'âge et l'appartenance à un groupe racisé

Dans les données dont nous disposons, nous constatons que l'appartenance à un groupe racisé est mesurée au moyen de la variable « minorité visible ». Si nous ciblons les jeunes âgés de 15 à 24 ans et que nous ventilons davantage les données selon le sexe et selon l'appartenance à un groupe de minorité visible, nous observons de nouveaux écarts : chez les jeunes, les hommes appartenant à un groupe de minorité visible affichaient le plus haut taux de chômage, établi à 13,4 %, suivi de près par les jeunes femmes appartenant à un groupe de minorité visible, établi à 13 %. En revanche, les jeunes femmes qui n'appartiennent pas à une minorité visible affichent le taux le plus bas, c'est-à-dire un peu moins de 9 %. À ce stade, vous pensez peut-être à des façons d'aider les jeunes de groupes racisés à se trouver un emploi. Par contre, il s'agit encore d'un vaste groupe ayant des variables notables en matière de caractéristiques du marché du travail. Procédons donc à une ventilation plus approfondie.

Désagrégeons les données selon le sexe, l'âge et l'appartenance à un groupe racisé précis

Examinons les résultats des cinq plus grandes minorités visibles du Canada. Encore une fois, d'importants écarts sont observés lorsqu'on ajoute un autre niveau de désagrégation. Parmi les jeunes hommes, les jeunes noirs et les jeunes arabes semblent être confrontés à des taux de chômage plus élevés, comparativement à la moyenne globale représentée parla barre bleue. Quant aux jeunes femmes, le taux de chômage est légèrement supérieur à la moyenne globale dans la plupart des groupes racisés, bien qu'il soit inférieur chez les jeunes femmes Philippines. Selon ces données désagrégées, vous pourriez réfléchir à la manière de vous assurer que votre initiative stratégique vise certains groupes plus susceptibles d'avoir besoin d'aide pour trouver un emploi, comme les jeunes de groupes racisés en général, et les jeunes hommes noirs et arabes en particulier.

(Texte à l'écran superposé sur une forme d'entonnoir : « Genre », « Âge (jeunes) », « Appartenance à un groupe racisé » et « Sud-asiatique, Chinois, Noir, Philippin, Arabe ».)

Comme nous l'avons vu dans cet exemple, l'utilisation de données désagrégées peut aider les décideurs à élaborer des politiques plus ciblées et plus efficaces, puisqu'ils seront en mesure de cerner les besoins et les défis uniques des différents groupes démographiques. Dans cet exemple, si nous avions fondé notre analyse seulement sur le taux de chômage au niveau national, ou sur les femmes et les hommes, cela n'aurait pas suffi pour veiller à ce que notre intervention stratégique vise les personnes les plus à risque. Ceci n'est qu'un exemple. Selon votre organisation ou vos besoins analytiques, vous pouvez ventiler les données de différentes manières. Dans votre situation, la géographie ou une autre caractéristique pourrait être un facteur pertinent. Ce qui importe de souligner, c'est qu'il faut souvent appliquer diverses couches ou divers niveaux de désagrégation pour obtenir tous les faits.

(Le mot-symbole « Canada » s'affiche.)

L'importance des données désagrégées : introduction (partie 1)

Numéro de catalogue : 892000062024001

Date de diffusion : le 16 juillet 2024

Cette courte vidéo explique comment il est efficace d'utiliser des données désagrégées pour tous les ordres de gouvernement et toutes les organisations au service des collectivités pour prendre des décisions de politique publique fondées sur les données probantes. En utilisant des données désagrégées, les décideurs sont en mesure de concevoir des politiques plus appropriées et plus efficaces qui répondent aux besoins de chaque Canadien diversifié et unique.

Étape du parcours des données
Fondation
Compétence des données
  • Création et utilisation de métadonnées
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
03:38
Coût
Gratuit

Voir la vidéo

L'importance des données désagrégées : Introduction (partie 1) - Transcription

(Le symbole de Statistique Canada et le mot-symbole du Canada est présent avec le titre suivant : « L'importance des données désagrégées : Introduction (partie 1) ».)

(Texte à l'écran : Voici Samir.)

Samir est urbaniste. Il contribue à améliorer les transports publics dans la municipalité en pleine croissance de Greendale. Un jour, il reçoit un rapport sur son bureau : « 80 % des habitants de la ville sont satisfaits du système de transport public actuel. » C'est formidable, n'est-ce pas?

(Texte à l'écran : Carte de Greendale. La carte est divisée en trois catégories : Nord, Centre et Sud. Une quatrième catégorie intitulé « personnes âgées » est dispersée sur l'ensemble de la carte.)

Qu'adviendrait-il si Samir était en mesure d'exploiter des ressources qui lui permettraient d'analyser le rapport plus en profondeur? Puisque Samir possède des connaissances et qu'il sait comment accéder aux données utilisées pour rédiger le rapport, il est en mesure de décomposer (ou de désagréger) les données d'une manière plus approfondie. Il découvre ce qui suit :

  • Seulement 60 % des résidents du secteur du nord de la ville sont satisfaits et se plaignent souvent de l'irrégularité des services d'autobus.
  • Dans le secteur du centre, où habitent de nombreux employés de bureau, on observe une sursaturation d'autobus pendant les heures creuses, mais une pénurie d'autobus pendant les heures de pointe.
  • Le secteur du sud, plus récent et doté d'infrastructures récentes, bénéficie d'un taux de satisfaction de 95 %.
  • Les personnes âgées, qui représentent un pourcentage non négligeable de la population de la ville, affichent un taux de satisfaction de 50 % seulement. Elles signalent le manque d'options accessibles pour les personnes ayant des problèmes de mobilité.

(Un graphique à barres titré comme suit : « Satisfaction de la population de Greendale à l'égard du système de transport public actuel ». L'axe vertical représente le pourcentage de satisfaction et l'axe horizontal a quatre catégories intitulées : « Population du secteur du nord » à 60 % de satisfaction, « Population du secteur du centre » à 70 % de satisfaction, « Population du secteur du sud » à 95 % de satisfaction et « personnes âgées » à 50 % de satisfaction.)

Si Samir s'appuie uniquement sur les données initiales de satisfaction (soit de 80 %), il pourrait conclure que le système de transport public ne nécessite que des modifications mineures. Cela signifie qu'il contribuerait à l'insatisfaction d'une population mal desservie, sans parler du gaspillage des ressources, par exemple avoir trop d'autobus pendant les heures creuses.

Par contre, en ventilant (ou en désagrégeant) les données de satisfaction par zone géographique et par groupe d'âge, il est en mesure de faire ce qui suit :

  • Réévaluer et augmenter la fréquence des trajets d'autobus dans le secteur nord.
  • Modifier les horaires d'autobus dans le secteur central pour qu'ils cadrent mieux avec les heures de pointe des bureaux.
  • Créer un nouveau programme visant à améliorer l'accessibilité pour les personnes âgées.

Il est important que Samir sache où et comment accéder à des données désagrégées pour comprendre les divers besoins des différentes collectivités et régions. Cela lui permet de prendre des décisions qui veillent à ce que chaque résident reçoive la qualité de service qu'il mérite.

(Texte à l'écran apparait un après l'autre : « Genre », « Âge », « Identité ethnoculturelle », « Identité autochtone », « Géographie », « Et bien d'autres... ».)

De même, il peut être très efficace pour tous les ordres de gouvernement et toutes les organisations au service des collectivités d'utiliser des données désagrégées pour prendre des décisions de politique publique fondées sur les données probantes. En utilisant des données désagrégées, les décideurs sont en mesure de concevoir des politiques plus appropriées et plus efficaces qui répondent aux besoins de chaque Canadien différent et unique. Dans la mesure du possible, les données doivent être ventilées en fonction du sexe, de l'âge, de l'identité ethnoculturelle, de l'identité autochtone, des différentes zones géographiques Et de tout autre facteur d'identité pertinent pour la collectivité. Puis elles sont présentées de manière distincte pour chaque sous-groupe précis.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : explorer les mesures de la tendance centrale

Numéro de catalogue : 892000062020002

Date de diffusion : le 3 mai 2021 Mise à jour : le 25 november 2021

Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
  • Raconter une histoire
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
11:34
Coût
Gratuit

Voir la vidéo

Statistique 101 : explorer les mesures de la tendance centrale - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Statistique 101 : explorer les mesures de la tendance centrale")

Statistique 101: Explorer les mesures de la tendance centrale

Comment décrire les données en quelques termes simples? L'emplacement du centre, ou du point d'équilibre, et l'étalement des données constituent deux caractéristiques très importantes d'un ensemble de données. Essayez de concevoir la chose de la manière suivante: si vous tenez les données entre vos mains, seraient-elles fortement concentrées dans un même endroit, comme une balle de golf, ou plutôt dispersées comme de la barbe à papa? Ce que l'on appelle la dispersion correspond à la taille de la région couverte par les données ou, si vous préférez, la variabilité ou l'étalement des données. La tendance centrale se situe là où se trouve le centre des données. Dans cette vidéo, nous allons explorer le concept de tendance centrale. Pour en savoir plus sur la dispersion, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

Objectifs d'apprentissage

À la fin de cette vidéo, vous comprendrez les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne, puis la médiane et enfin, le mode. Cette vidéo s'adresse aux apprenants qui veulent acquérir une connaissance de base du concept de tendance centrale et de ce qu'il signifie, ainsi que de certaines méthodes clés qui s'y rapportent et qui sont utilisées pour explorer les données. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Texte à l'écran: Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, soit d'abord la collecte, l'exploration, l'épuration, la description et la compréhension des données, puis leur analyse, afin de pouvoir ultimement communiquer aux autres ce que révèlent ces données.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec une attention sur l'Étape 2 - Explorer, nettoyer et décrire.)

L'examen des mesures de la tendance centrale correspond à l'étape d'exploration, d'épuration et de description des données.

Mesures de la tendance centrale

(Graphique démontrant une distribution biaisée à droite où le mode est situé au sommet. À gauche du sommet se trouve la médiane et la moyenne, respectivement.)

La première chose à faire est de se demander ce que signifie exactement l'expression "tendance centrale". Les mesures de la tendance centrale décrivent la valeur la plus représentative des données sous la forme d'un seul nombre. C'est ce qu'on appelle aussi le point d'équilibre d'un ensemble de données qu'on représente habituellement comme étant la moyenne, la médiane ou le mode. Voyons un peu comment, ces trois mesures sont calculées.

La moyenne

La moyenne correspond à la moyenne arithmétique de toutes les valeurs d'une variable qui sont présents dans un ensemble de données. On la calcule en faisant la somme de toutes les valeurs, puis en divisant cette somme par le nombre de valeurs.

Calcul de la moyenne

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 3, 4, 8, 5, 7, 3.)

Utilisons à titre d'exemple cet ensemble de données. Pour calculer la moyenne, nous faisons d'abord la somme de toutes les valeurs. Nous divisons ensuite cette somme par le nombre de valeurs de l'ensemble. Dans cet exemple, l'ensemble de données contient 6 valeurs. La somme de ces 6 valeurs est égale à 30. Pour calculer la moyenne, nous divisons cette somme par le nombre de valeurs dans l'ensemble de données, soit 30 divisé par 6. La moyenne est donc égale à 5.

Il faut souligner que la présence de valeur aberrantes, c'est à dire des valeurs extrêmement élevées ou extrêmement faibles comparativement aux autres valeurs, peut influer sur la moyenne. En effet, une valeur extrêmement élevée, si elle est présentée dans les données, peut faire augmenter la moyenne au point où celle-ci n'est plus représentative des données prises dans l'ensemble. Vous pouvez voir que la dernière valeur sous cette diapositive est 33, comparativement à 3 à la diapositive précédente. Cette valeur différente peut être exacte, mais elle peut aussi être erronée. Nous ne pouvons pas le savoir. Quoi qu'il en soit, il convient de noter l'effet de cette valeur aberrante sur la moyenne: la somme des 6 valeurs est maintenant égale à 60, et la valeur correspondant à la moyenne double, passant de 5 à 10. Il est donc important de vérifier s'il y a des valeurs aberrantes avant de décider d'utiliser la moyenne pour mesurer la tendance centrale.

La médiane

La médiane est une autre mesure de la tendance centrale. Il s'agit de la valeur centrale lorsque toutes les valeurs sont ordonnées de la plus basse à la plus haute.

Calcul de la médiane: pour un nombre impair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33.)

Il est très simple de calculer la médiane lorsque l'ensemble de données contient un nombre impair de valeurs. Nous ordonnons d'abord les valeurs de la plus basse à la plus élevée. Nous comptons ensuite les valeurs, et nous trouvons celles qui se situent au milieu, de sorte que la moitié des valeurs sont plus élevées et l'autre moitié, moins élevées. Cette valeur se situant au milieu est la médiane. Dans cet exemple, la médiane est 9.

Calcul de la médiane: pour un nombre pair de valeurs

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 5, 6, 7, 8, 8, 9, 9, 9, 12, 15, 21, 28, 33, 35.)

Examinons maintenant un ensemble de données qui contient un nombre pair de valeurs. Nous plaçons les valeurs en ordre ascendant, nous comptons le nombre de valeurs et repérons les deux valeurs qui se situent au milieu, de sorte qu'il y ait un nombre égal de valeurs plus élevées et de valeurs plus basses. Nous additionnons ensuite ces deux valeurs, puis nous les divisons par deux. Dans cet exemple, la médiane est encore une fois 9.

Valeurs extrêmes et médiane

(Deux séries de nombres qui composeront l'ensemble de données pour lequel les nombres pour l'ensemble de données a sont 5, 6, 6, 7, 8, 9, 9, 12, 15, 21, 28, 33 et les nombres pour l'ensemble de données b sont 5, 6, 6, 7, 8, 9, 9, 9, 12, 15, 21, 21, 28, 28, 333.)

Outre les méthodes servant à les calculer et à les établir, l'une des principales différences entre la moyenne et la médiane tient à l'effet des valeurs extrêmes. Contrairement à ce qui est le cas pour la moyenne, les valeurs extrêmes n'ont pas la même incidence sur la médiane. Prenons l'ensemble de données A et B, qui sont identiques à l'exception de la valeur la plus élevée, qui passe de 33 dans le premier ensemble de données à 333 dans le second. On constate que, même si seul l'ensemble de données B contient une valeur aberrante, la médiane demeure égale à 9 dans les deux ensembles de données. Même si l'ensemble des données B contenait une ou deux variables aberrantes supplémentaires, la médiane demeurerait 9, parce qu'il s'agit de la valeur milieu dans l'ensemble de données.

Le mode

La troisième mesure de la tendance centrale dont nous allons parler aujourd'hui est le mode. Le mode est la valeur observée le plus souvent dans un ensemble de données. Autrement dit, il s'agit du point des données le plus fréquent dans un ensemble de données. Le mode est la mesure la plus simple à déterminer. La présence de valeurs extrêmes n'a aucune incidence sur lui, car elle ne modifie pas la ou les valeurs les plus fréquemment observées.

Calcul du mode

(Série de nombres qui composeront l'ensemble de données pour lequel les nombres sont 6, 3, 9, 6, 6, 5, 9, 3.)

Pour trouver le mode, comptez le nombre de fois où chaque valeur apparaît. La valeur observée le plus souvent est le mode. Il convient de noter deux choses intéressantes au sujet de cette mesure de la tendance centrale: A) étant donné que le mode correspond à la valeur observée le plus souvent dans un ensemble de données, si toutes les valeurs ont le même nombre d'occurrences, il n'y a pas de mode. B) Si le plus grand nombre d'occurrences est le même pour plus d'une valeur, il y a plus d'un mode. Dans un tel cas, le mode ne sera peut-être pas une mesure appropriée de la tendance centrale.

Question

C'est maintenant à vous de jouer. Examinez les chiffres suivants: 1, 1, 1, 1, 1, 4, 5. Prenez quelques instants pour déterminer la moyenne, la médiane et le mode pour cet ensemble de chiffres. Les réponses apparaîtront sur la diapositive suivante.

Réponse

Pour calculer la moyenne, nous additionnons d'abord les chiffres 1+1+1+1+1+4+5=14. Il y a 7 chiffres, donc la moyenne est égale à 14 divisé par 7, ce qui donne 2. La médiane est la valeur se situant au milieu de l'ensemble de données. Par chance, les chiffres sont déjà en ordre ascendant. Il y a un 1 au milieu avec trois 1 à gauche, et les chiffres 1, 4 et 5 à droite. La médiane est donc 1. Il y en a cinq 1 et seulement un 4 et un 5. Par conséquent, le mode est aussi 1. Un certain nombre de progiciels, dont Excel, ont des fonctions intégrées pour calculer la moyenne, la médiane et le mode. La médiane se situe souvent entre la moyenne et le mode, mais ce n'est pas toujours le cas, comme le montre cet exemple.

Conseils à retenir - Moyenne, médiane et mode

(Une note figurant au bas de la diapositive indique qu'il peut être utile d'examiner plus d'une mesure de tendance centrale.)

Ces conseils ont pour but de vous aider à déterminer quelle mesure de la tendance centrale utiliser dans différentes situations. D'abord, il faut savoir que lorsque les données ne sont pas numériques, par exemple, s'il s'agit de noms de villes, il n'est pas possible de calculer une moyenne ou une médiane, de sorte que le mode devient une mesure à envisager. Ensuite, si les données contiennent des valeurs extrêmes, la médiane sera plus représentative que la moyenne. Enfin, lorsqu'il y a plus d'un mode dans un ensemble de données, cela peut signifier que le mode n'est pas la meilleure mesure de la tendance centrale dans les circonstances.

Question

(Diagramme montrant une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Dans cet exercice de vérification de connaissances, nous allons mettre en application ce que nous avons appris jusqu'ici à propos des mesures de la tendance centrale. Dans le graphique de droite, les salaires des joueurs de hockey sont affichés sur l'axe horizontal et le nombre de joueurs, sur l'axe vertical. Dans cette distribution, à quelle mesure de la tendance centrale correspondent les lignes X, Y et Z?

Réponse

Avez-vous pu trouver la mesure correspondant à chaque ligne? X est le salaire gagné par le plus grand nombre de joueurs. Par conséquent, dans cette distribution, X est le mode. La courbe n'est pas symétrique. Elle présente ce qu'on appelle une distribution oblique à droite, ce qui veut dire qu'il y a un petit nombre de joueurs de hockey qui gagnent un salaire très élevé. Ces valeurs ont comme effet de hausser la moyenne, ce qui signifie que Z est la moyenne. Y correspond à peu près à une valeur centrale, la moitié des joueurs se situant au-dessus et l'autre moitié, en dessous. Y est donc la médiane.

Questions

(Le même diagramme est utilisé de nouveau. Il montre une distribution asymétrique à droite avec une ligne verticale étiquetée x au sommet. On retrouve à la droite du sommet une ligne étiquetée y et à la droite du y, une troisième ligne étiquetée z.)

Nous allons maintenant prendre un exemple concret pour illustrer des circonstances où une personne pourrait décider d'utiliser une mesure de la tendance centrale particulière plutôt qu'une autre. Supposons que vous êtes le représentant des propriétaires de la Ligue nationale de hockey. Quelle mesure de la tendance centrale vous aiderait à faire valoir que les salaires des joueurs sont trop élevés? Si vous êtes plutôt le représentant du syndicat des joueurs, quelle mesure de la tendance centrale vous aiderait à démontrer que les salaires des joueurs ne sont pas trop élevés? Enfin, quelle mesure de la tendance centrale est susceptible de représenter le mieux les salaires des joueurs?

Réponses

Si vous êtes le représentant des propriétaires et que vous estimez que les salaires des joueurs sont trop élevés, vous utiliserez la moyenne, car c'est la valeur la plus élevée des trois, et vous espérez que personne ne soulignera le fait que la présence de valeurs extrêmes peut avoir une incidence sur la moyenne. Si vous représentez le syndicat des joueurs, vous opterez le mode qui est la valeur la plus faible. Vous pourriez soutenir que, de tous les salaires, c'est celui-là qui est gagné par le plus de joueurs. Cela dit, il serait faux de prétendre que cette valeur est représentative de l'ensemble des salaires des joueurs, parce que le mode n'est que la valeur la plus fréquente, alors que, au niveau de l'ensemble, de nombreux joueurs gagnent beaucoup plus que ce salaire. La médiane est la valeur qui représente le mieux les salaires des joueurs, parce que la moitié d'entre eux gagnent davantage, tandis que l'autre moitié d'entre eux gagnent moins.

Résumé des principaux points

En résumé, nous avons appris aujourd'hui que la tendance centrale est l'expression que nous utilisons lorsque nous faisons référence à une méthode donnée pour déterminer le centre, ou le point d'équilibre, d'un ensemble de données. Nous avons examiné trois façons différentes de calculer la tendance centrale. La moyenne est sans doute la plus connue. Nous avons toutefois appris que les valeurs extrêmes peuvent influer sur la moyenne. Nous avons également traité de la médiane, ou le point milieu, ce qui signifie que la moitié des valeurs se trouvent au-dessous de ce point milieu et l'autre moitié, au-dessus. Les valeurs extrêmes sont moins susceptibles d'avoir une incidence sur la médiane. La troisième mesure de la tendance centrale que nous avons abordé est le mode qui correspond à la valeur la plus fréquemment observée. Il est important de se rappeler qu'un ensemble de données peut n'avoir aucun mode, et qu'il peut aussi en avoir plus d'un.

Formation complémentaire

Pour en savoir plus sur l'étalement ou la dispersion des données, regardez la vidéo intitulée "Explorez les mesures de la dispersion".

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : Explorer les mesures de la dispersion

Numéro de catalogue : 892000062020003

Date de diffusion : le 3 mai 2021 Mise à jour : le 7 février 2023

Comment décrire les données en quelques termes simples? Deux caractéristiques très importantes d'un ensemble de données sont l'emplacement du centre, ou du point d'équilibre, et la taille de l'étendue.

Bref, si nous tenions les données entre nos mains, seraient-elles concentrées en un seul endroit, comme une balle de golf, ou dispersées un peu partout, comme de la barbe à papa? On appelle le point d'équilibre des données la « tendance centrale ». Mais la taille de la région couverte par les données et son étendue s'appellent la « dispersion ». Dans cette vidéo, nous découvrirons le concept de dispersion. Toutefois, comme condition préalable à cette vidéo, nous vous recommandons fortement de regarder d'abord notre vidéo intitulée « Explorer les mesures de la tendance centrale », car certains des concepts qui y sont présentés, dont la moyenne, seront abordés aujourd'hui.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
Statistique 101 : explorer les mesures de la tendance centrale
Durée
16:06
Coût
Gratuit

Voir la vidéo

Statistique 101 : Explorer les mesures de la dispersion - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Exploration des mesures de dispersion ».)

Statistique 101 : Exploration des mesures de dispersion

Comment décrire les données en quelques termes simples? Deux caractéristiques très importantes d’un ensemble de données sont l’emplacement du centre, ou du point d’équilibre, et la taille de l’étendue.

Bref, si nous tenions les données entre nos mains, seraient-elles concentrées en un seul endroit, comme une balle de golf, ou dispersées un peu partout, comme de la barbe à papa? On appelle le point d’équilibre des données la « tendance centrale ». Mais la taille de la région couverte par les données et son étendue s’appellent la « dispersion ». Dans cette vidéo, nous découvrirons le concept de dispersion. Toutefois, comme condition préalable à cette vidéo, nous vous recommandons fortement de regarder d’abord notre vidéo intitulée « Explorer les mesures de la tendance centrale », car certains des concepts qui y sont présentés, dont la moyenne, seront abordés aujourd’hui.

Objectifs d'apprentissage

À la fin de cette vidéo, vous devriez avoir une compréhension de base des mesures de dispersion comme l’étendue, l’intervalle interquartile et l’écart-type.

Elle s’adresse à ceux et celles qui cherchent à acquérir une compréhension de base du concept de la dispersion, aussi appelé variabilité, de sa signification et de certains concepts connexes utilisés pour l’analyse des données. 

Mesures de dispersion

En statistique, la dispersion décrit l’étalement des valeurs d’une distribution. En d’autres mots, à quel point sont-elles étalées ou comprimées.

Imaginez que vous attendez un colis par la poste. Habituellement, le courrier arrive à n’importe quel moment entre 8 h et 16 h, ce qui signifie que si vous voulez être là quand il arrive, vous pouvez passer toute la journée à attendre à la maison. Toutefois, si vous savez que le courrier arrive habituellement entre 8 h et 10 h, vous avez une meilleure idée du moment de la livraison. Les mesures de dispersion donnent également une indication de la précision avec laquelle les mesures de la tendance centrale, comme la moyenne, décrivent l’étalement des valeurs dans l’ensemble de données. C’est utile lorsqu’on utilise des données-échantillons pour tirer des conclusions sur les comportements ou les caractéristiques de l’ensemble de la population.

Les mesures de dispersion sont également importantes, car elles nous aident à prendre des décisions éclairées sur la façon d’analyser les données et indiquent leur degré d’incertitude.

Étapes du cheminement des données

(Texte à l’écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver et recueillir ; Étape 2 - explorer, nettoyer et décrire ; Étape 3 – analyser et modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l’histoire qu’elles racontent, en passant par le nettoyage, l’exploration, la description, la compréhension et l’analyse des données.

Étape 2 : Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec l'Étape 2 - Explorer, nettoyer et décrire, mise en évidence.)

L’exploration des mesures de dispersion fait partie de l’étape d’explorer, nettoyer et décrire le cheminement des données.

De quoi à l'air l'étalement des données?

(Graphique représentant le nombre de livraisons de pizza en fonction des délais de livraison sous une forme de cloche nommée « une distribution normale ».)

Avant de commencer, jetons un coup d’œil à certaines façons courantes dont les données sont étalées ou regroupées. La distribution des données est souvent représentée à l’aide de diagrammes de dispersion ou d’histogrammes. Leur forme montre l’étalement des valeurs de l’ensemble de données. Les données peuvent être représentées graphiquement en forme de cloche symétrique, comme on peut le voir ici dans le diagramme de temps de livraisons de pizza, où la plupart des valeurs sont regroupées au milieu, entre 20 et 40 minutes, tandis que certaines livraisons prennent moins de temps (p. ex. 15 minutes) et d’autres en prennent plus (p. ex. 40 minutes). C’est ce qu’on appelle une distribution normale, et on en parlera davantage plus tard.

(2 graphiques distincts à gauche et à droite représentant une distribution normale qui est biaisée positivement et négativement, respectivement.)

Si l’ensemble de données n’est pas symétrique, mais comporte plutôt plus de valeurs situées à gauche ou à droite du diagramme, la forme de la cloche devient asymétrique, créant une queue plus longue d’un côté ou de l’autre.  Un ensemble de données est considéré comme asymétrique dans la direction de la queue la plus longue. Lorsque les données sont positivement asymétriques, il y a beaucoup de valeurs situées du côté gauche ou « inférieur » du diagramme, créant une queue qui s’étire vers la droite. Lorsque les données sont négativement asymétriques, nous voyons un plus grand nombre de valeurs situées à l’extrémité supérieure du diagramme, et la queue s’étire vers la gauche ou la partie inférieure du diagramme.

Mesures de dispersion

(Organigramme présentant les trois mesures communes de dispersion : Étendue, Intervalle interquartile et écart-type.)

Revenons maintenant à nos mesures de dispersion… Pour déterminer la dispersion, trois mesures couramment utilisées sont l’étendue, l’intervalle interquartile et l’écart-type. Les diapositives suivantes examinent chacune d’elles individuellement.

Étendue

L’étendue, c’est la différence entre la plus grande valeur et la plus petite valeur dans un ensemble de données. Elle fournit une mesure rapide et simple de l’étalement de ces valeurs. Il est préférable de l’utiliser avec des données qui n’ont pas de valeurs extrêmes. Comme notre livraison de colis. Si nous savons que le colis sera livré entre 10 h et midi, nous pouvons en toute confiance planifier d’autres activités pour la journée. Ce genre d’information est très utile. Cependant, si on nous dit que le colis arrivera entre 8 h et 20 h, eh bien, cette information est-elle réellement utile? Seriez-vous sûr de pouvoir faire une course rapide durant la journée sans manquer votre livraison? Probablement pas.

Sachant que l'étendue est la différence entre la valeur la plus grande et la plus petite, nous allons l'exprimer sous forme d'équations. L'étendue est simplement la plus grande valeur moins la plus petite. Dans cet exemple, la plus petite valeur est 1 et la plus grande est 7 ainsi l'étendue est 7 moins 1, c'est-à-dire 6. Ici, l'étendue est une mesure appropriée, car les points de données sont rapprochés les uns des autres.

Exemple

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 80 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Prenons un exemple. Ici, nous avons les notes d’examen d’un groupe de 12 étudiants. La note la plus élevée est de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la plus faible, qui est de 80 %. L’étendue est donc de 15 %, ce qui est assez petit. L’un des avantages d’utiliser l’étendue comme mesure de la dispersion, c’est qu’elle est facile à calculer.

Exemple (suite)

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiant | Score d'examen. La première ligne à la dernière ligne contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 85 % ; 3 | Thomas | 85 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Maintenant, prenons un exemple semblable, mais avec une grande différence. Ici, nous avons des notes d’examen du même groupe de 12 étudiants. La note la plus élevée est encore une fois de 95 %. Pour déterminer l’étendue, nous y soustrayons la note d’examen la moins élevée, qui est de 10 %. On obtient ainsi une étendue de 85 %. Il s’agit d’un étalement très vaste. Après un examen plus poussé, on constate qu’un étudiant, Jean, a obtenu un piètre résultat à l’examen, alors que tous les autres ont très bien réussi. Cela fait de la note de Jean une valeur aberrante, car 11 élèves sur 12 ont obtenu une note entre 85 % et 95 %. Sa note à elle seule est la cause principale de ce grand étalement. Et comme l’étendue est une comparaison de la valeur la plus faible par rapport à la valeur la plus élevée, on voit ici comment il peut être une mesure trompeuse de la dispersion lorsque les données comportent des valeurs aberrantes.

Intervalle interquartile

L’intervalle interquartile est semblable à l’étendue. Il s’agit également de la distance entre la valeur la plus élevée et la valeur la plus faible, mais seulement sur le 50 % central de la distribution globale. Il est donc un peu plus stable que l’étendue, car il ne tient pas compte des quartiles inférieur et supérieur des données, ce qui atténue l’incidence des valeurs aberrantes.

Bien que l’intervalle interquartile soit légèrement plus stable que l’étendue, il est important de savoir que lorsqu’on l’utilise comme mesure de la dispersion, on perd des détails sur ce qui se passe aux extrémités de la distribution.

Comment déterminer l'intervalle interquartile?

(Texte à l’écran : Ensemble de données = 3, 1, 8, 5, 3, 6, 4, 8, 6, 7)

Pour déterminer l’intervalle interquartile, il faut d’abord ordonner les données, de la valeur la plus faible à la valeur la plus grande. Après avoir dressé une liste en ordre croissant des dix chiffres qui composent l’ensemble de données sur cette diapositive, et en utilisant les connaissances que vous avez acquises dans la vidéo sur les mesures de la tendance centrale, vous trouveriez la médiane de l’ensemble de données complet, soit la valeur de l’élément central quand les données sont ordonnées de la plus basse à la plus haute. Dans ce cas-ci, comme il y a un nombre pair d’observations, on additionne les deux chiffres centraux et on les divise par deux, ce qui donne 5,5. En calculant la médiane, on peut diviser les données en deux moitiés, ce qui nous permet de passer à l’étape suivante…

Ensuite, on calcule de nouveau la médiane, mais cette fois-ci pour les moitiés supérieure et inférieure des données, ce qui donnerait trois pour la moitié inférieure et sept pour la moitié supérieure. Ensuite, on soustrait la médiane inférieure de la médiane supérieure. L’intervalle interquartile, c’est la différence entre ces deux chiffres, qui dans ce cas équivaut à quatre. Il est important de noter que cette méthode fonctionne bien pour des listes de valeurs simples et courtes. Mais pour les ensembles de données complexes, on peut facilement obtenir les Q1 et Q3 à l’aide de logiciels comme Excel.

Vérification des connaissances

(Tableau présentant le temps qu'il faut pour livrer la pizza pour chaque ménage. Les colonnes, de gauche à droite, s'intitulent : Ménage | Temps de livraison de la pizza en minutes. La première ligne à la dernière ligne contient ce qui suit : 1 | 15 ; 2 | 20 ; 3 | 25 ; 4 | 30 ; 5 | 30 ; 6 | 35 ; 7 | 35 ; 8 | 40 ; 9 | 45 ; 10 | 50.)

À vous maintenant. Disons que vous avez commandé une pizza et qu’on vous dit qu’il faudra environ 30 minutes pour la livraison. Disons maintenant que neuf autres ménages ont fait de même. Dans ce cas-ci, qu’entend-on par « environ 30 minutes »? Nous avons ici un tableau qui montre exactement combien de temps chacun des dix ménages a dû attendre pour recevoir sa pizza. Pour mettre vos connaissances à l’épreuve jusqu’à maintenant, mettez la vidéo sur pause et essayez de calculer l’étendue de temps de livraison, en minutes, à laquelle chaque ménage devrait s’attendre. Calculez ensuite l’intervalle interquartile. Mettez la vidéo en pause maintenant et relancez-la une fois que vous êtes prêt à vérifier vos réponses. Avez-vous obtenu 35 pour l’étendue et 15 pour l’intervalle interquartile? Si oui, bravo! Nous pouvons maintenant passer à notre prochaine mesure de la dispersion : l’écart-type.

Écart-type

(Tableau présentant les notes d'examen des étudiants. Les colonnes, de gauche à droite, sont intitulées : # | Étudiants | Score d'examen. La première ligne à la dernière contient ce qui suit : 1 | Jean | 10 % ; 2 | Audrey | 25 % ; 3 | Thomas | 55 % ; 4 | Mathieu | 86 % ; 5 | Ali | 87 % ; 6 | Sofia | 88 % ; 7 | Josée | 90 % ; 8 | Maria | 90 % ; 9 | Hugo | 92 % ; 10 | Louise | 94 % ; 11 | Sylvain | 95 % ; 12 | Jade | 95 %.)

Jusqu’à présent, cette vidéo a expliqué comment l’étendue et l’intervalle interquartile peuvent nous donner une bonne idée de la valeur médiane ou moyenne d’un ensemble de données. Mais ils ne nous disent pas à quel point le reste des valeurs de l’ensemble de données sont proches de cette médiane. Or, il peut s’agir d’information très importante. Par exemple, revenons à notre classe d’étudiants. Lorsque l’enseignante additionne la note de tout le monde, elle obtient un total de 907. Et lorsqu’elle divise ce nombre par le nombre de notes, soit 12, elle obtient une note moyenne de 76 %. 76 % pourrait être une bonne note, mais est-ce que tout le monde performe à ce niveau? Dans une classe de 12, il n’est pas difficile de constater que certains éprouvent des difficultés. Mais qu’en est-il d’une classe de 200?

(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé, respectivement.)

L’écart-type nous indique la dispersion d’un groupe de valeurs par rapport à la moyenne. Il peut être calculé rapidement et facilement à l’aide de logiciels comme Microsoft Excel, et il est considéré comme la plus solide des trois mesures de dispersion. C’est donc la mesure la plus souvent utilisée dans les analyses statistiques. Un petit écart-type signifie que la plupart des nombres sont proches de la moyenne. Ainsi, lorsqu’une enseignante doit déterminer le rendement de chacun de ses étudiants, un petit écart-type lui indiquerait que la majorité affiche un rendement semblable. Un grand écart-type lui dirait que tout le monde n’a pas le même rendement. Ainsi, si la moyenne de la classe était élevée, un écart-type élevé signifierait que certains étudiants éprouvent encore des difficultés.

(2 graphiques distincts à gauche et à droite représentant une distribution normale en forme de cloche avec un écart-type faible et élevé avec leurs moyens restant au centre de la distribution, respectivement.)

Mais dans les situations où l’on se contente d’observer et d’enregistrer des données, un écart-type élevé n’est pas nécessairement une mauvaise chose ; il reflète simplement une grande variabilité dans le groupe à l’étude. Par exemple, si on examine tous les salaires au sein d’une grande entreprise, des stagiaires au chef de la direction, l’écart-type peut être très élevé. Par contre, si on réduit le groupe en se concentrant uniquement sur les stagiaires, l’écart-type est plus petit, car les personnes de ce groupe ont des salaires semblables. Le deuxième ensemble de données n’est pas meilleur, il a tout simplement moins de variabilité.

Écart-type et distribution normale

La distribution normale est un exemple de distribution qui pourrait vous aider à mieux comprendre le concept d’écart-type. Dans le contexte des données, une distribution est un modèle mathématique qui reproduit la façon dont les points de données sont distribués ou dispersés. On visualise souvent la distribution normale comme une courbe en forme de sommet ou de cloche. Elle représente la présence de quelques points de données petits et volumineux respectivement sur les côtés gauche et droit de la courbe, alors que la plupart des points de données se trouvent quelque part au centre, où se trouve le sommet. Dans la distribution normale, les points de données dessinent une forme symétrique qui ressemble à la courbe qu’on voit sur cette diapositive, que l’on appelle une courbe en cloche.

Distribution normale

La distribution normale est symétrique, ce qui fait que la moyenne, la médiane et le mode sont les mêmes. Ceux-ci sont représentés par la ligne le long du centre de la courbe en cloche.

(Graphique représentant une distribution normale avec la moyenne, la médiane et le mode au sommet de la distribution.)

Pour la distribution normale standard, la méthode de mesure de la dispersion que nous appelons l’écart-type, ou « ET » sur cette diapositive, a des propriétés très intéressantes. Elle nous indique où nous pouvons nous attendre à trouver les points de données dans la distribution. La théorie de l’échantillonnage et la distribution normale nous indiquent qu’environ 68 % des valeurs de données dans l’ensemble de la population se situeront entre la moyenne plus ou moins 1 fois l’écart-type. De même, environ 95 % des valeurs de données correspondront à la moyenne plus ou moins 2 fois l’écart-type, et environ 99,7 % des valeurs de données correspondront à la moyenne plus ou moins 3 fois l’écart-type.

Résumé des principaux points

Les mesures de dispersion fournissent une indication quantitative de la mesure dans laquelle les valeurs de données sont dispersées ou regroupées.

Dans cette vidéo, nous avons examiné trois mesures courantes de la dispersion : l’étendue, l’intervalle interquartile et l’écart-type. Et nous avons appris que parfois, les données peuvent être dispersées en forme de cloche, la plupart des valeurs étant regroupées au milieu. C’est ce qu’on appelle souvent la distribution normale.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : proportions, ratios et taux

Numéro de catalogue : 892000062021003

Date de diffusion : le 3 mai 2021 Mise à jour : le 1re décembre 2021

Cette vidéo s'adresse aux personnes qui souhaitent acquérir une connaissance de base de trois types de mesures, soit les proportions, les ratios et les taux. Aucune connaissance préalable n'est requise. Bien que les proportions, les ratios et les taux soient semblables, ils ont chacun des propriétés différentes.

Dans cette vidéo, vous apprendrez les différences entre ces trois mesures. De plus, quand vous aurez terminé, vous serez en mesure de répondre aux questions suivantes : Comment chaque type de mesure est-elle calculée et quand est-il préférable d'en utiliser une plutôt que l'autre?

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Exploration des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
13:21
Coût
Gratuit

Voir la vidéo

Statistique 101 : proportions, ratios et taux - Transcription

Statistique 101 : proportions, ratios et taux - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Statistique 101 Proportions, ratios et taux")

Statistique 101: Proportions, ratios et taux

Souvent, la façon la plus facile d'exprimer ce que nous disent les données est simplement de comparer un chiffre avec un autre. Lorsqu'on nous dit "75% des personnes pensent ceci" ou "deux tiers des entreprises font cela", ce qu'on nous présente, ce sont les résultats de l'analyse d'un ensemble particulier de données, et trois mesures utiles pour effectuer les analyses sont les proportions, les ratios et les taux. Toutes ces mesures sont faciles à calculer, à utiliser et à comprendre. Dans cette vidéo, nous expliquons les concepts des proportions, des ratios et des taux, ainsi que leurs différences.

Objectifs d'apprentissage

Cette vidéo s'adresse aux personnes qui souhaitent acquérir une connaissance de base de trois types de mesures, soit les proportions, les ratios et les taux. Aucune connaissance préalable n'est requise. Bien que les proportions, les ratios et les taux soient semblables, ils ont chacun des propriétés différentes. Dans cette vidéo, vous apprendrez les différences entre ces trois mesures. De plus, quand vous aurez terminé, vous serez en mesure de répondre aux questions suivantes: comment chaque type de mesure est-elle calculé et et quand est-il préférable d'en utiliser une plutôt que l'autre?

Étapes du cheminement des données

(Texte à l'écran: Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte à la diffusion, en passant par le nettoyage, l'exploration et l'analyse.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec une attention sur l'Étape 2 - Explorer, nettoyer et décrire.)

Dans le cheminement des données, les proportions, les ratios et les taux font partie de l'étape de l'exploration, du nettoyage et de la description. Ils sont aussi utilisés pour l'analyse et la modélisation.

Qu'est-ce qu'une proportion?

Commençons par les proportions. Une proportion est une partie, une part ou un nombre qui est envisagé par rapport à tout. La plus petite valeur d'une proportion est 0, tandis que la plus grande valeur possible est 1. Une proportion peut être exprimée en pourcentage en multipliant sa valeur par 100. Les proportions sont utiles pour comparer un nombre avec un total. Par exemple, dans un auditoire de 50 personnes, 5 sont gauchères. Cela peut être exprimé en proportion en divisant 5 par 50 pour un résultat de 0,1 ou 10%, en multipliant 0,1 par 100.

Les proportions: un exemple

Imaginez que vous avez un jeu standard de 52 cartes à jouer. Le jeu contient 13 cartes de chaque couleur: carreaux, cœurs, trèfles et piques. Aux fins de cet exemple, nous supposerons qu'il n'y a pas de joker ou de cartes supplémentaire. Quelle est la proportion de carreaux dans un jeu? Pour calculer cette proportion, il faut d'abord compter le nombre de cartes de carreaux. Il y en a 13. Ensuite, nous divisons ce nombre par le nombre total de cartes dans le jeu, soit 52. Cela nous donne une proportion de 0,25. En pourcentage, cela donne 25%.

Qu'est-ce qu'un ratio?

Passons maintenant aux ratios. Un ratio, aussi appelé rapport, exprime les tailles relatives de deux valeurs. La différence entre une proportion et un ratio, c'est qu'avec les ratios, vous avez plus de liberté de comparaison. La notation est également différente. Bien que les ratios puissent être exprimés sous forme de nombres ou de pourcentages, ils sont le plus souvent exprimés avec deux-points. Le deux-points entre les chiffres 2 et 1, par exemple, devrait être interprété comme "un rapport de deux pour un". Cela signifie que la première valeur est deux fois plus grande que la seconde. En même temps, un ratio de 3 pour 2 signifie que pour 3 unités du premier élément, il y a deux unités du deuxième. Un bon exemple nous est donné lorsque nous faisons cuire du riz. Selon le type de riz, les instructions pourraient être "deux parties d'eau pour une partie de riz", ce qui signifie que peu importe si vous cuisinez du riz pour 2, 20 personnes ou le volume de riz dont vous disposez, le simple fait de connaître la ratio d'eau par rapport au riz, 2:1, vous permet de savoir qu'il faut deux fois plus d'eau pour la cuisson.

Une autre différence entre la proportion et le ratio, c'est qu'avec un ratio, vous pouvez choisir la quantité à utiliser comme référence. Au lieu de compter deux parties d'eau pour chaque partie de riz, vous pourriez décider d'exprimer ce ratio comme une partie de riz pour deux parties d'eau. Il est souvent plus facile d'exprimer la quantité la plus élevée par rapport à la plus petite, mais dans certains contextes, l'inverse peut être préférable. Enfin, le ratio est souvent exprimé de façon réduite. Un ratio de 4:2 est mieux compris s'il est exprimé sous la forme de 2:1.

Les ratios: un exemple

Revenons à notre exemple de cartes à jouer. Quel est le ratio entre les carreaux et les cœurs? Pour calculer ce ratio, nous devons d'abord compter le nombre de carreaux. D'après notre question précédente, nous savons qu'il y en a 13. Ensuite, comptons la deuxième partie de notre ratio, qui est le nombre de cœurs. Le nombre de cœurs est aussi de 13. Exprimé en ratio, nous avons 13 pour 13. Toutefois, ce ratio peut être réduit en divisant les deux côtés par le même nombre. Ici, les deux côtés peuvent être divisés par 13, ce qui nous donne un ratio de 1 pour 1. Cela veut dire que pour chaque carte de carreaux dans le jeu, il y a une carte de cœurs.

Vérification des connaissances

Voyons si vous savez calculer les proportions et les ratios. Premièrement, quelle proportion d'un jeu de cartes est composée de dames? Mettez la vidéo en pause ici et redémarrez-la lorsque vous pensez avoir la réponse.

4 cartes sur 52 sont des dames. La proportion des reines dans un jeu est d'environ 0,08 ou 8%.

Vérification des connaissances

Maintenant, quel est le ratio entre les figures et les cartes chiffrées dans un jeu? Mettez la vidéo en pause pour effectuer le calcul et redémarrez-la une fois que vous êtes prêt à avoir la réponse complète.

Il y a quatre couleurs (carreaux, piques, trèfles et cœurs). Dans chaque couleur, il y a trois différentes figures (valet, reine et roi) et dix cartes chiffrées. 4 fois 3 font 12, il y a donc 12 figures dans un jeu. 4 fois10 font 40, il y a donc 40 cartes chiffrées dans un jeu. Autrement dit, le ratio entre les figures et les cartes chiffrées est de 12:40, ou plus simplement, pour 3 figures, il y a 10 cartes chiffrées.

Qu'est-ce qu'un taux?

Passons maintenant aux taux. La façon la plus simple de définir un taux est de dire qu'il s'agit d'une quantité divisée par une autre quantité. Avec cette définition, les proportions et les ratios pourraient être considérés comme des taux. Quelle est donc la différence entre les taux et les deux autres mesures? Les proportions et les ratios sont le plus souvent utilisés pour comparer des quantités ayant la même unité de mesure. Dans l'exemple du jeu de cartes, les deux quantités qui sont comparées sont des chiffres représentant le nombre de cartes. Dans un taux, les deux quantités comparées ont souvent des unités de mesure différentes. Par exemple, la vitesse est un taux, c'est la distance parcourue en kilomètres divisée par le temps qu'il a fallu pour parcourir cette distance en heures. L'unité de mesure du taux est ici le kilomètre par heure (km/h).

Calcul des taux: taux de croissance

(Histogramme démontrant le montant du compte d'épargne ($) au 1er janvier 2018, 2019 et 2020. Respectivement, les montants sont de 800 $; 1 200 $ et 900 $)

Un type de taux particulièrement utile est le taux de croissance. Le taux de croissance compare la variation d'une mesure sur une période avec la valeur de la mesure au début de la période. Il est très utile d'évaluer les variations au fil du temps. Ce graphique représente le montant d'argent disponible dans un compte d'épargne au début des années 2018, 2019 et 2020. Supposons que vous vouliez évaluer la variation de votre compte d'épargne au cours de l'année 2018. Comment procéderiez-vous?

Pour calculer le taux de croissance du solde votre compte d'épargne, vous devez d'abord calculer la variation qui s'est produite au cours de l'année. Pour ce faire, vous prenez le montant économisé au début de 2019, qui était de 1200 $, et vous lui soustrayez le montant qui était dans le compte au début de 2018, soit 800 $. La différence est de 400 $. Ensuite, vous divisez cette différence par le montant du compte au début de 2018. Dans ce cas, cela signifie que vous divisez 400 par 800. Le résultat est 0,5. Ce taux de croissance peut alors être multiplié par 100 si vous voulez l'exprimer en pourcentage. Cela vous donne 50%. Cela signifie qu'en 2018, le montant de votre compte d'épargne a augmenté de moitié par rapport à ce qu'il était au début de l'année.

Vérification des connaissances

(Histogramme démontrant le montant du compte d'épargne ($) au 1er janvier 2018, 2019 et 2020. Respectivement, les montants sont de 800 $; 1 200 $ et 900 $)

À votre tour maintenant. Quel a été le taux de croissance du solde de votre compte d'épargne au cours de l'année 2019, c'est-à-dire du 1er janvier 2019 au 1er janvier 2020? Mettez la vidéo en pause et redémarrez-la une fois que vous êtes prêt à voir la réponse complète.

La réponse est -0,25 ou -25%, et voici pourquoi. Premièrement, nous avons pris le montant dans le compte au début de 2020, soit 900$, et nous avons soustrait le montant du début de 2019, soit 1200$. Cela nous a donné une valeur négative de -300$. Nous avons ensuite divisé cette différence par le montant au début de 2019, soit 1200$. Ce qui s'est traduit par un taux de croissance de -0,25 au -25%. Le taux de croissance négatif signifie que le montant dans le compte d'épargne a diminué en 2019. Un quart, ou 25%, de la valeur initiale a été perdu au cours de l'année.

Comparaison des proportions, ratios et taux

(Tableau contenant les définitions de chacune des 3 mesures. Les colonnes, de gauche à droite, sont intitulées comme suit : Mesure | Description | Conditions | Notations | Exemples dans les statistiques officielles. De la première à la dernière ligne : Proportion | Partie, part ou nombre pris en compte par rapport à toute une | 0, 1, ou n'importe quelle valeur entre 0 et 1 | Nombre ou pourcentage | Proportion de la population canadienne vivant en Colombie-Britannique; Ratio | La taille relative de deux valeurs | Nombres positifs (n'importe quelle valeur) | A:B (un rapport de A à B) ou un certain nombre | Ratio salarial entre les sexes; Taux | Une quantité divisée par une autre | Aucune (valeurs négatives sont autorisées) | Nombre ou pourcentage | Taux annuel de croissance démographique)

Examinons les trois mesures que nous avons vues. Une proportion est une partie, une part ou un nombre envisagé par rapport à un ensemble. Elle peut être égale à 0, à 1 ou à n'importe quelle valeur comprise entre les deux. On peut l'exprimer en nombre ou en pourcentage. Un exemple tiré des statistiques officielles serait la proportion de la population canadienne qui vit dans une province donnée. Un ratio représente la taille relative de deux valeurs. Il peut être utilisé pour comparer deux parties l'une par rapport à l'autre. Les rapports peuvent être constitués de n'importe quelle valeur positive et sont généralement exprimés sous forme de deux chiffres séparés par un deux-points ou par un seul chiffre. Un exemple tiré des statistiques officielles est le ratio des salaires entre les sexes, qui compare les gains selon le sexe. Enfin, un taux est une mesure plus générale dans laquelle une quantité divisée par une autre quantité, et où les deux quantités n'ont pas nécessairement besoin d'avoir les mêmes unités de mesure. Un taux peut prendre n'importe quelle valeur, y compris une valeur négative. Comme les proportions, il peut être exprimé sous forme de nombre ou de pourcentage. Un exemple bien connu est le taux annuel de croissance de la population.

Vérification des connaissances

(Tableau contenant les estimations de la population, le 1er juillet, des femmes et des hommes de la population canadienne entre 2018 et 2020 en des millions de personnes. Femmes : 18,7 (2018); 18.9 (2019); 19.1 (2020). Hommes : 18,4 (2018); 18.7 (2019); 18.9 (2020). Total : 37,1 (2018); 37.6 (2019); 38.0 (2020))

Dans les diapositives suivantes, nous verrons quelques exemples de proportions, de ratios et de taux provenant de données réelles. Le tableau 1 présente les estimations démographiques au milieu de l'année selon le sexe entre 2018 et 2020. Quelle proportion de la population canadienne était de sexe masculin en 2019? Pour trouver la réponse, vous devez diviser le nombre d'hommes 18,7 millions par la population totale 37,6 millions. Cela nous fournit notre réponse: la proportion d'hommes dans la population canadienne au milieu de 2019 était de 0,497. En multipliant par 100, on obtient la réponse en pourcentage: 49,7%.

Maintenant, essayez de calculer le ratio hommes-femmes dans la population canadienne en 2019. Mettez la vidéo en pause et essayez de calculer ce ratio. Si on regarde ce tableau, on peut dire que le ratio est de 18,7 millions d'hommes pour 18,9 millions de femmes. Cependant, cela semble confus. Il doit y avoir une meilleure façon de présenter ce renseignement! Essayons plutôt d'exprimer le ratio en nombres décimaux en divisant le nombre d'hommes par le nombre de femmes. Cela nous donne 0,99. Autrement dit, en juillet 2019, il y avait 0,99 homme pour chaque femme dans la population canadienne. Cela permet à votre auditoire de comprendre qu'il y a moins d'hommes que de femmes dans la population canadienne. De plus, étant donné que ce ratio est proche de 1, nous pouvons conclure que l'écart entre le nombre d'hommes et de femmes est faible.

Enfin, revenons au même tableau pour calculer le taux de croissance de la population canadienne entre 2018 et 2019. Premièrement, on calcule la différence de la population entre les deux années, puis on divise cette différence par la taille de la population de l'année précédente qui, dans ce cas, est 2018. On multiplie ensuite le résultat par 100 afin d'exprimer ce taux en pourcentage. Ici, le taux de croissance est de 1,3%. Comme le taux de croissance est positif, nous pouvons conclure que la population canadienne a augmenté de 2018 à 2019.

Le saviez-vous? Les taux peuvent être utilisés pour effectuer des prévisions!

Saviez-vous que les taux peuvent aussi servir à effectuer des prévisions? Dans le tableau 1 nous pouvons voir que la population canadienne était de 38 millions d'habitants en 2020. Mais si les données n'avaient pas encore été disponibles, comment aurions-nous pu prévoir ce chiffre à partir des estimations de la population de 2018 et de 2019? Une façon rapide et simple de le faire est de supposer que le taux de croissance entre 2019 et 2020 a été le même qu'entre 2018 et 2019. Ensuite, nous appliquons ce taux à la population de 2019 pour calculer la croissance et nous ajoutons la croissance à la population de 2019. Comme nous l'avons vu plus tôt, le taux de croissance entre 2018 et 2019 était de 1,3%. En multipliant ce taux par la population de 2019, soit 37,6 millions, nous obtenons 0,5 million. Cela représente la croissance prévue d'ici au milieu de 2020. Ensuite, en ajoutant ce chiffre à la population de 2019, soit 37,6 millions, nous obtenons 38,1 millions. Comment nous nous en sommes tirés? Le résultat, 38,1 millions, est légèrement supérieur à l'estimation réelle de 38 millions. Cela signifie que le taux de croissance réel entre 2019 et 2020 a finalement été inférieur à celui de l'année précédente. Mais notre prévision était très proche.

Principaux points à retenir

Récapitulons les principaux points que nous avons abordés dans cette vidéo. Les proportions, les ratios et les taux sont utiles pour comparer les chiffres et se ressemblent parfois beaucoup. Cependant, une porportion est une partie, une part ou un nombre considéré par rapport à tout, tandis qu'un ratio correspond à la taille relative de deux valeurs. Un taux est une quantité divisée par une autre quantité et les trois mesures ont des propriétés différentes. Il est également intéressant de noter que les taux comme les taux de croissance peuvent être utiles pour effectuer des prévisions.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : corrélation et causalité

Numéro de catalogue : 892000062021002

Date de diffusion : le 3 mai 2021 Mise à jour : le 1re décembre 2021

Avez-vous déjà remarqué que l'esprit humain aime vraiment créer des liens? À tel point en fait, que l'esprit va souvent créer des liens quand deux variables semblent être si étroitement associées qu'il peut sembler que l'une est dépendante de l'autre. Par exemple, le joueur de hockey des Sénateurs d'Ottawa Bruce Gardiner était tellement superstitieux qu'il était convaincu que la seule façon de se sortir d'une léthargie était de tremper son bâton de hockey dans les toilettes. Des superstitions comme celle-là sont un excellent exemple de la façon dont le cerveau aime percevoir des relations entre deux choses, même quand en réalité il n'existe aucune relation de ce genre. Dans cette vidéo, vous apprendrez comment prouver l'existence d'une relation, ou l'absence de relation, entre deux variables. Il s'agit d'une partie très importante de l'analyse des données.

À la fin de cette vidéo, vous aurez appris les réponses aux questions suivantes :

  • Qu'est-ce que la corrélation?
  • Comment pouvez-vous mesurer, quantifier ou interpréter la corrélation quand vous analysez vos données?
  • Qu'est-ce que la causalité?
  • Et enfin, quelles sont les différences entre les deux
Étape du parcours des données
Analyser, Modéliser
Compétence des données
  • Analyse des données
  • Interprétation des données
  • Prise de decision basée sur les données
  • Visualisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
21:16
Coût
Gratuit

Voir la vidéo

Statistique 101 : corrélation et causalité - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : "Statistique 101 Corrélation et causalité")

Statistique 101 : Corrélation et causalité

La présente vidéo s'adresse aux personnes qui souhaitent acquérir une compréhension de base de la corrélation et de la causalité. Comme préalable, avant de commencer cette vidéo, nous vous conseillons vivement d'avoir déjà regardé nos vidéos intitulées « Que sont les données » et « Types de données ».

Objectifs d'apprentissage

A la fin de cette vidéo, vous aurez appris les réponses aux questions suivantes Qu'est ce que la corrélation? Comment pouvez vous mesurer, quantifier ou interpréter la corrélation quand vous analysez vos données? Qu'est ce que la causalité? Et enfin, quelles sont les différences entre les deux?

Étapes du cheminement des données

(Text à l'écran : Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, receuillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à la communication aux autres de l'histoire qu'elles racontent, en passant par le nettoyage, l'exploration, la description, la compréhension et l'analyse des données.

Étape 3 et 4: Analyser, modéliser et raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur l'Étape 3 - Analyser, modéliser et l'Étape 4 - Raconter l'histoire)

La corrélation et la causalité relève des deux dernières étapes du cheminement des données : Analyser et modéliser et raconter une histoire.

Liens et relations

(Image combinant un bâton de hockey et une toilette qui donne une coupe Stanley avec un point d'interrogation)

Avez vous déjà remarqué que l'esprit humain aime vraiment créer des liens? A tel point fait que l'esprit va souvent créer des liens quand deux variables semblent être si étroitement associé qu'il peut sembler que l'une est dépendant de l'autre. Par exemple, le joueur de hockey des Sénateurs d'Ottawa, Bruce Gardiner, était tellement superstitieux qu'il était convaincu que la seule façon de se sortir d'une léthargie était de tremper son bâton de hockey dans les toilettes. Des superstitions comme celle là sont un excellent exemple de la façon dont le cerveau aime percevoir des relations entre deux choses. Même cas en réalité, il n'existe aucune relation de ce genre. Dans cette vidéo, vous apprendrez comment prouver l'existence d'une relation ou l'absence de relation entre deux variables. Il s'agit d'une partie très importante de l'analyse des données.

Corrélation dans l'analyse des données

Dans le monde des données, la corrélation désigne l'existence d'une relation entre deux variables. La corrélation joue un rôle important dans l'analyse des données lorsqu'on étudie une relation potentielle entre deux variables. Il est important de se poser les questions suivantes. Existe t il une relation entre les deux variables? Dans l'affirmative, la relation est elle positive ou négative? Quelle est la force de cette relation? S'agit il d'une forte corrélation, d'une faible corrélation ou de quelque chose entre les deux? La corrélation peut exister entre toutes ces deux variables, mais en statistique, la corrélation ne peut être calculée que pour des variables numériques.

Qu'est-ce que la corrélation?

(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps)

Commençons par parler de la corrélation dans la vie quotidienne lorsque nous disons qu'il y a une corrélation entre deux ou plusieurs choses. Cela signifie qu'il y a une relation mutuelle entre elles. Cette relation peut être positive ou négative.

Dans une corrélation positive, les valeurs des deux éléments associés se déplacent dans la même direction. Prenez une bouilloire remplie d'eau, par exemple dans la bouilloire reste allumée. Plus la température de l'eau à l'intérieur de la bouilloire augmente.

Dans une corrélation négative, les valeurs se déplacent dans des directions opposées. En d'autres termes, à mesure que la variable augmente, l'autre diminue et vice versa.

Par exemple, imaginez que vous amener une tasse de thé fraîchement infusée à l'extérieur lors d'une journée d'hiver, plus vous passerez de temps à l'extérieur, plus votre thé refroidit. Dans ce cas, à mesure que la variable temporelle augmente, la température diminue.

Visualiser nos données

(Diagramme de dispersion visualisant les données de la diapositive précédente sur la température de l'eau dans une bouilloire au fil du temps)

L'utilisation d'un diagramme de dispersion est un moyen efficace de montrer la relation entre deux variables différentes.

Ici, nous avons utilisé Microsoft Excel pour tracer les sept points du tableau de la diapositive précédente. Vous pouvez faire de même dans de nombreux autres tableurs électroniques. Le nombre de secondes que l'eau passe dans la bouilloire est tracé le long de l'axe horizontal des X et la température de l'eau est tracée le long de l'axe vertical. Ici, nous pouvons clairement constater que à mesure que les valeurs X augmentent, les valeurs Y augmentent aussi. Cela vérifie que nous avons une forte corrélation positive.

(Diagramme de dispersion visualisant les données de la diapositive sur la température de l'eau dans une bouilloire au fil du temps avec une ligne de tendance interceptant les données)

Cette corrélation positive est plus évidente avec l'ajout d'une ligne de tendance linéaire, une ligne de tendance et une ligne droite que nous traçons afin qu'elle se rapproche le plus possible de tous les points de données. Elle peut être générée automatiquement en utilisant le logiciel de votre choix. Comme le montre ce diagramme de dispersion, il fournit une visualisation encore plus claire, ce qui nous permet de voir à quel point nos variables sont corrélées. Dans cet exemple, la ligne suit de toute évidence une tendance à la hausse, ce qui représente une corrélation positive. Si la ligne suivait une tendance vers le bas, elle représenterait une corrélation négative.

Mesurer la corrélation

Pour les variables numériques, la corrélation est mesurée par un coefficient de corrélation. Tandis qu'un diagramme de dispersion où une ligne de tendance peut vous aider à visualiser vos données, un coefficient de corrélation est une mesure de la force de la relation linéaire entre deux variables et est représentée par R. La valeur de R est toujours comprise entre un minimum de moins 1 et un maximum de 1. Le coefficient de corrélation ou R peut être calculé facilement dans Excel en utilisant la fonction de Pearson. Cette fonction est disponible dans plusieurs tableurs électroniques ou applications statistiques. Utilisez celle que vous connaissez et à laquelle vous faites confiance!

Lorsque r est égal à 1, nous disons que deux variables ont une relation parfaitement positive, ce qui signifie que les deux variables augmentent ou diminuent toujours ensemble. Lorsque R est égal à moins 1, les variables ont une relation parfaitement négative. Cela signifie qu'une variable augmente toujours, tandis que l'autre diminue. Enfin, lorsque R est égal à zéro, il n'y a pas de relation linéaire entre les deux variables.

Interpréter le coefficient de corrélation

(Tableau contenant des renseignements sur l'interprétation de la valeur du coefficient de corrélation. Les colonnes, de la gauche vers la droite, sont nommés come suit : Valeur de r | Corrélation | Direction | Force. De la première vers la dernière ligne : 1 | Oui | Positive | Parfait; 0.99 à 0.6 | Oui | Positive | Forte our très forte; 0.59 à 0.20 | Oui | Positive |Faible ou modérée; 0.19 à -0.19 | Non | - | -; -0.2- à -0.59 | Oui | Négative | Faible ou modérée; -0.6 à -0.99 | Oui | Négative | Forte ou très forte; -1| Oui | Négative | Parfaite)

Le coefficient de corrélation, ou r, fournit des renseignements sur l'existence, la direction et la force d'une relation entre deux variables. En réalité, une valeur en R est rarement égale à exactement 1. Ce tableau fournit des lignes directrices générales sur la manière de déterminer la force de relations entre deux variables. Si une valeur R est égale ou inférieure à 0,6, nous avons une forte relation négative. De même, si sa valeur est égale ou supérieure à 0,6, nous avons une forte relation positive.

Si une valeur r est comprise entre moins 0,59 et moins 0,2. Nous avons une faible corrélation négative, même si sa valeur se situe entre 0,2 et 0,59. Nous avons une faible corrélation positive.

Enfin, si le coefficient de corrélation est entre -0,19 et 0,19, nous n'avons pas suffisamment de preuves pour dire que les deux variables sont corrélées.

Exemple 1

(Tableau contenant des données sur le changement de température de l'eau dans une bouilloire au fil du temps. les colonnes, de la gauche vers la droite, sont nommés comme suit : Temps dans la bouilloire (secondes) | Température de l'eau (Celsius). De la première ligne vers la dernière : 30 sec | 20°C; 60 sec | 35°C; 90 sec | 50°C; 120 sec | 65°C; 150 sec | 80°C; 180 sec | 90°C; 210 sec | 100°C;)

Revenons à notre exemple de l'eau en ébullition dans une bouilloire.

Ce tableau des données fournit la température de l'eau dans une bouilloire à 7 moments qui sont espacées de façon égale dans le temps. Après les 30 premières secondes, l'eau est à une température de 20 degrés Celsius.

Au dernier moment, l'eau a atteint son point d'ébullition de 100 degrés Celsius. En utilisant la valeur de R, nous pouvons prouver qu'il existe une corrélation positive entre le temps et la température tant grâce au coefficient de corrélation et à la visualisation des données.

Calculer le coefficient de corrélation

(Tableau contenant les même données que la diapositive précédente)

(Diagramme de dispersion avec une ligne de tendance visualisant les données du même tableau)

(Text : Utilisez la fonction de Pearson --> r=0.997)

Comme nous l'avons mentionné plus tôt, le coefficient de corrélation ou R peut être calculé facilement en utilisant la fonction de Pearson. Les valeurs de la première colonne représentent la première variable le nombre de secondes passées dans la bouilloire. Les valeurs de la deuxième colonne représentent la température de l'eau à chaque point dans le temps.

Ici, nous voyons que la valeur s'avère être supérieure à 0,99. Rappelez vous qu'une valeur de 1 aurait indiqué une corrélation positive parfaite. Cela signifie que notre valeur indique une corrélation positive proche de la perfection. En d'autres termes, pour ces deux variables, il y a une forte corrélation positive entre le temps et la température qui est visible sur le diagramme de diffusion et la ligne de tendance.

Exemple 2

(Diagramme de dispersion représentant le taux de Cybercriminalité par 100 000 habitants en fonctions du Taux de croissance (%) de la population en 2017-2018. La ligne de tendance monte faiblement)

En réalité, il est peu probable que la relation entre deux valeurs soit aussi évidente que le lien entre le temps passé dans une bouilloire et la température de l'eau. Examinons un exemple concret qui compare la croissance démographique à la cybercriminalité en 2018.

Que nous dit le diagramme de dispersion? Tout d'abord, sur l'axe des X, nous voyons à mesure que les valeurs du taux de croissance de la population augmentent, les valeurs des taux de cybercriminalité sur l'axe des Y font de même. Cela laisse entendre que nous devrions avoir une corrélation positive.

Parallèlement, nous remarquons que les points de données sont plutôt éparpillés. Il est difficile de tracer une ligne droite entre ces points de données tout en gardant chaque point de données près de la ligne. Cela nous amènerait à croire qu'il n'y a pas de forte corrélation.

Pour en être sûr, nous décidons d'utiliser un logiciel pour calculer notre coefficient de corrélation et nous voyons que R est égal à 0,3. Cela signifie une faible corrélation positive. Par conséquent, après avoir visualisé les données et déterminer le coefficient de corrélation, nous pouvons conclure qu'en 2018, il y avait une faible corrélation positive entre la croissance démographique et la cybercriminalité.

Vérification des connaissances

(Diagramme de dispersion représentant un nuage de points qui, de façon disperser, diminue en valeur en fonction de l'axe des X)

Faisons une pause pour mettre à l'épreuve vos connaissances sur la corrélation.

Examinons le diagramme de dispersion dans la partie supérieure droite de la diapositive. Qu'est ce que cela nous dit? Y a t'il une corrélation positive entre ces deux variables? B) Une corrélation négative? ou C) Aucune corrélation de tout?

La réponse est B. Ce diagramme de dispersion visualise une forte corrélation négative entre ces deux variables.

Imaginez ensuite que vous analysez trois paires de variables les coefficients de corrélation pour ces trois paires sont moins -0,8, 0,03, 0,42. Quel R indique la relation la plus forte?

La réponse est A) R est égale à 0,8. Cela indique une relation forte et négative. La plus faible de ces trois options est B ou R est égal à 0,03, ce qui indique qu'il n'existe aucune relation entre les variables.

Corrélation =/= Causalité

Passons maintenant à la causalité. En fait, s'il y a un message clé que vous devez retenir de cette vidéo, ce devrait être ceci même si la corrélation et la causalité sont parfois utilisées incorrectement comme des concepts interchangeables, ce n'est pas du tout le cas. Jusqu'à présent, nous avons appris que le coefficient de corrélation nous indique à quel point une paire de variables sont liées de manière linéaire et changent ensemble. Cependant, il ne nous dit pas pourquoi ni comment. C'est ce que fait la causalité. La causalité, c'est quand il y a une explication logique dans le monde. A la question pourquoi cela se produit? Vous avez peut être déjà entendu parler de ce phénomène qui est aussi appelé la relation de cause à effet.

Causalité

La causalité est une relation entre deux événements ou variables ou un évènement ou processus provoque un effet sur l'autre évènement ou processus, par exemple:

Des recherches nous apprennent qu'il existe une corrélation positive entre les ventes de crèmes glacées et les coups de soleil. Cela veut dire qu'à mesure que les ventes de crèmes glacées augmentent, les cas de coups de soleil augmentent également. Par contre, cela ne veut pas dire que l'achat d'une cône de crème glacée, provoque un coup de soleil, n'est ce pas? Bien sûr que non. La causalité ajoute à la corrélation le contexte et le sens dans le monde réel.

(Série d'image démontrant que la vente de crème glacée et le nombre de coups de soleil sont corrélées mais que chaqu'un est causé par le soleil)

La causalité désigne une relation entre deux événements ou variables qui a une explication valable. Contrairement à la corrélation avec la causalité. Cette explication valide transforme la possibilité en réalité.

Dire que quelque chose provoque un effet sur une autre variable signifie que le résultat d'un évènement est directement influencé par l'autre. Soit la cause précède l'effet, soit l'effet change lorsque la cause change.

Par exemple, du temps sec, chaud et ensoleillé poussera les gens à acheter plus de crèmes glacées que du temps froid. Le temps sec, chaud et ensoleillé provoquera également une augmentation des coups de soleil par rapport au temps plus froid et pluvieux. Cela peut donner l'impression que l'achat de crème glacée provoque des coups de soleil, mais ce n'est tout simplement pas vrai. En ce qui concerne le temps chaud ensoleillé, les ventes de crèmes glacées et les coups de soleil. Les trois variables sont corrélées. Mais les seules relations causales dans ce scénario sont entre la météo et les ventes de crème glacée et entre la météo et les gens qui prennent des coups de soleil.

Attention au biais de confirmation!

Tout comme l'esprit humain aime créer des liens. Il a aussi tendance à accepter plus facilement des preuves qui sont en accord avec les croyances existantes de la personne plutôt que celles qui les réfutent. C'est ce qu'on appelle le biais de confirmation. Donc, quand vous analysez vos données, il est très important d'examiner attentivement les conclusions que vous préférez aussi rigoureusement que celles que vous n'aimez pas afin d'éviter de prétendre qu'il existe une relation de causalité entre deux choses. Alors qu'en fait, ce n'est pas le cas.

Comment déterminer une relation de causalité

Il n'y a pas de tests statistiques faciles pour mettre à l'essai une relation de cause à effet. La confirmation statistique de la causalité nécessite généralement des techniques de modélisation avancées. Toutefois, lorsque vous tentez d'établir la présence ou l'absence d'une relation de causalité, il est généralement plus probable qu'il y ait un lien de causalité entre vos deux variables.

Si les quatre critères suivants sont respectés tout d'abord, comme pour la corrélation, les deux variables doivent varier ensemble, ce qui signifie qu'il a été démontré qu'il existe un coefficient de corrélation positif ou négatif.

Ensuite, cette relation doit être plausible et vraiment, ce que cela veut dire est que la relation doit avoir du sens.

Troisièmement, la cause doit précéder l'effet dans le temps. En d'autres termes, la cause doit avoir lieu en premier pour que l'effet ait lieu.

Enfin, la relation ne doit pas être causée par une troisième variable. Une relation qui semble être entre deux variables, mais qui pourrait aussi être expliquée par une troisième est aussi appelée association fallacieuse. Nous l'avons déjà vu dans notre exemple, examinant la corrélation entre l'augmentation des ventes de crèmes glacées et l'augmentation des cas de coups de soleil. Mais en fait, ces deux augmentations étaient l'effet d'une troisième variable le soleil.

Vérification des connaissances : Cette relation est-elle une relation de causalité?

(Diagramme de dispersion représentant Les heures avant que la personne ne mange à nouveau en fonction du poids du gâteau consommé (kg). La ligne de tendance du nuage de points monte.)

Maintenant, jetant un coup d'œil à ce diagramme de dispersion et essayant de déterminer s'il y a ou non une relation de causalité entre la quantité de gâteau qu'une personne mange et à quel point elle se sent rassasié. Ce que nous mesurons au moyen du temps qui passe avant que la personne ne mange à nouveau. Dans cet exemple, nous supposons que tous les répondants sont semblables, à l'exception de la quantité de gâteau qu'ils ont consommé. Pensez aux quatre critères que nous venons de voir. Est ce que les deux variables varient ensemble? La relation était elle plausible? La cause précède l'effet dans le temps et la relation est elle causée par une troisième variable?

(Texte : Oui - r = 0.918; Oui - processus de digestion; Oui - le gâteau est mangé en premier; Probablement pas - si on prend compte des autres aliments consommés)

Après avoir examiné les quatre critères que nous avons établi pour aider à déterminer si la relation est bien une relation de causalité, nous avons déterminé que d'abord, les variables varient effectivement ensemble. Oui, il y a une relation plausible. Oui, le gâteau est mangé en premier. Et c'est ce qui provoque l'effet de se sentir rassasié. Et dans ce cas, il est peu probable que le sentiment de se sentir rassasié ait été causé par une troisième variable puisque nous avons tenu compte de tous les aliments qui ne sont pas des gâteaux.

L'importance de connaître la différence

(Diagramme de dispersion représentant la moyenne pondérée cumulative (MPC) en fonction des Années de leçons de musique. La ligne de tendance du nuage de points monte)

Un problème commun survient quand on présente deux tendances corrélées en avançant qu'un phénomène cause l'autre. Par exemple, ce diagramme de dispersion montre une relation entre le fait de prendre des leçons de musique et l'obtention d'une moyenne pondérée cumulative MPC élevée. Le graphique semble indiquer qu'il existe une corrélation entre les années de leçons de musique et la MPC moyen. Cependant, est ce que les leçons de musique ont une incidence directe ou causent une augmentation de la MPC? Des recherches sociales montrent que ces étudiants hautement performants sont également plus susceptibles d'avoir grandi dans un environnement qui met l'accent sur l'éducation et qui fournit les ressources nécessaires pour réussir sur le plan scolaire. Il est donc possible que ces étudiants aient obtenu des résultats scolaires supérieurs avec ou sans les leçons de musique, et que leur statut socio économique soit la véritable raison derrière la relation. Donc, même si les leçons de musique et les réalisations scolaires sont corrélées, il y a d'autres facteurs qui devraient nous empêcher d'établir une causalité.

Récapitulation des points clés

Voici un aperçu des points clés que nous avons couverts dans cette vidéo.

Premièrement, la corrélation désigne la relation entre deux variables. Il était important de chercher l'existence, la direction et la force de la relation.

Ensuite, nous avons appris à évaluer la force et la direction d'une corrélation en calculant le coefficient de corrélation r. La visualisation des données nous permet également de déterminer rapidement les corrélations.

Ensuite, nous avons expliqué comment la causalité désigne une relation entre deux événements ou variables qui a une explication valable.

Et enfin, il est important de se rappeler que la corrélation ne sous entend pas toujours la causalité, même si deux variables sont fortement corrélées. Il pourrait s'agir d'une simple coïncidence.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Raconter l'histoire des données : comment créer des histoires qui comptent

Numéro de catalogue : 892000062021005

Date de diffusion : le 3 mai 2021 Mise à jour : le 13 décembre 2021

À la fin de cette vidéo, vous devriez mieux comprendre les principes fondamentaux de l'utilisation des données pour raconter une histoire. Nous examinerons certains des principaux éléments d'une histoire de données, y compris les données, le récit et la visualisation, et nous discuterons de la façon dont ils peuvent être utilisés pour construire des messages concis, informatifs et intéressants auxquels votre public peut se fier. Et ensuite, vous découvrirez l'importance de bien planifier une histoire de données, y compris de savoir qui sera votre public, ce qu'il devrait savoir et la meilleure façon de fournir ces renseignements.

Étape du parcours des données
Raconter l'histoire
Compétence des données
  • Interprétation des données
  • Raconter une histoire
  • Visualisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
17:51
Coût
Gratuit

Voir la vidéo

Raconter l'histoire des données : comment créer des histoires qui comptent - Transcription

Raconter l'histoire des données : comment créer des histoires qui comptent - Transcription

(The Statistics Canada symbol and Canada wordmark appear on screen with the title: "Raconter l'histoire des données: Comment créer des histoires qui comptent")

Raconter l'histoire des données: Comment créer des histoires qui comptent

Bienvenue à "Raconter l'histoire". Cette vidéo vise à aider les apprenants à comprendre comment utiliser les données pour raconter des histoires intéressantes et instructives.

Objectifs d'apprentissage

À la fin de cette vidéo, vous devriez mieux comprendre les principes fondamentaux de l'utilisation des données pour raconter une histoire. Nous examinerons certains des principaux éléments d'une histoire de données, y compris les données, le récit et la visualisation, et nous discuterons de la façon dont ils peuvent être utilisés pour construire des messages concis, informatifs et intéressants auxquels votre public peut se fier. Et ensuite, vous découvrirez l'importance de bien planifier une histoire de données, y compris de savoir qui sera votre public, ce qu'il devrait savoir et la meilleure façon de fournir ces renseignements.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, receuillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte à la communication avec les autres de l'histoire que racontent les données, en passant par l'exploration, le nettoyage, la description, la compréhension et l'analyse des données.

Étape 4: Raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur l'Étape 4 - Raconter l'histoire)

Cette vidéo portera principalement sur la dernière étape du cheminement des données: raconter l'histoire. Être un bon conteur d'histoire signifie pouvoir présenter des renseignements sans y ajouter vos opinions. Il est important de garder les choses simples en déterminant ce qui est important et ce qui ne l'est pas. Autrement dit, les conteurs efficaces d'histoires des données doivent aussi être des réviseurs sans pitié et essayer de séparer l'essentiel du superflu.

Qu'est-ce qu'une histoire de données?

Qu'est-ce qu'une histoire de données? Une façon de décrire l'histoire des données est la capacité de communiquer des données non seulement sous forme de chiffres ou de graphiques, mais sous forme de récit que les humains peuvent comprendre. Une histoire de données est composée de trois composantes principales: les données, le récit et les visualisations, qui fonctionnent tous ensemble pour créer un compte rendu oral ou écrit des données qui répond aux besoins de votre public en matière de renseignements. L'objectif d'une histoire de données est de fournir un contexte pour expliquer l'importance des données et aider à communiquer tout message clé que vous essayez de transmettre au moyen de votre histoire de données. Les meilleurs conteurs d'histoires des données sont ceux qui savent comment traduire efficacement leurs résultats en une séries d'éléments essentiels qui font passer le message de la manière la plus directe et la plus succincte possible.

Pourquoi raconter une histoire de données?

Mais pourquoi raconter une histoire de données? Pourquoi ne pas simplement montrer aux gens des chiffres dans une feuille de calcul? Eh bien, franchement, c'est parce que les histoires sont plus faciles à retenir. Les gens se sentent proches des histoires. Et, à vrai dire, les histoires de données sont conçues pour le public et pas pour l'auteur. Depuis que les humains se sont assis pour la première fois autour d'un feu de camp, ils racontent des histoires pour: Informer, pour raconter, faire le point et fournir des faits; pour Persuader, pour vendre, convaincre ou recommander; et aussi pour Divertir, pour faire plaisir, amuser ou toucher nos émotions. Dans l'ensemble, quand nous racontons une histoire de données, nous ne voulons pas seulement que les gens comprennent les données et/ou les renseignements dont nous discutons. Utiliser des histoires aide les gens à mémoriser vos idées principales.

Composantes d'une histoire de données

Précédemment, nous vous avons dit qu'une histoire de données est un compte rendu oral ou écrit des données, composé d'un récit et accompagné de visualisations. Ici, nous allons examiner ce que nous voulons vraiment dire quand nous disons les termes "données", "récit" et "visualisation". Les données sont des statistiques et des renseignements inclus dans votre histoire de données pour soutenir votre message clé. Le récit est fondé sur des données et comprend d'autres renseignements utilisés pour raconter l'histoire des données. Il fournit également un contexte pour expliquer l'importance des données et des messages clés que vous communiquez au moyen de votre histoire de données. Et enfin, les visualisations sont les tableaux, les graphiques, les diagrammes, les cartes, les pictogrammes et autres visualisations de données que vous utilisez pour raconter votre histoire de données. Si cela est fait correctement, les visualisations aident vos messages clés à sauter aux yeux.

Autres détails sur les données

Avant de décider quelles statistiques et quels renseignements inclure dans votre histoire de données, vous devez d'abord confirmer que les données sont de qualité adéquates et valides pour être utilisées à vos fins. Déterminer des données qui répondent aux critères nécessaires pour les inclure dans votre histoire de données peut être une affaire pénible. Vous aurez probablement effectué beaucoup d'analyses et c'est maintenant le moment de mettre en évidence vos principales conclusions et de leur attribuer les sources appropriées.

Autres détails sur le récit

Autre détail sur le récit. Un récit fort repose sur une structure forte. Et qu'entendons-nous par "structure"? Eh bien, si un récit est utilisé pour raconter une histoire de données, alors il doit, comme toutes les bonnes histoires, contenir un début, un milieu et une fin ou, comme nous les appellerons ici, le "Quoi?", le "Et alors?" et le "Et maintenant?". Le "Quoi" présente le sujet et explique le contexte. Quels sont les faits? Que doit savoir le public? Le "Et alors?" explique les données. Quels sont les faits? Pourquoi sont-ils importants? Et le "Et maintenant?" appelle les lecteurs à agir. Il devrait expliquer quelles conclusions peuvent être tirées et quelles sont les prochaines étapes.

Autres détails sur les visualisations

Il existe de nombreuses façons différentes de présenter les données visuellement, comme des graphiques, des diagrammes, des cartes, des tableaux, des pictogrammes, des infographies et des tableaux de bord. Pour obtenir de plus amples renseignements sur les visualisations de données et comment les utiliser, consultez notre vidéo intitulée "Visualisation des données: une introduction", également disponible dans cette série.

Autres détails sur les visualisations

Pour l'instant, notre intention est de vous familiariser avec la dernière composante nécessaire d'une histoire de données efficace. Une fois que vous avez choisi les données à inclure dans votre histoire et que vous aurez construit votre récit autour de celle-ci, il est temps de réfléchir à la meilleure façon de la présenter à votre public. Premièrement, une bonne visualisation des données doit être claire et rapidement interprétable. Pour vérifier cela, vous devez exécuter des tests à des fins d'accessibilité. Rappelez-vous, les visualisations n'existent pas seulement pour avoir l'air intéressantes, elles sont conçues pour aider les lecteurs à interpréter votre histoire de données et à les guider. Cela signifie utiliser des propriétés visuelles que le cerveau humain traite immédiatement sans avoir recours à notre action consciente, et inclut des attributs comme la couleur, la taille, la forme. Nous voulons également nous assurer que les annotations sont utilisées pour attirer l'attention du public, mettre en évidence les messages clés et nous assurer que tous les documents de référence sont cités. Pour éviter les visualisations inefficaces, vous devez vous assurer que tout encombrement inutile a été supprimé et qu'il ne déforme en aucune façon vos messages clés et n'induit pas le lecteur en erreur.

Planification de votre histoire de données

(Diagramme des étapes clés à garder à l'esprit lors de la planification d'une histoire de données: 1) Qui est le public pour l'histoire des données? 2) Quel est le but de l'histoire des données? 3) Quel format le mieux adapté au public et permettra le mieux d'atteindre l'objectif?)

Jusqu'à présent, nous avons examiné les principes fondamentaux de l'utilisation des données pour raconter une histoire, qui comprenait les principales composantes et l'histoire des données, y compris les données, le récit et la visualisation. Ensuite, nous avons discuté du rôle de chacun d'entre eux joue dans la construction de messages concis, informatif et intéressant. Ensuite, nous avons examiné ce que veut dire créer une histoire mémorable sur laquelle votre public peut se fier. Donc, maintenant que nous avons tous les éléments dont nous avons besoin pour créer une histoire de données efficace, il est temps de faire un plan. Quand vous planifiez votre histoire de données, comme pour planifier un voyage de vacances, vous devez savoir où vous êtes maintenant et savoir où vous voulez aller, mais vous n'avez pas déterminé comment vous y arriverez exactement. Les trois étapes de planification de votre histoire de données sont les suivantes: D'abord, qui est le public pour l'histoire de données? Deuxièmement, quel est le but de l'histoire de données? Et troisièmement, quelle est la meilleure forme pour atteindre ce but?

Étape 1: Qui est votre public?

(Text sur l'écran: Le grand public? La haute direction? Des universitaires? Des collègues? des décideurs? Les médias?)

La première étape de la planification de votre histoire de données consiste à connaître votre public. Il y a beaucoup de publics différents et de nombreuses variables différentes qui pourraient influer sur la façon dont nous présentons nos idées. Par exemple, en ce qui concerne le grand public, le niveau de mobilisation et de compréhension à l'égard d'un sujet particulier sera très probablement très différent de celui d'un haut fonctionnaire du gouvernement. Chaque public a une attente unique et précise quant à la façon dont les messages sont présentés. Parmi les autres publics potentiels, on compte des membres de la communauté universitaire qui peuvent traiter des renseignements très détaillés et techniques. Lorsque vous communiquez avec des collègues et des pairs, le ton et le style peuvent être plus informels. Avec les décideurs des politiques officielles, le contraire pourrait être vrai et le ton très sérieux et professionnel. Et avec les médias, vous avez beaucoup de types de publics différents.

Publics différents, renseignements différents

Les types de publics énumérés ici affichent toute une gamme de compréhension. En d'autres termes, la profondeur et le niveau de détails de votre histoire devraient être ajusté en fonction des connaissances, de l'intérêt et des besoins en matière de renseignements de votre public. "Novice" signifie que c'est leur première exposition au sujet. Ici, nous ne faisons aucune supposition sur les connaissances antérieures, mais cela ne signifie pas que nous devons simplifier exagérément le message. Un généraliste est conscient du sujet, mais il cherche plutôt un aperçu pour aider à comprendre les principaux thèmes plutôt que des détails de niveau inférieur. Un public de direction a besoin de quelque chose de plus approfondi et de plus exploitable. Ils comprennent les complexités et les interrelations du sujet. Les public experts veulent que vous exploriez et découvriez de nouveaux domaines de sujets. Ils n'ont pas besoin de beaucoup de détails contextuels ou de haut niveau. Enfin, il y a les décideurs ou les cadres, pour qui le temps est l'élément le plus important. Gardez les choses simples et soyez direct.

Connaissez votre public

Une autre façon de penser à connaître votre public est de leur porter une attention particulière et d'essayer de comprendre différentes perspectives. Lorsque vous planifiez votre histoire de données, demandez-vous "Pourquoi est-ce important pour ce public? Pourquoi cela continue pour eux? Pourquoi devraient-ils s'en soucier?" Par exemple, si vous parlez à un public novice, vous pouvez utiliser des mots communs et leur raconter une histoire qui transmet des renseignements qu'ils peuvent appliquer immédiatement. Un libellé technique et des expressions techniques sont plus susceptibles d'être appréciés par les gestionnaires ou les experts dans le domaine et leur histoire pourrait servir à informer leur propre équipe ou même la haute direction. Inversement, si votre histoire est un appel à l'action pour les décideurs dans un domaine particulier, évitez les détails inutiles et tenez compte du besoin de savoir. Peu importe votre public, utilisez un langage pertinent qui leur est compréhensible.

Étape 2: Quel est l'objectif de l'histoire de données?

L'étape 2 de la planification de votre histoire de données est de connaître votre objectif ou votre but. Il peut y avoir de nombreux objectifs pour une histoire de données. L'un des objectifs pourrait être simplement d'informer votre public sur vos données et leur place dans notre compréhension actuelle du sujet. Un exemple de cela est un bulletin météorologique ou un rapport de circulation. Concis et agréable. Un autre objectif d'une histoire de données est de persuader. Votre histoire de données peut être utilisée pour convaincre un client d'acheter votre produit ou service ou pour persuader votre gestionnaire de suivre vos recommandations sur une nouvelle stratégie de vente pour le nouvel exercice. Le but de votre histoire de données pourrait être même de divertir. Des entreprises entières réussissent ou échouent en fonction de leur capacité de divertir leur public, comme les magazines, les blogs et les sites web. Bien sûr, votre histoire de données pourrait avoir plusieurs objectifs.

Étape 3: Quel est le meilleur format pour atteindre ce but?

L'étape 3 de la planification de votre histoire de données consiste à déterminer le format que vous utiliserez. Le format que vous choisissez affectera d'autres décisions concernant les éléments à utiliser pour raconter votre histoire de données et la quantité de temps et d'espace que vous disposez pour la raconter. Votre public peut également influer sur le format que vous choisissez. Par exemple, il est peu probable que vous choisissiez de créer une infographie pour informer votre gestionnaire ou votre équipe de projet de l'avancement du projet de recherche en cours. Vous pouvez plutôt choisir de fournir un rapport d'information qui peut être facilement modifié et mis à jour d'une semaine à l'autre. Certains rapports d'information ou publications peuvent nécessiter un format très précis, mais vous pouvez avoir davantage de marge de manœuvre dans un rapport à votre équipe. Ils peuvent même préférer une présentation orale. Alors que vous pouvez vouloir utiliser des visuels plus attrayants comme des tableaux de bord pour mobiliser un public externe comme de nouveaux clients ou de nouveaux lecteurs pour votre site web.

Mêmes renseignements, formats différents

(Deux images représentant des informations sur le quartier accessible à pied et l'activité physique. L'image de droite représente la première page d'un document académique. L'image de droite représente une infographie résumant l'article académique.)

Nous avons ici un exemple de la façon dont les mêmes données peuvent être représentées par différents formats, en fonction du public. L'objectif de cette histoire de données est d'informer le public que l'activité physique est positivement associée à la convivialité pour l'activité, ou "potentiel piétonnier", du quartier où vit une personne. Dans ce cas, nous voyons comment le public peut avoir une influence majeure sur le format final de l'histoire de données. À gauche, nous voyons un article de recherche qui a été écrit pour informer les universitaires et les décideurs de notre message clé. Et à droite, nous avons choisi une infographie pour dresser un portrait pour le grand public qui pourrait ne pas être aussi bien informé sur le sujet et bénéficie d'une narration plus visuelle. Les deux formats ont atteint leur objectif d'informer leur public en conséquence.

Tableaux de bord à l'intention des décideurs

Si votre public se trouve à être un décideur, l'une des façons les plus efficaces de raconter une histoire de données détaillée, mais concise, est d'utiliser un tableau de bord. En suivant les indicateurs clés de rendement, un tableau de bord des données gère des renseignements importants qui peuvent être facilement mis à jour au fil du temps. Les tableaux de bord aident à surveiller le rendement d'un ministère ou d'un processus particulier et à produire des résultats rapidement, mais sans contexte, ce qui est important pour raconter une histoire de données efficace et qu'il faut toujours garder à l'esprit pour choisir le bon format pour le bon public.

Récapitulation des points clés

En fin de compte, cette courte vidéo visait à aider les apprenants à raconter des histoires intéressantes et instructives avec des données. Nous avons expliqué les trois composantes les plus importantes de l'histoire de données: les données, le récit et les visualisations, et enfin, nous avons examiné l'importance de planifier la structure de votre histoire de données en déterminant d'abord qui est votre public, quel devrait être le but de l'histoire et comment elle pourrait être présentée le mieux possible. Ensemble, ces éléments sont utilisés pour construire des histoires de données concises, informatives et intéressantes.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.