Types de données : comprendre et explorer les données

Numéro de catalogue : 892000062020004

Date de diffusion : le 23 septembre 2020 Mise à jour : le 25 november 2021

Dans cette vidéo, vous acquerrez des connaissances sur les données et les renseignements statistiques et explorerez les différents types de données. Après avoir regardé cette vidéo, vous serez en mesure de reconnaître des données catégoriques et quantitatives, des données nominales et ordinales, ainsi que des données discrètes et continues.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
Collecte des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
13:14
Coût
Gratuit

Voir la vidéo

Types de données : comprendre et explorer les données - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : "Types de données : comprendre et explorer les données")

Types de données: comprendre et explorer les données

Il est important de définir les différents types de données et de les comprendre afin de choisir la méthode appropriée pour analyser les données et présenter les résultats.

Objectif d'apprentissage

Dans cette vidéo, vous acquerrez des connaissances sur les données et les renseignements statistiques et explorer les différents types de données. Après avoir terminé cette vidéo, vous serez en mesure de reconnaître des données catégoriques et quantitatives des données nominales et ordinales ainsi que des données discrètes et continues. Cette vidéo s'adresse aux personnes apprenantes qui veulent acquérir une compréhension de base des concepts et des types de données.

Étapes de cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données au nettoyage, à l'exploration, à la description et à la compréhension des données, à l'analyse des données et enfin à la communication avec les autres de l'histoire que racontent les données.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur l'Étape 2 - explorer, nettoyer, décrire.)

L'exploration des différents types de données fait partie de l'étape, de l'exploration, du nettoyage et de la description du cheminement des données. La compréhension des divers types de données aidera à l'étape de l'analyse et de la modélisation.

Différence entre les données et les renseignements statistiques: Données

Les données sont les matières brutes à partir desquels l'information est obtenu.

Il peut s'agir par exemple, de chiffre, de texte, d'observation ou d'enregistrement. Les données peuvent être structurées, ce qui signifie qu'elles sont organisées en catégories où concepts prédéfinis comme des listes, de tableaux, des ensembles de données, des bases de données ou des chiffriers. Les données peuvent aussi être non structurées, ce qui signifie qu'elles ne sont pas organisées. Les données non structurées doivent être partitionnées où analysées pour devenir structurées avant que d'autres travaux puissent être effectués à leur sujet. Un paragraphe de texte est un exemple de données non structurées, car les idées principales doivent être extraites ou les phrases doivent être analysées en segments plus petits pour utiliser le texte comme données. Les images satellitaires sont un autre exemple de données non structurées. Les images doivent être interprétées et codées avec des renseignements comme le type de culture ou le type de bâtiment.

Différence entre les données et les renseignements statistiques: renseignements statistiques

Lorsque nous appliquons des méthodes statistiques aux données, nous produisons des renseignements statistiques, comme des moyennes, des totaux des ratios, des centiles, des distributions de fréquences et les estimations de paramètres. Les données ont un sens et une valeur, mais ceux-ci sont difficiles à déterminer. Les méthodes statistiques sont une façon de résumer les données pour que le sens devienne clair.

Transformer les données en renseignements statistiques

Les méthodes statistiques sont appliquées aux données pour obtenir une signification o trouver des relations. Le produit final représente des renseignements statistiques qui sont interprétés et utilisés pour accroître les connaissances sur le sujet en question.

Types de données

(Une image d'un diagramme d'arbre des types de données où l'origine commence avec le terme "données". Ce dernier s'embranche en 2 types de données qui est "catégoriques" et "quantitatives". Le type catégoriques s'embranche en 2 type de données catégoriques qui sont "nominales" et "ordinales". Le types quantitatives s'embranche en 2 types de données quantitatives qui sont "discètres" et "continues".)

Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques. Ces concepts sont examinés plus en détail dans les prochaines diapositives.

Données catégoriques

Les données catégories représentent des caractéristiques telles que le genre, les langues parlées, les types de maladie ou la taille des vêtements. Par exemple, les langues parlées par une personne peuvent être le français, l'anglais, l'allemand et l'espagnol. Les catégories sont appelées classe ou classifications. Toutes les valeurs possibles pour une caractéristique devraient être regroupées dans une seule catégorie.

Données catégoriques: nominales

Lorsque les catégories n'ont pas d'ordre inhérent, les données sont appelées données nominales. Les valeurs des données dans cette situation sont des étiquettes, des exemples de catégories sont les types de maladies ou les langues parlées. Les données nominales peuvent être analysées et résumées à l'aide de fréquence de proportion, de pourcentage, de tableaux croisés et du mode et elles peuvent être visualisées à l'aide de graphiques circulaires et à barres.

Données catégoriques: ordinales

Les valeurs ordinales représentent des données catégoriques qui peuvent être ordonnées. Les données ordinales sont très semblables aux données nominales. Mais comme le nom l'indique, l'ordre est important. Les catégories suivent un ordre logique, comme les tailles divisées ainsi, petit, moyen et grand. Comme pour les données nominales, les données ordinales peuvent être analysées, résumées et visualisées. Toutefois, les données ordinales peuvent aussi être décrites à l'aide de centiles, de médianes et de modes. Si les données ordinales sont numériques, des écarts interquartiles peuvent également être utilisées.

Par exemple, vous pourriez examiner l'écart interquartile des notes d'examens qui sont exprimés en pourcentage et organisé de la plus faible à la plus élevée. Mais il ne serait pas logique d'essayer de trouver l'écart interquartile des tailles de vêtements qui vont du très petit au très grand. Pour un exemple d'utilisation de l’écart interquartile, visionner la vidéo sur l'exploration des mesures de dispersion.

Données quantitatives

Les données quantitatives, aussi appelées données numériques, peuvent être discrète, ou continue. Lorsque les valeurs des données sont distinctes et séparées et qu'elles ne peuvent prendre que certaines valeurs, on les appellent des données discrètes. Les données discrètes ne peuvent être que comptées et non mesurées. Par exemple, le nombre de moutons sur une ferme.

Par contre, les données continues représentent des mesures et non des comptes. Les données continues peuvent prendre un nombre infini de valeurs, mais pour des raisons pratiques, elles sont mesurées à l'aide d'une échelle discrète. La distance est un exemple de données continues. Il s'agit de données continues, en ce sens qu'on pourrait continuer à ajouter ou à enlever de petites quantités et que la distance changerait. Toutefois, on utilise des centimètres ou des kilomètres pour mesurer la distance sur une échelle discrète.

Exemple: Quel age ont les membres d'une collectivité ?

Prenons un exemple portant sur différents types de données. Disons que nous voulons connaître l'âge des gens dans une collectivité pour pouvoir planifier des services et des activités appropriées pour eux. Dans notre exemple, nous avons les dates de naissance des gens d'une collectivité donnée.

Comme le temps peut être divisé d'un nombre infini de façon, par exemple, à chaque seconde ou chaque milliseconde, il s'agit d'une variable continue. Toutefois, pour des raisons pratiques, un hôpital consigne habituellement l'année le mois, le jour, l'heure et la minute de la naissance. À des fins administratives, nous ne faisons habituellement que déclarer l'année, le mois et le jour de naissance, ce qui signifie que nous utilisons une représentation discrète d'une variable continue.

Pour déterminer l'âge d'une personne à partir de sa date de naissance, nous calculons le temps entre la date actuelle et sa date de naissance. Pour plus de commodité, nous arrondissons son âge à l'année la plus proche, ce qui est également une valeur discrète.

Si notre collectivité était très petite, nous pourrions examiner tous les âges sur une liste et être en mesure de les interpréter. Toutefois, s'il y a beaucoup de gens, il serait très difficile de dresser une liste d'ages et de dire quoi que ce soit de significatif à leur sujet, surtout s'il n'était pas dans un ordre particulier.

Lorsqu'on convertit des données sur l'âge en renseignements statistiques, il est courant de regrouper les âge en catégories. Prenons l'exemple d'étendue de 10 ans. Maintenant, les données sont ordinales parce que les catégories d'âge sont classées selon un ordre particulier.

Exemple: Quel age ont les membres d'une collectivité ?

(Une image d'un tableau où la colonne à gauche et à droite représente les "catégories d'âges" et le "nombre de personnes", respectivement. Les résultats sont comme suit:

  • 0 à 10 ans : 5
  • 11 à 20 ans : 12
  • 21 à 30 ans : 25
  • 31 à 40 ans : 30
  • 41 à 50 ans : 23
  • 51 à 60 ans : 14
  • 61 à 70 ans : 3
  • 71 à 80 ans : 0
  • 81 ans ou plus : 0)

Prenons le même exemple, maintenant que nous avons des catégories d'âge, nous voulons savoir combien de personnes se trouvent dans chaque catégorie. La méthode statistique que nous appliquons aux données ordinales produit une distribution de fréquence qui est illustrée dans le tableau de droite.

Il devient maintenant très clair que là, collectivité est relativement jeune. Ce tableau contient des renseignements statistiques qui peuvent être utilisés par les planificateurs et les organisateurs communautaires pour planifier des services et des activités adaptées à l'âge des membres de la collectivité. Il est beaucoup plus facile d'interpréter les renseignements statistiques dans ce tableau que d'interpréter une longue liste de dates de naissance.

Données quantitatives: Prudence avec le 0

Il y a une valeur très importante avec laquelle il faut être prudent dans les données quantitatives. La valeur de 0.

Parfois 0 signifie qu'il n'y a rien. Par exemple, 0 pommes signifie qu'il n'y a pas de pommes. Parfois, 0 signifie quelque chose. Par exemple, 0 degré Celsius signifie qu'il fait froid à l'extérieur et non pas qu'il n'y a pas de température. Dans certains cas, les valeurs négatives sont valides. Par exemple, si j'ai moins 5$, cela signifie que je dois 5$. Cependant, parfois, les valeurs négatives ne sont pas valides. Par exemple, il ne peut pas y avoir moins 5 moutons dans une ferme. Tenez compte de la signification de 0 lorsque vous travaillez avec des données quantitatives.

Données quantitatives: Statistique de base

Il existe de nombreuses statistiques de base qui peuvent être utilisés avec des données quantitatives. En fait, toutes les statistiques de base présentées sur cette diapositive peuvent être utilisées de façon significative avec des données quantitatives.

(Texte à l'écran: Les statistiques de base comprennent les comptes, les rangs, les moyennes, les totaux et les variances. Elle comprennent aussi: les proportions, fréquences et tableaux croisés; mode, médiane, rangs et centiles; moyennes, totaux et variances.)

Types de données

N'oubliez pas que les données peuvent être catégoriques ou quantitatives. Les données catégories peuvent être nominales étiquette seulement ou ordinales dans un ordre particulier. Les données quantitatives peuvent être discrètes, chose que nous comptons, ou continues, chose que nous mesurons.

La prochaine diapositive donne des exemples de différents types de données. Et vous devrez déterminer le type de données dont il s'agit: nominales, ordinales, discrètes ou continues.

Pratique guidée: Quel est le type de données ?

Faites une pause et prenez le temps nécessaire pour déterminer si chaque exemple comprend des données nominale, ordinale, discrète où continue. Continuer de faire jouer la vidéo pour voir les réponses.

(4 différentes images ou il faut résoudre qu'elle type de données chaque image correspond: 1) Noms des instruments d'un orchestre; 2) Température à l'extérieur en ce moment; 3) Nombre de livres prises pendant les fêtes; 4) Rang dans un ménage selon l'âge.)

Êtes-vous d'accord avec nos suggestions?

Les noms des instruments d'un orchestre sont des données nominales catégorique parce qu'ils peuvent être dans n'importe quel ordre, bien que les joueurs de violon dirais probablement qu'il devrait passer en premier.

La température est une donnée quantitative continue parce qu'elle peut être mesurée par petites augmentations. Nous utilisons les degrés Celsius pour des raisons de commodité.

Le numéro 3 est une question piège. Le poids est mesurée en livre ou en kilogrammes, ce qui est continue. Mais la question posée est le nombre de livres prises, ce qui est un compte. Il s'agit donc de données quantitatives discrètes.

Enfin, le rang d'une personne dans un ménage, selon l'âge, est une donnée ordinaire catégorique parce que le rang, selon l'âge, signifie que les membres du ménage sont classés du plus jeune au plus âgé.

Comment vous en êtes-vous tirer?

Résumé les principaux points

Les données peuvent prendre la forme de chiffres, de textes, d'observations ou d'enregistrement. Les méthodes statistiques sont appliquées aux données pour produire des renseignements statistiques. Les données peuvent être nominales dans des catégories ou ordinales dans des catégories, dans un ordre particulier. Les données numériques ou quantitatives peuvent être continues au quel cas nous devons prendre des mesures ou discrètes au quel cas nous devons faire un compte. Nous avons aussi appris à faire preuve de prudence avec la valeur de 0 qui peut signifier différentes choses selon la nature des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.