Soutien au contrôle de la confidentialité: Arrondissement des proportions avec Rounder - une application R Shiny
(Le symbole de Statistique Canada, le mot-symbole « Canada » et le titre : « Soutien au contrôle de la confidentialité: Arrondissement des proportions avec Rounder - une application R Shiny » apparaissent à l'écran.)
Bienvenue à la série de formation sur l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles. Le code qui prend en charge l'application de Rounder est disponible. Demandez à votre analyste si vous n'êtes pas sûr de savoir où le trouver. Dans cette vidéo, je vais utiliser un fichier de microdonnées à grande diffusion pour montrer les différentes fonctionnalités de l'outil d'arrondissement L'application sera utile pour ceux qui ont besoin de valeurs arrondies, de valeurs pondérées, de fréquences randomisées et pour vérifier si les fréquences atteignent la taille de cellule minimum. Avant de montrer l'application, nous allons configurer l'outil dans nos dossiers et dans R. L'étape 1 est la localisation et l'extraction du module d'application Rounder, qui peut être placé dans le même répertoire que le dossier zippé, dans ce cas-ci, Documents. Après l'extraction, nous allons aller dans le dossier et ouvrir le fichier R appelé Rounder App. Maintenant, nous devons changer le chemin afin qu'il puisse trouver les fichiers requis. Donc, de retour dans l'explorateur de fichiers, nous devons cliquer à droite sur le dossier extrait, sélectionner et copier le chemin que nous allons coller dans l'objet chemin entre les guillemets en s'assurant de modifier les barres obliques inversées par des barres obliques avant et se débarrasser de la partie Rounder du chemin, parce que celle-ci est déjà incluse dans la fonction « libpaths » en dessous. Enfin, nous devons mettre en surbrillance et exécuter tout le code pour que l'application s'ouvre. Ceci est l'application Rounder, c'est l'extrémité avant du module Vetter pour studio R. Rounder est un outil interactif pointer-cliquer qui permet de préparer les documents de soutien pour les proportions, les fréquences, et les moyennes. Cette application R Shiny peut être utilisée pour générer des fréquences pondérés et effectuer des arrondissements aléatoires. Dans cette vidéo, je vais vous montrer comment il fonctionne. En ce moment, j'ai l'application ouverte dans mon navigateur, mais elle fonctionne complètement hors ligne. La première chose que nous allons faire est d'importer un fichier de données. Les types pris en charge sont Stata, SPSS, SAS et csv. Nous allons utiliser l'ESG qui est le fichier à grande diffusion de l'enquête sociale générale. Nous pouvons charger le tout, mais afin de gagner du temps, nous recommandons fortement de sélectionner les variables dont vous avez besoin. Pour cet exemple, j'utiliserai le lieu de naissance canadien, l'achat de plats à emporter, le revenu familial et l'âge du père du répondant, puis nous allons cliquer ici. Nous voyons un résumé de nos données, ce qui signifie qu'il est chargé avec succès. Toutes les fonctions que nous allons voir sont ici. Pour vérifier les proportions, nous allons mettre deux variables. Nous allons passer en revue certaines de ces colonnes. D'abord, nous verrons nos deux variables et ensuite nous verrons une colonne d'avertissement ici. Cet avertissement apparaîtra si votre numérateur est en dessous du seuil de taille de cellule minimale ou si la différence entre votre numérateur et votre dénominateur est inférieure à ce même seuil. Cela est très utile, car il peut être adapté aux seuils minimaux spécifiques des différentes enquêtes. Ici, nous voyons l'arrondissement aléatoire ainsi que le nombre aléatoire ici, nous voyons le numérateur, le numérateur arrondi, la différence entre les deux, le dénominateur le dénominateur arrondi et la différence entre les deux. Et si je fais défiler… nous avons la proportion et la proportion arrondie qui seront utiles aux chercheurs. Et maintenant, ici, nous avons de nombreux paramètres que nous pouvons modifier. Nous pouvons ajouter la pondération et maintenant nous allons voir une nouvelle colonne qui a été ajoutée qui a nos valeurs non pondérées ainsi que nos valeurs pondérées, y compris les proportions pondérées. Ici, nous pouvons basculer entre l'arrondissement conventionnel et aléatoire ainsi que changer le nombre aléatoire. Ici, nous pouvons adapter notre seuil de taille de cellule minimale spécifique à l'enquête et nous verrons que si nous abaissons la valeur, notre avertissement disparaîtra car maintenant il y a suffisamment de répondants dans notre catégorie, et si on le remet à 5 on verra l'avertissement revenir. Ici, nous pouvons changer notre base d'arrondissement et cela affectera nos sorties arrondies, nous pouvons changer le nombre de chiffres à afficher. Nous pouvons garder nos valeurs manquantes ou nous pouvons les supprimer et nos proportions changeront en conséquence. Les fonctionnalités suivantes sont disponibles pour tous les onglets et sont affiché en mode Exportation. Vous pouvez copier ce qui est montré dans le tableau dans votre presse-papier ou vous pouvez télécharger des sorties complètes qui incluront même les sections qui ne sont pas affichées sur le tableau et cela vous donnera la possibilité d'enregistrer le fichier. Voici à quoi ressemble le fichier une fois que vous l'ouvrez et nous verrons que c'est un tableau bien ficelé avec toutes nos colonnes et l'avertissement que nous avons vu précédemment. Ensuite, nous pouvons vérifier les fréquences ce qui est très similaire à vérifier les proportions. Cela nous donnera essentiellement les fréquences de chaque catégorie ainsi que le nombre arrondi que nous pouvons changer et nous verrons nos données dans le tableau ici. Vérifier les valeurs continues nous permettra de vérifier nos variables continues. Supposons que nous sélectionnons une variable continue il nous donnera notre N total, nos N manquants, nos N valides, donc c'est le total moins les valeurs manquantes et notre N valide arrondi qui est déterminé à partir de la base d'arrondissement ici. Les paramètres sont similaires à ce que nous avions dans les sections précédentes et la dernière caractéristique est l'arrondissement aléatoire, ce qui est idéal pour les tailles d'échantillon de modèle. Nous pouvons entrer des valeurs ici et ensuite, lorsque nous cliquons sur arrondissement aléatoire, nous verrons que nous obtenons nos valeurs arrondies ici, ainsi que la différence entre nos valeurs arrondies et la valeur réelle nous avons le nombre aléatoire généré pour l'arrondissement et si vous voulez reproduire vos résultats, vous pouvez entrer manuellement le nombre aléatoire. Ceci était une brève démonstration de l'application Rounder et nous espérons cela rendra le processus de contrôle de la confidentialité un peu plus facile. Merci de votre attention et passez une excellente journée.
(Le mot-symbole « Canada » s'affiche.)