Soutien au contrôle de la confidentialité: Dominance et homogénéité avec R
(Le symbole de Statistique Canada, le mot-symbole « Canada » et le titre : « Soutien au contrôle de la confidentialité: Dominance et homogénéité avec R » apparaissent à l'écran.)
Bienvenue à la série de formation sur l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles. Les modèles de codage sont disponibles avec Stata, SAS et R.
Dans cette vidéo, je vais vous montrer comment réaliser des tests de dominance et d'homogénéité dans R. Nous utiliserons un fichier fictif du recensement de 2016, il n'y a donc pas de cas réels dans l'un des exemples de cette vidéo. Les tests de dominance et d'homogénéité peuvent être nécessaires pour les variables de revenu continues en dollars. Ces tests sont conçus pour empêcher la diffusion d'information dans deux situations. La première est la dominance. Ce sont des cas où la majeure partie de la contribution à la statistique provient d'une ou quelques unités.
La seconde est l'homogénéité. Cela fait référence aux situations où les répondants occupent une étendue étroite de valeurs. Les tests N, K et P-% font partie des tests de dominance. Vous devez toujours vous référer aux documents officiels des règles de divulgation pour connaître les exigences détaillées. La vidéo montrera trois exemples d'utilisation de la fonction cd_test dans R pour exécuter des tests pour la variable de revenu en dollar.
Commençons par le premier sujet - comment configurer le code R. La première étape consiste à exécuter le Fichier "recensement_dollar_test.R". Cela importera la fonction cd_test. Avec la fonction importée, nous sommes prêts à effectuer les tests.
L'instruction de base de la fonction de test est cd_test. Les chercheurs devront adapter les paramètres des fonctions à la spécificité des tests. Regardons les paramètres. Les trois principaux sont: data, dollar_value et groupe. Ces données font référence au nom de l'objet de données.
Avant d'exécuter le code, vous devrez importer d'abord votre ensemble de données et l'attribuer à un objet de données. Le nom de l'objet de données que nous verrons dans l'exemple est fake_census. Dollar_value fait référence à la variable continue en dollars. Group est le nom de la variable catégorielle. Il existe d'autres paramètres que les utilisateurs peuvent spécifier. Les trois points permettent aux utilisateurs de réaliser plusieurs tests avec la même variable monétaire. L'instruction By permet aux utilisateurs de mener les mêmes tests sur différents sous-échantillons. Les chercheurs peuvent également spécifier la variable de poids. Enfin, Path permet aux utilisateurs de spécifier où les sorties des tests finaux seront enregistrées. Regardons trois exemples de différentes façons d'appliquer la fonction cd_test. Le premier exemple est un test simple impliquant une variable en dollar et une variable catégorielle. Les deux variables impliquées sont le revenu du ménage (hhinc) et le sexe. Voici le code R pour mener ces tests. Comme vous pouvez le voir, le code spécifie l'ensemble de données, la variable de revenu en dollar, la variable groupe, la variable By est égale à NULL, la variable de poids et le chemin.
Bien entendu, les paramètres d'une fonction peuvent être appariés en position. Exécutons le code dans R. L'objet fake_census est un jeu de données importé dans R. Il comporte 7 428 lignes et 482 colonnes.
A la prochaine étape, nous exécuterons recensement_dollar_test.R en arrière-plan en introduisant la commande source. La fonction cd_test est alors prête à être utilisée. Spécifions les paramètres du cd_test. Les données sont égales à fake_census, la variable de revenu en dollar est hhinc, la variable de groupe est le sexe, By est égal à NULL, la variable de pondération et le chemin.
Les chercheurs peuvent alors suivre le chemin indiqué à l'écran pour trouver les résultats des tests. Les fichiers de résultats sont automatiquement enregistrés avec le nom de la variable de revenu en dollar et la date où les tests ont été effectués. Le fichier peut être écrasé si la même variable de revenu en dollar est utilisée la même journée. Vous devrez peut-être renommer le dossier de résultats. Vous pouvez consulter les fichiers Excel et les utiliser comme document de soutien pour votre demande de divulgation. Dans notre prochain exemple, nous effectuerons quatre différents tests à la fois avec la même variable monétaire.
Les quatre tests sont: revenu du ménage et sexe, revenu du ménage et province, revenu du ménage et état matrimonial, et revenu du ménage et groupe d'âge. La configuration du code cd_test est similaire à celle de tests entre deux variables, sauf que les chercheurs devront spécifier les quatre variables. Ainsi, après la variable de revenu en dollar, vous entrez sexe, pr, marst et agegrp5. Vous pouvez remplir le reste des paramètres de la fonction. Appuyez sur Entrée. Le résultat indique "Succès!" Dans ce cas, les quatre combinaisons de tests sont enregistrés sous différentes feuilles du même fichier Excel. Notre dernier exemple montre comment réaliser les mêmes tests sur différentes sous-populations. Dans cet exemple, si nous voulons effectuer deux combinaisons de tests pour les citoyens et les non- citoyens, nous pouvons utiliser l'instruction By. Pour les deux variables catégoriques sexe et marst (état matrimonial), cela signifie que nous aurons besoin d'un total de quatre tests différents.
Les résultats des tests sont enregistrés dans deux fichiers Excel - l'un pour les citoyens et l'autre pour les non-citoyens. Nous avons ajouté la variable citoyen dans la commande cd_test pour afficher clairement qu'une seule catégorie de la variable est incluse dans les résultats pour un sous-échantillon.
Comme prévu, le fichier Excel contient les combinaisons de tests que nous recherchons. Vous avez vu comment personnaliser la fonction à différents scénarios de test, la dernière partie de la vidéo abordera brièvement la question d'interprétation des fichiers Excel.
Il est important de se rappeler que le code couvre la plupart des règles du recensement, sauf le test pour la taille de la population. Les chercheurs devront examiner les règles de divulgation pour l'interprétation des résultats des tests.
Les fichiers Excel produits par le code R affichent les résultats du test dans deux blocs de colonnes. Le premier est un résumé des résultats du test. C'est ici que vous pouvez voir si la catégorie spécifique de vos variables passe le test ou non. Ok indique que la cellule réussit le test, alors que "FAIL" montre que la cellule échoue le test. Avoir un "FAIL" indique que les résultats ne peuvent pas être publiés.
Bien sûr, il existe d'autres scénarios de données qui mènent à un "Ok" ou à un "FAIL". Lorsque cela se produit, les chercheurs peuvent avoir besoin de fournir des pièces justificatives supplémentaires ou de revoir leur analyse. En plus des résultats sommaires, les fichiers Excel fournissent également une ventilation détaillée de toutes les valeurs des tests. Ces colonnes supplémentaires sont affichées vers les dernières colonnes du fichier Excel. Ces valeurs sont utiles si les chercheurs veulent avoir une compréhension plus nuancée des tests.
J'espère maintenant que vous savez comment réaliser des tests de dominance et d'homogénéité avec R. Merci de votre attention. Si vous avez des questions, veuillez contacter votre analyste local ou envoyez-nous un courriel à l'adresse affichée à l'écran.
(Le mot-symbole « Canada » s'affiche.)