Soutien au contrôle de la confidentialité : Dominance et homogénéité avec la fonction tcensus (Stata)
(Le symbole de Statistique Canada, le mot-symbole « Canada » et le titre : « Soutien au contrôle de la confidentialité : Dominance et homogénéité avec la fonction tcensus (Stata) » apparaissent à l'écran.)
Bienvenue à la série de formation sur l'accès aux données de Statistique Canada. Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles.
Aujourd'hui, nous allons vous montrer un exemple permettant d'utiliser les tests d'homogénéité et de dominance, de même que des tests de NK et P-pourcent pour la variable de revenu continue en dollar du recensement à l'aide du logiciel STATA et de la fonction « tcensus ».
Pour les fins de l'exercice, nous utilisons un échantillon de données du recensement de 2016. Ce fichier est factice et ne contient aucun cas réel. La dominance, c'est lorsque la majeure partie de la contribution à la statistique provient d'une ou de quelques observations (sur la base d'observations non pondérées). Les règles de N, K et P pourcent font partie des règles de dominance. Quant à la règle d'homogénéité, elle vise à éviter la diffusion de statistiques lorsque les répondants occupent une étendue étroite de valeurs. « Tcensus » est une fonction STATA qui permet d'effectuer l'ensemble des tests et produit automatiquement l'ensemble des documents de soutien requis pour une demande de divulgation. Il a été développé pour faciliter les demandes de divulgation autant pour les chercheurs que les analystes.
Pour utiliser « tcensus » il suffit, premièrement, d'importer la fonction dans STATA. Ensuite la commande « tcensus » peut être utilisée comme n'importe quelle autre commande STATA.
La commande « tcensus » est simple à utiliser. La première variable après la commande est la variable d'intérêt mesurée en dollar.
« Household(frame_id) » et « weight(compw2) » identifient respectivement l'identifiant des ménages et la variable de pondération. L'option « groupe » permet d'identifier les variables catégorielles ou ordinales servant à définir les populations d'intérêts.
Finalement, il est nécessaire d'identifier l'emplacement du document de soutien en remplaçant « path » par le dossier approprié sur votre session informatique.
Notez que le chemin ne doit pas être placé entre guillemets.
Voici un exemple de commande « tcensus ». Cet exemple simule une demande où un chercheur est intéressé par le revenu individuel moyen groupé par province et par sexe.
Nous commencerons cet exemple en important notre recensement fictif.
Dans un premier temps nous allons importer la fonction « tcensus ».
Ensuite nous pouvons simplement utiliser la commande.
Les résultats seront enregistrés dans le dossier indiqué.
Les premières colonnes indiquent les variables utilisées pour définir les sous-populations d'intérêt. Les colonnes nommées « test » sont des indicateurs pour les différents tests effectués. La valeur « Fail » sera indiquée si l'un des tests a échoué. Je vous invite à vous référer aux règles de confidentialité du recensement pour de plus amples renseignements sur chacun des tests ou toute autre ligne directrice relative à l'enquête.
Merci de votre attention! Si vous avez des questions. veuillez contacter le personnel de votre CDR ou envoyez un courriel à statcan.maddatadevteam-damequdevdonnees.statcan@canada.ca.
(Le mot-symbole « Canada » s'affiche.)