Soutien au contrôle de la confidentialité : Arrondissement des proportions avec SAS
(Le symbole de Statistique Canada, le mot-symbole « Canada » et le titre : « Soutien au contrôle de la confidentialité : Arrondissement des proportions avec SAS » apparaissent à l'écran.)
Bonjour et bienvenue à la série de formation de l'accès aux données. Cette série de vidéos présente des exemples d'utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles. Dans cette vidéo, je vais vous montrer un programme SAS qui génère des proportions arrondies avec des documents de soutien pour le contrôle de la confidentialité.
Nous utiliserons un fichier fictif du recensement de 2016, il n'y a donc pas de cas réel dans l'un des exemples de cette vidéo. Voici les principales caractéristiques du code. 1) Il vérifie les tailles des cellules non pondérées, ce qui est une exigence de confidentialité courante. 2) Il arrondira au hasard les numérateurs et les dénominateurs avant de calculer les proportions pondérées, ce qui est une exigence de confidentialité pour certains ensembles de données et 3) Il produira les proportions pondérées que les chercheurs peuvent utiliser pour leur analyse. Les fichiers générés par le code incluent un fichier «fails», qui contient toutes les entrées qui ont échoué au contrôle de la taille de la cellule, la sortie de soutien qui montre les fréquences non pondérées qui viennent avec le fichier pour publication, et le fichier «pour publication» qui est celui que les chercheurs voudront demander à sortir du CDR.
Avant d'aborder le code, voici un exemple de table avec nos variables d'intérêt. Le programme suivant est conçu pour faciliter la vie des chercheurs. D'autres exemples de tels programmes sont disponibles en ligne. Cette version est facilement accessible aux chercheurs des CDR. Si vous n'êtes pas sûr de leur emplacement, demandez le à votre analyste. Cette version se présente comme un programme SAS, où vous entrez essentiellement les variables d'intérêt dans la macro, puis l'exécutez. Voici le code en SAS et cette section supérieure est l'endroit où nous devons inscrire nos variables. La première variable datafid, qui signifie data file id, correspond au chemin vers notre fichier SAS. Pour cette démonstration, nous allons utiliser l'ESG, le fichier à grande diffusion de l'enquête sociale générale. La première variable sera le sexe, la seconde sera la province, donc ce sera prv. La troisième variable sera marstat, qui est l'état matrimonial et ce sera le numérateur dans les calculs à venir. Nous allons créer une taille de cellule minimale en fonction des exigences de confidentialité. Cinq est la norme, mais je vais la changer pour 10, à des fins de démonstration. Ensuite, nous avons nos variables de poids et de poids bootstrap. Celles-ci, nous les trouvons dans notre ensemble de données. Les variables suivantes affecteront l'arrondissement. le dénominateur pondéré et les proportions dans les tableaux de sortie. Pour nos chemins de sortie, nous allons placer le chemin où nous voulons que nos fichiers de sortie apparaissent.
Alors maintenant, nous allons exécuter le code, section par section, pour nous assurer que tout fonctionne. La partie supérieure du code définit nos variables et dans la section suivante, en dessous, nous sélectionnons les variables dont nous avons besoin. Donc, cela prendra un instant. Dans la section suivante, nous avons produit nos tableaux de fréquences.
Nous aurons donc deux tableaux basés sur la variable de contrôle, l'un où le sexe est masculin, et l'autre où le sexe est féminin. En allant de gauche à droite dans notre tableau, nous avons notre province, notre état matrimonial, leur fréquence, la fréquence pondérée, les erreurs-types et les intervalles de confiance. Pour ces derniers, la méthode de réplication Bootstrap de l'enquête a été utilisée pour l'estimation de la variance. Ensuite, nous avons des pourcentages de ligne, donc la ligne pour cette catégorie et ses proportions. Nous voyons que nous l'avons pour toutes les variables, nous allons donc revenir à l'original et continuer à exécuter le fichier. La section suivante divise le fichier croisé en numérateurs et dénominateurs, qui est la variable 3 et nous obtenons ces résultats, puis nous reviendrons et exécuterons la section suivante ci-dessous, qui va créer un fichier de soutien avec les fréquences et les pourcentages.
Dans le fichier des « fails », nous pouvons voir que l'une de nos variables avait une taille de cellule inférieure à la taille de cellule minimale, qui était de 10, et nous pouvons obtenir des informations à ce sujet par les colonnes connectées. Ce que nous allons faire, est de recoder nos variables pour que cela ne se produise pas. Par exemple, nous savons que c'est l'Île-du-Prince-Édouard, alors nous devrons recoder nos variables pour n'avoir que les provinces maritimes. Mais pour cette démonstration, je vais simplement revenir en arrière et changer notre taille de cellule minimale à 5.
Une autre chose à noter est que la différence entre le numérateur et le dénominateur doit également être supérieure à la taille minimale de la cellule pour réussir le test.
Ensuite, nous allons exécuter le programme jusqu'ici. Lorsque nous rouvrirons notre fichier de « fails », nous verrons qu'il est vide et nous pouvons continuer. Nous allons exécuter la section suivante, vers le bas du fichier, et celle-ci crée le fichier de soutien. La ligne juste en dessous exportera le fichier, et vous pouvez voir qu'il est créé dans la barre latérale. Nous l'ouvrirons à partir de l'explorateur de fichiers.
À partir du fichier Excel, nous avons nos trois variables, et en allant de gauche à droite, le dénominateur, le dénominateur pondéré, le numérateur, le numérateur pondéré, le pourcentage de la ligne, l'erreur-type, les limites supérieures et inférieures, la différence, qui est le dénominateur moins le numérateur, s'il a échoué ou non à l'exigence de taille de cellule minimale, toutes les valeurs arrondies. Nous aurons la proportion réelle, la proportion arrondie et la proportion arrondie avec le seuil.
La section finale va découper notre fichier de soutien pour créer le fichier pour publication. Nous verrons qu'il est créé dans la barre latérale. Quand nous l'ouvrirons, nous verrons qu'il contient seulement les variables que nous voulons pour la publication. Avec ces fichiers, vous êtes maintenant prêt pour la prochaine étape du processus de contrôle de confidentialité. Bonne chance dans vos recherches et passez une excellente journée!
(Le mot-symbole « Canada » s'affiche.)