Soutien au contrôle de la confidentialité : Arrondissement des proportions avec Stata
Bonjour et bienvenue à la série de formation sur l'accès aux données. Cette vidéo de vidéos présente des exemples d’utilisation de différents logiciels statistiques pour effectuer les analyses requises pour les chercheurs travaillant avec des données confidentielles.
Aujourd'hui, nous allons vous montrer un exemple de programme permettant d'arrondir des proportions avec Stata. L'arrondissement des fréquences et des proportions font partie des exigences de certaines enquêtes de Statistique Canada. Le programme produira des proportions arrondies et des documents justificatifs pour faciliter le contrôle de la confidentialité, autant pour les chercheurs que les analystes. De plus, il génèrera un document de soutien séparé contenant les fréquences requises, et signalera si l'une d'elles n'atteint pas le seuil de cellule minimale de l'enquête.
Nous utiliserons un échantillon de données de l'Enquête sociale générale (ESG). Veuillez noter qu'il s'agit d'une version à usage public de l'ESG. Ce fichier do est conçu pour être utilisé avec votre fichier de données une fois la structuration effectuée et qu'il est prêt pour l'analyse. Si vous ne connaissez pas l'emplacement de ce programme, demandez-le à votre analyste. Le seul endroit où des ajustements doivent être faits par l'utilisateur se trouve ici, dans les « globals ».
Tout ce que nous avons à faire est de spécifier le répertoire dans lequel se trouvent nos données, l'ensemble de données structurées à utiliser. Nous devons spécifier notre numérateur et notre dénominateur. Dans cet exemple, notre numérateur est le statut d'emploi et le dénominateur est le sexe. Notre proportion correspond donc au nombre d'hommes et de femmes dans différents types d'emplois. Nous spécifions notre poids d'enquête. Nous spécifions notre base d'arrondissement et nous spécifions notre taille minimale de cellule. J'ai déjà exécuté les « globals » dans STATA, il ne nous reste donc plus qu'à exécuter l'outil, de la ligne 25 à 55. Veuillez noter que cet outil utilise la commande de réduction (« collapse »), ce qui signifie qu'il y aura plusieurs ensembles de données intermédiaires créés qui apparaîtront dans notre répertoire. Ainsi, lorsque j'ouvre le répertoire, je peux voir un ensemble de données pour notre numérateur, notre dénominateur et la façon dont nous les avons fusionnés. Maintenant, la seule chose qui reste à faire est de prendre connaissance des fichiers à publier et des documents de soutien. Regardons d'abord notre fichier Excel pour la publication. Nous pouvons voir que nous avons le sexe, le statut d'emploi et la proportion d'hommes et de femmes dans chacun des statuts d'emploi. Tout semble bon et il suffit de vérifier les pièces justificatives. La documentation justificative montre tout ce dont nous avons besoin : la fréquence de notre dénominateur non pondéré, la fréquence de notre numérateur non pondéré. Nous avons même une variable qui montre la différence entre le numérateur et le dénominateur. Celle-ci garantit que nos résidus sont supérieurs à la taille de cellule minimale. La colonne « L » indique un « échec » s'il y a des fréquences inférieures à 5, notre taille de cellule minimale. Nous voyons les proportions pondérées et non pondérées. Les proportions pondérées et non pondérées arrondies. Et nous nous assurons que tout va bien. Il y a une dernière chose à noter. Si vous souhaitez créer plus de proportions et plus de sorties, tout ce que vous avez à faire est de changer votre numérateur et votre dénominateur et d'exécuter l'outil à nouveau. Il générera des documents supplémentaires avec des noms basés sur le numérateur. Vous pouvez créer autant de proportions que vous le souhaitez.
Merci d'avoir visionné cette vidéo aujourd'hui. J'espère que vous passerez une excellente journée.
(Le mot-symbole « Canada » s'affiche.)