Déploiement de votre projet d'apprentissage automatique en tant que service

Par : Andres Solis Montero, Statistique Canada

La première étape du cycle de vie du développement logiciel (CVDL) d'un projet d'apprentissage automatique consiste à définir l'énoncé du problème et les objectifs. Ensuite, il s'agit de recueillir, d'analyser et de traiter les données. Le processus se poursuit avec de multiples itérations, parfois perpétuelles, de modélisation, d'entraînement, d'ajustement d'hyperparamètres, de tests et d'évaluation. Ces étapes sont essentielles à l'élaboration d'un modèle efficace et accaparent la majeure partie du temps et de l'attention consacrés au développement. Mais que se passe-t-il ensuite? Empaquetage et déploiement de logiciel? La plupart du temps, l'objectif final est de livrer un produit aux clients, de mettre le code à la disposition d'autres équipes ou d'utilisateurs aux fins de collaboration, ou simplement de communiquer le travail effectué et les résultats avec le reste du monde.

Le déploiement ne devrait pas être simplement la dernière étape du cycle de développement. L'intégration progressive de bonnes pratiques de génie logiciel et d'outils libres peut améliorer les compétences en développement ainsi que la capacité d'une organisation à fournir des applications et des services plus rapidement. Cette approche permet de créer un produit de A à Z qui peut être facilement partagé et déployé sans répercussions importantes sur le temps de modélisation et de développement.

Un modèle de projet conforme aux pratiques et aux outils mentionnés dans le présent article est accessible au public. Ce modèle peut constituer votre première étape dans l'élaboration de projets d'apprentissage automatique. N'hésitez pas à fourcher le projet et à étendre ses fonctionnalités. Une autre caractéristique intéressante de cette structure de projet est la séparation de la logique applicative pour le déploiement, ce qui lui permet de se conformer aux normes du gouvernement du Canada sur les API pour la prestation de services Web sécurisés par l'entremise du protocole HTTPS sans avoir à transformer votre code. Dans cet article, on a établi que Python est le langage de programmation utilisé. Cependant, les méthodologies et les solutions qui y sont présentées pourraient également être mises en œuvre en utilisant un autre langage de programmation.

Contrôle des versions

La première pratique pertinente à employer au moment du déploiement d'un projet d'apprentissage automatique en tant que service est le contrôle des versions. Le recours au contrôle des versions pour les projets d'analyse a été abordé dans un article précédent qui soulignait également son importance et sa valeur. Le présent article porte sur une structure de projet à utiliser dans votre système de contrôle des versions.

  • LICENSE [Détails de la licence]
  • README.md [Documentation d'utilisation rapide]
  • CONTRIBUTING.md
  • SECURITY.md
  • docs [Documentation]
    • Makefile
    • conf.py
    • index.rst
    • make.bat
    • markdown [Documents du manuel]
      • model.md
      • problem_statement.md
      • relevant.md
  • src [Code source]
    • mlapi
      • Dockerfile [Mise en conteneur]
      • requirements.txt
      • notebook.ipynb [Cahier de prototypage]
      • ml [Modules ML]
        • classifier.py
        • model.joblib
      • main.py [API REST]

Cette structure reflète le code prêt à la production dans la branche principale. D'autres branches reproduiront la même structure de dossiers, mais serviront à différentes étapes de développement, comme l'élaboration de versions différentes, la mise à l'essai, les nouvelles fonctions et l’expérimentation. L'objectif de la branche principale est qu'elle soit toujours prête à l'emploi, ce qui signifie que vous pouvez la déployer à tout moment. De plus, vous pouvez avoir plusieurs branches de la branche principale qui traitent des problèmes de production ou de développement.

Les flux de travail et l'utilisation de Git sont un vaste sujet et hors de la portée du présent article. Consultez la documentation publique pour obtenir plus de détails sur les directives d'utilisation de Git.

Documentation

La deuxième pratique dont il faut tenir compte est la documentation. La documentation du code est une étape importante pour vous assurer que votre projet d'apprentissage automatique est compréhensible et prêt à être déployé. La rédaction de la documentation peut être intimidante si vous essayez de la rassembler à la fin d'un projet. Grâce à quelques pratiques et outils raisonnables, le travail peut être plus facile à gérer.

Un projet bien documenté devrait cibler de multiples utilisateurs, depuis les développeurs et les spécialistes de la maintenance jusqu'aux utilisateurs, aux clients et aux intervenants. Le principal intérêt des développeurs et des spécialistes de la maintenance est de comprendre les détails de mise en œuvre et les interfaces de programmation d'applications (API) exposées. Les utilisateurs, les clients et les intervenants veulent savoir comment utiliser la solution, les sources de données, les pipelines d'extraction, de transformation et de chargement (ETL) et comprendre les expériences et les résultats.

Une bonne documentation de projet est élaborée au fur et à mesure que le projet avance, dès le début, et pas seulement lorsque le projet est terminé. Les outils de source libre tels que Sphinx peuvent générer automatiquement de la documentation à partir des commentaires Docstring. Documenter le code tout au long du cycle de développement de votre projet est un exercice qui devrait être encouragé et que votre équipe devrait suivre. Suivre le format des normes Docstring lors de la rédaction du code peut aider à créer une documentation exhaustive du code. Les chaînes de documentation (docstrings) sont un excellent moyen de générer de la documentation API lorsque vous rédigez du code en présentant vos modèles, paramètres, fonctions et modules. L'exemple de chaîne de documentation suivant montre la fonction mlapi.main.train.

async def train(gradient_boosting: bool = False) -> bool:
    """ 
    FastAPI POST route '/train' endpoint to train our model     

    Args:
         gradient_boosting: bool            
                A boolean flag to switch between a DTreeClassifier or GradientBoostClassifier

    Returns:
           bool:
  A boolean value identifying if training was successful.  
    """
    data = clf.dataset()
    return clf.train(data['X'], data['y'], gradient_boosting)

L'intégration de Sphinx avec des déclencheurs dans le système de contrôle des versions permet d'analyser la structure de notre projet à chaque validation, de rechercher les chaînes de documentation existantes et de générer automatiquement notre documentation. Dans notre exemple de projet, le fichier de configuration .gitlab.yaml intégrera nos validations à la branche principale avec Sphinx pour générer automatiquement la documentation API de notre code, comme indiqué ci-dessous.

async mlapi.main.train(gradient_boosting: bool = False) → bool
FastAPI POST route '/train' endpoint to train our model
Parameters: gradient_boosting – bool
A boolean flag to switch between a DTreeClassifier or GradientBoostClassifier
Returns: A boolean value identifying if training was successful.
Return type: bool

Par ailleurs, les utilisateurs, les clients et les intervenants peuvent profiter de nos descriptions de projet de haut niveau, comme les détails de la modélisation, les objectifs, les sources de données d'entrée, les pipelines ETL, les expériences et les résultats. Nous complétons la documentation du code en créant manuellement des fichiers dans le dossier docs/markdown/. Sphinx prend en charge les formats ReStructuredText (.rst) et Markdown (.md), ce qui simplifie la génération de documents HTML et PDF. Notre projet tire parti des formats de fichier .rst et .md, stockés dans le dossier docs/ et précisés dans le fichier index.rst.

L'envoi du code à notre branche principale déclenchera la génération automatique de documentation en inspectant toutes les chaînes de documentation du code dans le dossier source. Au cours du même processus, les Markdown indiqués dans l'index sont liés dans le site Web de la documentation finale. Il est également important de préciser un fichier README.md de haut niveau contenant un guide d'utilisation rapide avec des liens pertinents et un fichier LICENCE divulguant nos conditions d'utilisation pour les clients et les utilisateurs.

Interfaces API REST

La troisième pratique dont il faut tenir compte pour le déploiement des projets d'apprentissage automatique est l'utilisation des interfaces API REST. Le gouvernement du Canada a mis l'accent sur l'utilisation des API comme moyen de déploiement des interfaces API en tant que service Web client-serveur, suivant un style architectural de transfert d'état représentationnel (REST).

FastAPI est un cadre Web moderne et performant pour la création d'API REST. Cet outil de source libre de plus en plus populaire tire parti des annotations de type Python pour convertir automatiquement les objets Python en représentations JSON et vice versa.

Parlons un peu de la mise en œuvre du modèle dans notre projet avant de convertir son interface API en API Web REST. Sans perdre de vue la généralité, nous avons choisi un modèle de classification simple et supervisé. Le présent article ne porte pas sur l'entraînement des modèles, alors nous le garderons simple à des fins d'explication.

Dans le projet couplé, nous avons sélectionné l'ensemble de données Iris pour entraîner un modèle de classification. L'ensemble de données contient quatre caractéristiques (c.-à-d. longueur et largeur du sépale, et longueur et largeur du pétale). Ces caractéristiques sont utilisées pour classer chaque observation dans trois classes : Setosa, Versicolour et Virginica.

Nous entraînons notre modèle avec deux classificateurs simples, DecisionTreeClassifier et GradientBoosterClassifier, et nous les utilisons pour faire des prévisions. La description et la mise en œuvre de notre modèle IrisClassifier se trouvent sous src/mlapi/ml/classifier.py et contiennent cinq appels de méthode (c.-à-d. entraînement, téléchargement, chargement, enregistrement et prévision).

Voyons maintenant comment nous pouvons partager notre modèle en tant que service Web. Tout d'abord, nous créons une instance d'application FastAPI et un classificateur dans une application FastAPI. Le point d'entrée se trouve dans le fichier src/mlapi/main.py

app = FastAPI(title="MLAPI Template", description="API for ml model", version="1.0")
"""FastAPI app instance"""

clf = IrisClassifier.load()
"""Classifier instance"""

La méthode IrisClassifier.load() renvoie un classificateur déjà entraîné.

Ensuite, nous commençons par préciser nos chemins HTTP publics pour connecter notre service Web à l'interface API du classificateur.

@app.post("/train")
async def train(gradient_boosting: bool = False):
    """ Docstring """
    data = clf.dataset()
    clf.train(data['X'], data['y'], gradient_boosting)
    return True

Le chemin POST HTTP @app.post('/train') accepte un indicateur booléen pour basculer entre nos deux options de classificateurs mentionnées précédemment. Pour chaque demande de chemin à /train, notre service Web entraînera de nouveau le classificateur à l'aide de l'ensemble de données Iris et de l'indicateur gradient_boostring et mettra à jour l'instance du classificateur (c.-à-d. clf).

Ensuite, nous définissons le chemin qui prendra en charge nos demandes de prévisions; il s'agira d'une méthode « post » à /predict.

@app.post("/predict",response_model=IrisPredictionResponse)
async def predict(iris: IrisPredictionInput) :
    """ Docstring """
    return clf.predict(iris.data)

Cette méthode prend une IrisPredictionInput afin de s'assurer que le format des données de la demande est correct et retourne la classe IrisPredictionResponse avec les probabilités pour chaque catégorie. Une IrisPredictionInput contient un membre de données avec une liste de caractéristiques d'observation de taille quatre, comme indiqué dans notre ensemble de données Iris. FastAPI inspecte les annotations de type Python pour convertir la charge utile « post » JSON aux objets Python valides que nous avons déclarés dans le même fichier main.py

class IrisPredictionInput(BaseModel):
    """ Docstring """
    data: List[conlist(float, min_items=4, max_items=4)]

class IrisPredictionResponse(BaseModel):
    """ Docstring """
    prediction: List[int]
    probability: List[Any]

Enfin, lançons notre service Web

src/mlapi$ uvicorn main:app --reload --host 0.0.0.0 --port 8888

Ouvrez https://127.0.0.1:8888/docs dans votre navigateur Web. Comme nous avons suivi les pratiques exemplaires avec diligence, FastAPI a été en mesure de créer automatiquement une bonne application Web Swagger pour documenter et tester notre interface API. Bien que cela démontre à quel point il est facile d'utiliser ces pratiques de développement, il ne s'agit que d'un modeste exemple d'application. Enfin, votre certificat d'organisation et votre clé privée peuvent être transmis à uvicorn pendant le déploiement, fournissant une couche de communication HTTPS sécurisée pour votre interface API. Il n'est pas nécessaire de changer votre code ni de le modifier pour le sécuriser, car uvicorn intégrera le protocole de sécurité de la couche transport (TLS) simplement en lui disant où trouver le certificat. Notre structure de projet permet de séparer la logique applicative entre votre code et le déploiement facile du protocole TLS.

src/mlapi$ uvicorn main:app --host 0.0.0.0 --port 8888 –ssl-keyfile=./key.pem --ssl-certificate=./cert.pem

Si votre organisation dispose d'une solide infrastructure TLS grâce à d'autres systèmes, ceux-ci peuvent être associés au conteneur pour faciliter encore plus le processus. Il existe de nombreuses façons de mettre en œuvre le protocole TLS.

Mise en conteneur

La quatrième pratique à mettre en œuvre pendant le déploiement de votre projet d'apprentissage automatique est la mise en conteneur. La mise en conteneur est une forme de virtualisation du système d'exploitation où les applications s'exécutent dans des espaces utilisateurs isolés. Un conteneur est essentiellement un environnement informatique entièrement intégré qui contient tout ce dont une application a besoin d'exécuter (p. ex. le code et toutes ses dépendances). Le conteneur est extrait du système d'exploitation hôte, ce qui lui permet d'exécuter le même code dans n'importe quelle infrastructure sans avoir besoin que le code soit retravaillé (c.-à-d. tout système d'exploitation, machine virtuelle ou nuage).

L'avantage du codage de nos projets d'apprentissage automatique à l'aide d'un conteneur est de contrôler toutes nos dépendances logicielles et notre environnement. Par conséquent, nous nous assurons qu'il peut être partagé et exécuté comme prévu au départ. Qu'est-ce que cela signifie? Nous créons un fichier de description d'image Docker définissant nos dépendances et le processus en cours d'exécution. Cela n'a pas d'incidence sur notre modèle ni sur les mises en œuvre, mis à part la structure de dossiers proposée; cela reflète toutes les dépendances de notre code.

Il y a trois exigences de base dans notre modèle pour créer la description d'image Docker personnalisée (c.-à-d. Dockerfile) utilisée pour exécuter notre modèle en tant que service. Premièrement, les images Docker permettent l'héritage, ce qui signifie que nous pouvons tirer parti des images qui utilisent la plupart des mêmes bibliothèques et dépendances que notre projet. Par exemple, nous pourrions choisir d'étendre notre Dockerfile à partir d'une image à l'aide de scikit-learn, pytorch, tensorflow, Keras ou Caffe. Deuxièmement, nous ferons le suivi des dépendances des progiciels Python que nous utilisons dans notre projet à l'intérieur du fichier requirements.txt. Enfin, nous précisons le point d'entrée des commandes de notre conteneur pour exécuter notre application principale.

Dockerfile

FROM tiangolo/uvicorn-gunicorn-fastapi:python3.7

WORKDIR /tmp
COPY requirements.txt requirements.txt
RUN pip install -r requirements.txt

COPY . /app
WORKDIR /app
CMD ["uvicorn", "main:app", "--reload", "--host", "0.0.0.0", "--port", "8888"]

Le fichier requirements.txt contient un seul nom de progiciel Python par ligne, précisant une dépendance Python nécessaire à notre projet.

requirements.txt

fastapi
uvicorn
pydantic
starlette
python-multipart
requests
scikit-learn
joblib

Nous pouvons maintenant transformer le fichier de définition en image Docker et exécuter le conteneur pointant vers notre service FastAPI

src/mlapi$ docker build -t mlapi .
src/mlapi$ docker run -d -p 8888:8888 --name ml-mlapi mlapi

Modularisation

La cinquième et dernière pratique soulignée dans le présent article est la modularisation. La modularisation est une technique utilisée pour diviser un système logiciel en plusieurs modules distincts et indépendants capables d'effectuer des tâches de façon indépendante. Ces modules sont considérés comme des concepts de base pour l'application.

Si nous voulons élaborer un code lisible et facile à maintenir, nous devons utiliser une conception modulaire. Il est essentiel de séparer notre code en blocs fonctionnels unitaires réutilisables. La division de notre code en différents blocs fonctionnels unitaires nous permet d'exécuter l'ensemble de la solution en les regroupant. Bien que ces derniers soient tous dans un scénario de cas par cas et dépendent du projet, les projets d'apprentissage automatique ont des blocs très déterminants comme les pipelines ETL de données, l'analyse, l'entraînement, les tests, les résultats et la production de rapports. La séparation de ces logiques dans différents modules de code rend notre code Python lisible et facile à maintenir tout en maintenant les coûts de production bas et en accélérant notre cycle de développement. Un code qui n'est pas modulaire prend plus de temps à passer à la production, et il est sujet à des erreurs et à des configurations défaillantes. Il devient difficile d'examiner les codes plusieurs fois avant le déploiement.

Les carnets Jupyter constituent l'un des outils les plus couramment utilisés pour le prototypage d'applications d'apprentissage automatique. Ils nous permettent d'exécuter des cellules de code et de les documenter au même endroit. Malheureusement, ils ne sont pas adaptés au déploiement d'un projet; nous devons traduire leur code en modules Python. Nous pourrions considérer les cellules des carnets comme des composantes de notre prototype. Une fois testées, une ou plusieurs cellules de code pourraient être intégrées à une fonction ou à un module Python sous un dossier src/mlapi/ml. Ensuite, nous pouvons les importer de nos cahiers et poursuivre le prototypage.

Pendant le prototypage de nos modèles, les carnets Jupyter doivent être sauvegardés dans le dossier src/mlapi/, à côté du point d'entrée main.py de l'API REST. Cela garantit que notre code de prototypage et de production maintient les mêmes importations de chemin de module absolu. De plus, de la même façon que nous présentons notre code, la documentation du projet pourrait suivre le même flux de travail. Les cellules Markdown de Jupyter contenant des renseignements importants sur l'application doivent être déplacées vers des documents.md docs/markdown/<document>, élargissant la documentation de notre projet. N'oubliez pas d'ajouter la référence à notre fichier Sphinx docs/index.rst. Ces pages de documentation peuvent encore être référencées à partir de notre carnet de prototypage en établissant un lien vers leur emplacement de publication final.

Une autre bonne pratique de modularisation consiste à limiter la quantité de valeurs de variables figées dans le code de notre application, à créer des fichiers de configuration qui font référence à ces valeurs, ou à en faire des arguments à une fonction. Utilisez la classe de base FastAPI BaseModel et les structures de données Python telles que les objets Enum, NamedTuple et DataClasses pour préciser les arguments à nos procédures et appels API. Il est également bon de rendre nos paramètres et hyperparamètres de modèle configurables et non figés dans le code, ce qui permet de définir différentes configurations chaque fois que nous entraînons ou exécutons notre modèle.

Dans les projets d'apprentissage automatique, l'entraînement de notre modèle dépend beaucoup de notre problème, des données d'entrée et du format. En raison des multiples itérations d'entraînement que nos modèles suivent, il est bon d'intégrer le code d'entraînement à une interface API qui pourrait être réutilisable. Par exemple, au lieu de simplement créer un code qui traite nos copies locales des fichiers d'entrée, nous pourrions traduire le même principe pour accepter une seule adresse URL pointant vers un fichier compressé contenant tous les ensembles de données, en suivant une structure particulière. Les autres ensembles de données pourraient suivre la même structure et être intégrés à notre entraînement en utilisant le même code. Avant de créer notre structure d'intégration des ensembles de données, il est préférable de chercher des ensembles de données publics pertinents à notre problème et de réutiliser leur format d'entrée dans la mesure du possible. La normalisation de nos ensembles de données est une autre façon positive de créer un code d'apprentissage automatique modulaire.

Pensez toujours à la façon dont nous aimerions utiliser la solution avant de la programmer. Lorsque vous créez des interfaces API ou des modules, pensez du point de vue de l'utilisateur et non du point de vue du développeur. Au fur et à mesure que la science des données progresse, on continue de produire des ressources sur la façon d'améliorer la modularité des codes Python et les compétences en génie.

Conclusion

cinq pratiques de génie logiciel qui nous permettent de déployer des projets d'apprentissage automatique

Description - Figure 1

Diagramme décrivant les cinq pratiques de génie logiciel qui nous permettent de déployer des projets d'apprentissage automatique en exécutant notre modèle en tant que service Web axé sur REST.

Pratique #1: Contrôle des versions; Le recours au contrôle des versions pour les projets d'analyse a été abordé dans un article précédent. Le présent article porte sur une structure de projet à utiliser dans votre système de contrôle des versions.

Pratique #2: Documentation; La documentation du code est une étape important pour vous assurer que votre projet d'apprentissage automatique est compréhensible et prêt à être déployé.

Pratique #3: Le gouvernement du Canada a mis l'accent sur l'utilisation des API comme moyen de déploiement des interfaces API en tant que service Web client-serveur, suivant un style architectural de transfert d'état représentationnel (REST).

Pratique #4: Mise en conteneur; La mise en conteneur est une forme de virtualisation du système d’exploitation où les applications s'exécutent dans des espaces utilisateurs isolés.

Pratique #5: La modularisation est une technique utilisée pour diviser un système logiciel en plusieurs modules distincts et indépendants capables d’effectuer des tâches de façon indépendante.

Dans cet article, nous avons présenté cinq pratiques de génie logiciel qui nous permettent de déployer des projets d'apprentissage automatique en exécutant notre modèle en tant que service Web axé sur REST. Nous abordons la pertinence du contrôle des versions des codes, de la documentation, des interfaces API REST, de la mise en conteneur et de la modularisation des codes comme étapes fondamentales à suivre dans votre CVDL. L'application de bonnes pratiques de développement logiciel et les outils mentionnés dans cet article amélioreront votre projet, votre collaboration en matière de code et le déploiement. Ce ne sont pas les seules bonnes pratiques sur lesquelles nous devrions nous concentrer, mais il s'agit d'un bon point de départ. Pour cet article, nous avons créé un modèle de projet de base suivant les pratiques mentionnées dans le présent article. N'hésitez pas à fourcher et réutiliser le modèle pour vos projets d'apprentissage automatique.

Date de modification :

Utilisation responsable des systèmes décisionnels automatisés du gouvernement fédéral

Par : Benoit Deshaies, Secrétariat du Conseil du Trésor du Canada; Dawn Hall, Secrétariat du Conseil du Trésor du Canada

Les systèmes décisionnels automatisés sont des systèmes informatiques qui automatisent une partie ou la totalité d'un processus décisionnel administratif. Ces technologies ont des fondements dans les statistiques et l'informatique, et peuvent comprendre des techniques comme l'analyse prédictive et l'apprentissage automatique.

La Directive sur la prise de décisions automatisée (« la Directive ») du Conseil du Trésor est un instrument de politique obligatoire qui s'applique à la plupart des institutions fédérales, à l'exception notable de l'Agence du revenu du Canada (ARC). Elle ne s'applique pas aux autres ordres de gouvernements, comme les gouvernements provinciaux ou municipaux. La Directive appuie la Politique sur les services et le numérique du Conseil du Trésor, et énonce les exigences auxquelles doivent satisfaire les institutions fédérales pour assurer l'utilisation responsable et éthique des systèmes décisionnels automatisés, y compris ceux qui utilisent l'intelligence artificielle (IA).

Les scientifiques des données jouent un rôle important dans l'évaluation de la qualité des données et la mise au point de modèles pour appuyer les systèmes décisionnels automatisés. Une compréhension du moment où la Directive s'applique et de la manière de satisfaire à ses exigences peut appuyer l'utilisation éthique et responsable de ces systèmes. En particulier, l'exigence en matière d'explication et l'orientation (Ligne directrice sur les services et le numérique, section 4.5.3 ) du Secrétariat du Conseil du Trésor du Canada (SCT) sur la sélection des modèles sont d'une grande importance pour les scientifiques des données.

Problèmes potentiels liés aux décisions automatisées

L'utilisation de systèmes décisionnels automatisés peut présenter des avantages et des risques pour les institutions fédérales. Les biais et le manque d'explicabilité sont deux domaines où des problèmes peuvent survenir.

Biais

Au cours des dernières années, les scientifiques de données ont pris de plus en plus conscience des biais ou « préjugés » de certains systèmes décisionnels automatisés, qui peuvent entraîner une discrimination. L'analyse fondée sur les données et l'apprentissage automatique peuvent capturer avec précision les résultats désirables et indésirables du passé et les projeter dans l'avenir. Les algorithmes fondés sur des données historiques peuvent, dans certains cas, amplifier les inégalités du passé touchant la race, la classe, le genre et d'autres caractéristiques. De plus, les algorithmes créés en fonction des jeux de données avec une représentation insuffisante ou disproportionnée peuvent avoir une incidence sur l'exactitude des systèmes. Par exemple, de nombreux systèmes de reconnaissance faciale ne fonctionnent pas aussi bien pour les personnes selon la couleur de leur peau ou leur sexeNote de bas de page 1,Note de bas de page 2. Un autre exemple courant est le modèle facilitant le recrutement élaboré par Amazon, qui favorisait de manière disproportionnée les candidats masculins. Le problème sous-jacent était que le modèle avait été créé à l'aide des curriculum vitæ des candidats des technologies précédents à Amazon, qui étaient principalement des hommesNote de bas de page 3,Note de bas de page 4.

Manque d'explicabilité

Un autre problème potentiel avec les systèmes automatisés est celui de l'impossibilité d'expliquer la façon dont le système est arrivé à ses prédictions ou à ses classifications. En particulier, il peut être difficile de produire une explication facile à comprendre lorsque les systèmes deviennent de plus en plus complexes, comme lorsque les réseaux neuronaux sont utilisésNote de bas de page 5. Dans le contexte du gouvernement fédéral, il est essentiel d'être en mesure d'expliquer la façon dont les décisions administratives sont prises. Les personnes qui se voient refuser des services ou des prestations ont droit à une explication raisonnable et compréhensible de la part du gouvernement, ce qui va au-delà de l'indication qu'il s'agit d'une décision prise par un ordinateur. Un exemple éloquent de ce problème est survenu lorsqu'un algorithme a commencé à réduire le nombre de soins médicaux reçus par les patients, ce qui a eu des conséquences sur la santé et le bien-être des personnes. Dans ce cas, les utilisateurs du système n'étaient pas en mesure d'expliquer la raison pour laquelle cette réduction s'est produiteNote de bas de page 6.

Objectifs de la Directive

Les problèmes décrits ci-dessus sont atténués dans le cadre de la prise de décisions conventionnelle (« humaine ») par des lois. La Charte canadienne des droits et libertés définit les droits à l'égalité et interdit la discrimination. Les principes fondamentaux du droit administratif de la transparence, de la responsabilité, de la légalité et de l'équité procédurale définissent la manière dont les décisions doivent être prises et les explications fournies aux personnes touchées. La Directive interprète ces principes et protections dans le contexte des solutions numériques qui prennent ou recommandent des décisions.

La Directive vise également à s'assurer que les systèmes décisionnels automatisés sont déployés d'une manière qui permet de réduire les risques pour les Canadiens et les institutions fédérales, et qui donne lieu à une prise de décisions plus efficace, exacte et conforme, qui peut être interprétée. Elle le fait en exigeant : une évaluation de l'incidence des algorithmes, des mesures d'assurance de la qualité pour les données et l'algorithme, et des révélations proactives sur la façon d'utiliser les algorithmes et le contexte dans lequel ils sont utilisés, pour appuyer la transparence.

Portée de la Directive

La Directive s'applique aux systèmes décisionnels automatisés utilisés pour les décisions qui ont une incidence sur les droits juridiques, privilèges ou intérêts des personnes ou des entreprises à l'extérieur du gouvernement, par exemple, l'admissibilité aux prestations ou la sélection de personnes qui feront l'objet d'une vérification. La Directive est entrée en vigueur le 1er avril 2019 et s'applique aux systèmes achetés ou développés après le 1er avril 2020. Les systèmes existants ne sont pas tenus de se conformer, sauf si une décision automatisée est ajoutée après cette date.

La prise de conscience de la portée et de l'applicabilité de la Directive peut permettre aux scientifiques des données et à leurs superviseurs d'appuyer leur organisation dans la mise en œuvre des exigences de la Directive afin de permettre une utilisation éthique et responsable des systèmes.

Par exemple, il est important de prendre note que la Directive s'applique à l'utilisation de toute technologie, et non seulement à l'intelligence artificielle ou à l'apprentissage automatique. Cela comprend les systèmes numériques qui prennent ou recommandent des décisions, peu importe la technologie utilisée. Les systèmes automatisant les calculs ou mettant en œuvre les critères qui ne nécessitent pas ou ne remplacent pas le jugement pourraient être exclus, si ce qu'ils automatisent est entièrement défini dans les lois ou règlements, comme la limitation de l'admissibilité d'un programme aux personnes de 18 ans et plus. Toutefois, des systèmes apparemment simples pourraient être dans les limites de la portée s'ils sont conçus pour remplacer ou automatiser le jugement. Par exemple, un système qui appuie la détection de fraudes possibles en sélectionnant des cibles pour les inspections à l'aide d'indicateurs simples, comme une personne qui effectue des dépôts dans trois institutions financières différentes ou plus au cours d'une semaine donnée (un jugement de « comportement suspect »), pourrait être dans les limites de la portée.

La Directive s'applique aux systèmes qui formulent ou qui aident à formuler des recommandations ou des décisions. Demander à une personne de prendre la décision définitive n'élimine pas la nécessité de se conformer à la Directive. Par exemple, les systèmes qui fournissent des renseignements aux agents qui prennent les décisions définitives pourraient être dans les limites de la portée. Il existe plusieurs façons dont les algorithmes peuvent formuler ou aider à formuler des recommandations ou des décisions. La liste ci-dessous illustre certaines de ces façons, ce qui montre la façon dont l'automatisation des aspects du processus d'établissement des faits ou d'analyse peut influencer les décisions subséquentes.

Certaines façons dont les algorithmes peuvent appuyer et influencer les processus décisionnels sont :

  • présenter des renseignements pertinents au décideur;
  • avertir le décideur des conditions inhabituelles;
  • présenter des renseignements provenant d'autres sources (« correspondance des données »);
  • fournir des évaluations, par exemple, en générant des cotes, des prédictions ou des classifications;
  • recommander une ou plusieurs options au décideur;
  • prendre des décisions partielles ou intermédiaires dans le cadre d'un processus décisionnel;
  • prendre la décision définitive.

Exigences de la Directive

Les exigences suivantes de la Directive sont fondamentales pour permettre l'utilisation éthique et responsable des systèmes décisionnels automatisés. Chaque section comprend une brève description de l'exigence et des exemples pertinents qui peuvent permettre leur mise en œuvre.

Évaluation de l'incidence algorithmique

Il est important de comprendre et de mesurer l'incidence de l'utilisation de systèmes décisionnels automatisés. L'outil d'évaluation de l'incidence algorithmique (EIA) est conçu pour aider les institutions fédérales à mieux comprendre et gérer les risques liés aux systèmes décisionnels automatisés. La Directive exige que l'on réalise une EIA avant la production et lorsqu'on apporte un changement à la fonctionnalité du système.

L'EIA fournit le niveau d'incidence d'un système fondé sur les réponses fournies par les institutions fédérales à un certain nombre de questions relatives aux risques et à l'atténuation, dont bon nombre sont d'une grande importance pour les scientifiques des données et leurs superviseurs. Cela comprend les questions sur les risques liés à l'algorithme, à la décision, à la source et au type de données ainsi que des efforts d'atténuation, comme la consultation et la détermination des processus et des procédures en place pour évaluer la qualité des données.

Le résultat de l'EIA attribue un niveau d'incidence allant du niveau I (faible incidence) au niveau IV (incidence très élevée). Par exemple, un système simple qui détermine l'admissibilité d'une remise de 2 $ pour l'achat d'une ampoule à faible consommation d'énergie pourrait être de niveau I, alors qu'un réseau neuronal complexe comprenant plusieurs sources de données qui décident d'accorder la libération conditionnelle à un prisonnier serait de niveau IV. L'évaluation de l'incidence comporte plusieurs volets et a été établie par l'entreprise de consultations avec les milieux universitaires, la société civile et d'autres institutions publiques.

Le niveau d'incidence déterminé par l'EIA appuie l'objectif de la Directive d'établir la correspondance des exigences appropriées au type d'application en cours de conception. Bien que certaines exigences de la Directive s'appliquent à tous les systèmes, d'autres varient en fonction du niveau d'incidence. Cela garantit que les exigences sont proportionnelles à l'incidence potentielle du système. Par exemple, les décisions dont le niveau d'incidence est de I peuvent être entièrement automatisées, alors qu'au niveau IV, la décision définitive doit être prise par une personne. Cela appuie les exigences de la Directive « Assurer une intervention humaine » pour une prise de décisions plus efficace.

Démontre le déroulement d'un projet de l'IA, à commencer par l'évaluation de l'incidence algorithmique, pour mesurer le niveau d'incidence et déterminer les exigences énoncées à l'annexe C de la Directive.

Description - Figure 1Niveau d'incidence calculé par l'EIA détermine les exigences échelonnées de la Directive.

Enfin, la Directive exige la publication des résultats définitifs de l'EIA sur le Portail du gouvernement ouvert – une importante mesure de transparence. Il sert de registre des systèmes décisionnels automatisés utilisés par le gouvernement, informe le public des moments où les algorithmes sont utilisés et fournit des renseignements de base sur leur conception et les mesures d'atténuation qui ont été prises pour réduire les résultats négatifs.

Transparence

La Directive comporte un certain nombre d'exigences visant à assurer la transparence de l'utilisation des systèmes décisionnels automatisés par les institutions fédérales. Comme mentionné ci-dessus, la publication de l'EIA sur le Portail du gouvernement ouvert sert de mesure de transparence. Étant donné que les clients consultent rarement ce Portail avant d'accéder aux services, la Directive exige également qu'un avis d'automatisation soit fourni aux clients par tous les modes de prestation de services utilisés (Internet, en personne, courrier ou téléphone).

Une autre exigence qui appuie la transparence, et qui est particulièrement pertinente pour les scientifiques des données, est l'obligation de fournir « une explication significative aux personnes concernées sur la façon dont la décision a été prise et la raison pour laquelle elle a été prise ». Il a été mentionné ci-dessus que certains algorithmes complexes sont plus difficiles à expliquer, ce qui rend cette exigence plus difficile à satisfaire. Dans son orientation, le SCT privilégie les « modèles facilement interprétables » et « le modèle le plus simple qui fournira le rendement, l'exactitude, l'interprétabilité et l'absence de partialité nécessaires » en faisant la distinction entre l'interprétabilité et l'explicabilité (Ligne directrice sur les services et le numérique, section 4.5.3). Elle s'harmonise avec les travaux d'autres intervenants qui portent sur l'importance de modèles interprétables, comme RudinNote de bas de page 7 et MolnarNote de bas de page 8.

De même, lorsque le code source appartient au gouvernement du Canada, il doit être publié en tant que source libre, dans la mesure du possible. En ce qui concerne les systèmes propriétaires, la Directive exige que toutes les versions du logiciel soient protégées, que le gouvernement du Canada détienne le droit d'accéder au logiciel et d'effectuer des essais sur celui-ci, et d'autoriser des tiers à examiner et à vérifier les composants, au besoin.

Au-delà de la publication du code source, des mesures de transparence supplémentaires favorisent la communication de l'utilisation de systèmes décisionnels automatisés à un large public. Plus précisément, aux niveaux d'incidence III et IV, la Directive exige la publication d'une description en langage clair de la façon dont le système fonctionne, notamment la façon dont il appuie la décision et les résultats de tout examen ou vérification. Ce dernier peut comprendre les résultats de l'Analyse comparative entre les sexes plus, de l'évaluation des facteurs relatifs à la vie privée et des examens par les pairs, entre autres.

Assurance de la qualité

L'assurance de la qualité joue un rôle essentiel dans le développement et l'ingénierie de tout système. La Directive prévoit une exigence pour les essais avant la production, qui est une mesure d'assurance qualité standard. Toutefois, compte tenu de la nature unique des systèmes décisionnels automatisés, la Directive exige également l'élaboration de processus permettant de tester les données pour déceler les biais imprévus qui peuvent avoir une incidence inéquitable sur les résultats et de s'assurer que les données sont pertinentes, exactes et à jour.

Les efforts d'assurance de la qualité doivent se poursuivre après le déploiement du système. L'exploitation du système doit comprendre des processus pour surveiller les résultats selon un calendrier, afin de se protéger contre les résultats imprévus. La fréquence de ces vérifications peut dépendre d'un certain nombre de facteurs, comme l'incidence des décisions et la quantité de décisions, et la conception du système. Les systèmes d'apprentissage qui sont fréquemment recyclés peuvent nécessiter une surveillance plus intense.

Il existe également la participation directe des humains à l'assurance de la qualité, comme la nécessité de consulter les services juridiques, d'assurer une intervention humaine pour les décisions ayant des niveaux d'incidence supérieurs (une mesure souvent appelée « maillon humain ») et d'assurer une formation suffisante pour tous les employés qui développent, exploitent et utilisent le système.

Enfin, la Directive exige un examen par les pairs de la part d'un tiers qualifié. L'objectif de cet examen est de valider l'évaluation de l'incidence algorithmique, la qualité du système, la pertinence des mesures d'assurance de la qualité et d'atténuation des risques, et de déterminer le risque résiduel de l'exploitation du système. Le rapport sur l'examen par les pairs doit être examiné par les fonctionnaires avant de prendre la décision d'exploiter le système. Une collaboration entre le SCT, l'École de la fonction publique du Canada et l'Université d'Ottawa a donné lieu à un guide proposant des pratiques exemplaires dans le cadre de cette activitéNote de bas de page 9.

Conclusion

L'automatisation de la prestation des services par le gouvernement peut avoir une incidence profonde et grave, tant positive que négative. L'adoption de technologies axées sur les données offre une occasion unique d'examiner et de corriger les préjugés et les inégalités du passé afin de promouvoir une société plus inclusive et équitable. Les scientifiques de données ont également constaté que les systèmes décisionnels automatisés peuvent présenter certains problèmes relatifs aux biais et au manque d'explicabilité. La Directive du Conseil du Trésor sur la prise de décisions automatisée fournit un ensemble complet d'exigences qui peuvent servir de cadre de base pour l'automatisation responsable des services et la préservation de la protection de base du droit dans le monde numérique. En droit administratif, le degré d'équité procédurale dans un processus décisionnel donné augmente ou diminue en fonction de l'importance de la décision. De même, les exigences de la Directive s'échelonnent selon le niveau d'incidence calculé par l'évaluation de l'incidence algorithmique.

Les scientifiques des données de la fonction publique fédérale peuvent jouer un rôle de premier plan dans la transformation du gouvernement. En appuyant la Directive en veillant à ce que les décisions soient efficaces, exactes, cohérentes et interprétables, les scientifiques des données ont la possibilité de trouver des moyens d'améliorer et d'optimiser la prestation des services et des programmes. Les Canadiens ont également besoin de scientifiques des données pour diriger les efforts visant à repérer les biais imprévus dans les données et pour appuyer l'adoption responsable de l'automatisation par l'élaboration de modèles interprétables en assurant la transparence, l'équité et l'explicabilité nécessaires.

Note : Restez à l'affût puisqu'il y aura un article prochainement sur le Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable de Statistique Canada. Le Réseau de la sciences des données est d'ailleurs intéressé à recevoir des propositions d'articles supplémentaires sur ce sujet. N'hésitez pas à nous en envoyer!

Membres de l'équipe

Benoit Deshaies, Dawn Hall

Date de modification :

Une image vaut mille mots : laissez votre tableau de bord parler en votre nom!

Par : Chatana Mandava, Statistique Canada

Un tableau de bord est une représentation visuelle des renseignements les plus importants nécessaires à la réalisation d'un ou de plusieurs objectifs. On regroupe et organise ces renseignements sur un seul écran afin de pouvoir en prendre connaissance en un seul coup d'œil. Les tableaux de bord jouent un rôle essentiel dans le domaine de la science des données, car ils sont l'un des moyens les plus efficaces de résumer des résultats et de les communiquer aux utilisateurs. Les analystes de Statistique Canada passent souvent leur temps à chercher des renseignements parmi les données fournies ou à tirer manuellement des conclusions à partir de ces données. La présentation de tableaux de bord conviviaux et interactifs réduit la charge de travail des analystes, car ils sont en mesure d'extraire des renseignements pertinents simplement à l'aide de filtres. Les tableaux de bord sont un puissant moyen de présenter les renseignements qui peuvent servir à observer les tendances et à faire le suivi du rendement des modèles, pour faciliter la prise de décisions au sein d'une organisation. Lorsqu'ils sont bien présentés, les tableaux de bord augmentent la productivité des utilisateurs en réduisant l'ampleur des renseignements à analyser. En revanche, s'ils sont mal présentés, ils peuvent transformer la recherche de renseignements pertinents en une entreprise colossale.

De nombreux outils, notamment Tableau, Power BI, Dash Plotly (en anglais seulement) et Kibana, peuvent servir à créer un tableau de bord efficace et interactif. Le choix de l'outil dépend de nombreux facteurs comme le type de données (p. ex. des données de type texte, des données numériques), la taille des données, les paramètres ainsi que les besoins des utilisateurs. Le présent article permet d'examiner les exemples de deux énoncés de problèmes différents et de deux tableaux de bord créés sur la base de leurs exigences.

Tableaux de bord créés à l'aide d'Elasticsearch et de Kibana

Dans le cadre d'un projet récent, des scientifiques des données de Statistique Canada avaient pour mandat de créer un tableau de bord permettant de visualiser les articles de presse portant sur la COVID-19 et de les filtrer en fonction des critères suivants : le nom de l'entreprise, le nom de la source, le nom de la source d'extraction et la date, et en fonction de quelques mots clés importants comme « COVID » et « équipement de protection individuelle ». Les données extraites pour résoudre ce problème étaient de type texte. Des millions d'articles de presse ont été extraits par moissonnage du Web et divers autres moyens. Plusieurs modèles d'apprentissage automatique et d'apprentissage profond, comme les machines à vecteurs de support (SVM) et les représentations d'encodeur bidirectionnel à partir de transformateurs (BERT), ont été appliqués pour classer les articles de presse. La façon optimale d'afficher les résultats regroupés consistait à produire un tableau de bord interactif. Dans le cadre de ce projet, un tableau de bord Kibana a été créé afin d'afficher tous les articles de presse et des représentations visuelles des résultats.

Elasticsearch est un moteur de recherche fondé sur la bibliothèque Lucene (en anglais seulement). Il permet le stockage d'énormes volumes de données et permet aux utilisateurs d'effectuer rapidement des recherches parmi les données et d'obtenir des résultats en quelques millisecondes. Au lieu d'effectuer une recherche directement dans le texte, Elasticsearch parcourt un index et génère des résultats en peu de temps. Kibana est un outil de visualisation et de gestion conçu pour Elasticsearch. Compte tenu de l'objectif du projet, Kibana a été choisi comme étant l'outil le plus approprié. Cet outil comporte de nombreuses fonctionnalités intéressantes pour les utilisateurs, notamment celle de créer des histogrammes, des graphiques circulaires, des graphiques à barres, des cartes géographiques et ainsi de suite. De plus, l'interactivité est gérée automatiquement dans l'outil. Il existe de nombreux autres outils de visualisation (p. ex. Vega ou Timelion) qui peuvent aider à créer des visualisations de données agrégées. Une autre fonctionnalité intéressante de Kibana est la possibilité de personnaliser les visualisations. Grâce à la nouvelle composante Vega, les utilisateurs peuvent créer une variété de visualisations des données accessibles à partir de la bibliothèque Vega. Ces données peuvent être intégrées dans Elasticsearch à l'aide d'une bibliothèque Python. L'objectif principal derrière l'utilisation de la bibliothèque Python d'Elasticsearch est d'accéder aux articles de presse et de les stocker dans Elasticsearch à des fins de recherche et d'analyse. Les données sont extraites puis intégrées dans Elasticsearch grâce à la création d'un schéma rigoureux ou d'une mise en correspondance, ce qui permet d'assurer leur indexation selon le format et le modèle appropriés. L'interrogation peut être effectuée une fois l'enregistrement indexé.

Un tableau de bord Kibana qui fournit de multiples interfaces pour l'interrogation des données. Cet exemple illustre l'utilisation d'un nuage de mots, d'un graphique chronologique qui montre le nombre d'articles extraits au cours d'une période donnée et d

Description - Figure 1Exemple de tableau de bord Kibana et ses nombreux filtres permettant aux analystes de trouver rapidement les éléments d'intérêt.

Les options intégrées dans le tableau de bord de Kibana ont été utilisées pour créer un tableau de bord interactif à partir d'articles de presse. Sur une période d'environ 10 jours, un graphique chronologique a été créé pour analyser le nombre total d'articles extraits au cours de cette période. Il s'agit d'un graphique chronologique interactif dans lequel les utilisateurs peuvent cliquer sur n'importe quelle année afin que les articles soient filtrés automatiquement en fonction du choix. L'option « tableau » a été utilisée pour la visualisation du titre et du corps de l'article, du fragment, de la source d'extraction, du nom de l'entreprise, et du nom de la source et du média qui a publié ces articles de presse. Toutes les fonctions de filtre requises ainsi que certaines visualisations de données agrégées ont été incluses dans le tableau de bord. Quelques autres fonctionnalités, comme les nuages de mots, ont également été ajoutées, ce qui a aidé les analystes à comprendre les mots importants dans les articles de presse et à filtrer les articles pertinents en fonction de ces mots. En fait, ces mots changent lorsqu'on applique des filtres, et de nouveaux ensembles de mots apparaissent selon les articles présélectionnés. Une de ces fonctionnalités permet aux utilisateurs d'enregistrer les résultats dans un fichier CSV, au cas où l'analyste aurait besoin d'intégrer d'autres outils pour réaliser une analyse plus poussée. Les utilisateurs peuvent également partager le tableau de bord avec d'autres personnes en leur envoyant une adresse URL.

La fonctionnalité « modèles d'indexation » de Kibana permet de modifier les modèles d'indexation et de mettre à jour le champ correspondant. Un modèle d'indexation sert à définir les propriétés d'un champ. Par exemple, lorsque les données sont intégrées dans la base de données, peu de champs deviennent consultables, et quelques champs peuvent être regroupés. Le modèle d'indexation permet aux utilisateurs d'activer ces fonctionnalités pour tous les champs. Dans le cas mentionné ci-dessus, il y a un champ comprenant l'adresse URL des articles. Au moment de l'intégration, le format de ce champ URL est passé à un format texte. Le format a été modifié en une adresse URL cliquable grâce à un modèle d'indexation.

Dash Plotly

Dans un autre exemple d'utilisation de tableaux de bord, un deuxième projet de Statistique Canada a consisté à trouver des événements à partir d'articles de presse. En travaillant avec des utilisateurs sur une période de 35 jours, les résultats finaux ont été affichés dans un tableau de bord produit à l'aide de Dash Plotly. Dash est un outil à accès libre conçu par Plotly pour créer des applications Web d'apprentissage automatique et de science des données. Comme la mise en page de Dash est en langage HTML, les utilisateurs peuvent intégrer divers gadgets logiciels, en choisissant leur disposition et leur style.

Exemple de tableau de bord créé à l'aide de Dash Plotly et personnalisé à partir d'un thème montrant l'image de marque du Gouvernement du Canada. Ce tableau de bord comporte une série de filtres par dates et par sujets ainsi qu'un diagramme qui affiche le

Description - Figure 2Exemple de tableau de bord créé à l'aide de Dash Plotly, qui présente les événements trouvés dans des articles de presse.

Ce tableau de bord comprend également un tableau qui affiche les articles de presse, un résumé d'autres articles, des boutons interactifs pour passer d'un article à l'autre, un graphique chronologique et un menu déroulant permettant de filtrer les articles en fonction du nom de l'entreprise, de la date et de la division. Dash ne compte pas le même nombre de fonctions intégrées que Kibana; il est conçu pour offrir un degré de fonctionnalité plus limité pour la création d'applications Web personnalisées. Avec Dash Plotly, les utilisateurs peuvent mettre en évidence l'emplacement, l'organisation, la date et l'heure dans les articles de presse. Tout le script du tableau de bord est écrit en langage Python, ce qui signifie que l'on doit y accorder une attention particulière si l'on souhaite diffuser ce tableau à l'extérieur de l'organisation.

Choix de l'approche en fonction des besoins de l'utilisateur final

Bien que cet article ait traité de la création de tableaux de bord à l'aide de Kibana et de Dash Plotly, il existe de nombreux autres tableaux de bord interactifs qui peuvent être construits à l'aide de divers outils. Les deux projets abordés permettent d'exploiter des systèmes infonuagiques, mais il existe aussi des outils sur ordinateurs que l'on peut connecter à des systèmes moins exigeants. Kibana et Plotly offrent tous les deux des systèmes flexibles, mais ils s'intègrent aux flux de travail de différentes façons. Elasticsearch est fortement axé sur l'indexation et la recherche de texte à haute performance, ce qui en fait un bon choix pour traiter de grandes quantités de données textuelles. Dash Plotly intègre toute la puissance et la commodité de la bibliothèque Pandas pour la manipulation des données. L'outil que vous choisissez d'utiliser dépend fortement du contexte et des exigences de votre projet ainsi que des besoins des utilisateurs finaux.

Date de modification :

De l’exploration à l’élaboration de modèles d’apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité

Par : Yadvinder Bhuller, Santé Canada; Keith O’Rourke, Santé Canada

Malgré un nombre croissant d'exemples où des modèles de prévision simples et complexes ont été utilisés pour la prise de décisions, la précision des prévisions demeure pertinente pour les deux types de modèles. En outre, plus un modèle est complexe, moins il est susceptible d'être utilisé par des utilisateurs débutants qui ne maîtrisent pas tout à fait l'apprentissage automatique. Quand on tente de maximiser l'exactitude prédictive d'un modèle, sans tenir compte de la difficulté, pour une personne, d'anticiper les prévisions à partir de données d'entrée, cela peut donner lieu à des modèles de prévision complexes. Cependant, même avec une méthode aussi simple que la régression linéaire, la complexité augmente à mesure que d'autres variables et leurs interactions sont ajoutées. À l'autre extrême, lorsque de nombreuses fonctions non linéaires, comme celles des réseaux neuronaux, sont utilisées pour faire des prévisions, les résultats pourraient être trop complexes pour être compris. Ces modèles sont habituellement appelés modèles de prévision de type « boîte noire ». Les modèles précis et interprétables peuvent être de diverses natures. Il peut s'agir de listes de règles et d'arbres de décision précis qui sont tellement concis, qu'ils peuvent être entièrement décrits en une phrase ou deux pour les données tabulaires. Il peut aussi s'agir de modèles additifs généralisés modernes (p. ex. pour le traitement des dossiers médicaux relativement complexes) ou de méthodes pour dénouer les réseaux neuronaux convenant au traitement des données non structurées comme les pixels. Un ajout notable récent est l'utilisation de l'apprentissage bayésien non supervisé à contrainte peu complexe appliqué aux couches profondes d'une structure latente, qui est ensuite utilisé pour établir une liste concise de règles avec une grande précision (Gu et Dunson, 2021).

Un premier exemple, qui date de plus de 20 ans, d'une méthode simple qui fournit des prévisions aussi précises que des modèles plus complexes est l'étude d'Ennis et coll., réalisée en 1998, de diverses méthodes d'apprentissage automatique qui reposent sur la base de données GUSTO-I où aucune de ces méthodes n'a pu surpasser un modèle de régression logistique relativement simple. Des comptes rendus plus récents de méthodes complexes, même si des méthodes simples auraient pu suffire, sont présentés dans l'article de 2019 de Rudin et Radin. Une solution simple souvent suggérée pour réduire cette complexité ingérable consiste à trouver des façons d'expliquer le fonctionnement de ces modèles de type « boîte noire ». Cependant, ces explications ne tiennent pas toujours compte de renseignements fondamentaux. Par conséquent, plutôt que d'être directement liées à ce qui se passe dans un modèle de type « boîte noire », elles deviennent des « histoires » visant à obtenir des prévisions concordantes. Comme la concordance n'est pas parfaite, elles peuvent entraîner des résultats très trompeurs dans de nombreuses situations.

Il faudrait peut-être une plus grande sensibilisation au nombre croissant de techniques permettant d'élaborer des modèles simples et interprétables à partir de rien, et qui atteignent une grande précision. Les techniques ne sont pas de simples améliorations de la régression linéaire ou logistique (arrondissement des coefficients à des nombres entiers, ce qui conduit à une perte de précision), mais exigent une sélection de contraintes appropriées au domaine et de nouvelles méthodes d'optimisation sous contraintes. Il en résulte un éventail de possibilités d'interprétation simple dans le cadre de diverses applications.

Comprendre où et quand être simple!

Même si nous devons accepter ce que nous ne comprenons pas, il ne faut jamais oublier les avantages que nous pouvons tirer de ce que nous comprenons. Par exemple, nous ne comprendrons peut-être jamais pleinement le monde physique. Ni la façon dont les gens pensent, interagissent, créent et décident. En matière d'apprentissage automatique, dans un entretien diffusé sur YouTube en 2018 (en anglais seulement), Geoffrey Hinton a attiré l'attention sur le fait que les gens sont incapables d'expliquer exactement de quelle manière ils décident en général si quelque chose correspond au chiffre 2 ou non. Ce fait a été souligné à l'origine, il y a quelque temps déjà, par Herbert Simon, et n'a pas été sérieusement contesté depuis (Erickson et Simon, 1980). Cependant, les modèles de prévision ne sont que des abstractions et nous pouvons comprendre les abstractions créées pour représenter cette réalité, qui est complexe et à laquelle nous ne pouvons souvent pas accéder directement. Par conséquent, l'incapacité à comprendre les gens n'est pas une raison valable pour résister à l'envie de comprendre les modèles de prévision.

Essentiellement, les abstractions sont des diagrammes ou des symboles qui peuvent être manipulés, sans erreur, pour discerner leurs enjeux. Généralement appelées modèles ou hypothèses, elles sont déductives et peuvent être comprises en elles-mêmes en raison de ce qu'elles supposent. Du moins, jusqu'à ce qu'elles deviennent trop complexes. Par exemple, les triangles sur un plan sont compris par la plupart des gens, tandis que les triangles sur une sphère le sont moins. La réalité peut toujours être trop complexe, mais les modèles qui la représentent adéquatement dans un certain but ne doivent pas nécessairement l'être. Les triangles sur un plan permettent la navigation à courte distance, alors que sur une sphère, ils la permettent à longue distance. En clair, c'est le modèle abstrait qui est compris et pas nécessairement la réalité qu'il tente de représenter.

Cependant, pour une raison ou une autre, une idée fausse et persistante, selon laquelle les modèles permettant des prévisions précises doivent généralement être complexes, s'est développée dans le domaine de l'apprentissage automatique. Des exemples montrent que dans certains domaines d'application, les modèles simples n'atteignent pas encore une précision comparable à celle des modèles de type « boîte noire ». D'autre part, des modèles simples permettent toujours de faire des prévisions aussi précises que celles de n'importe quel modèle de type « boîte noire » à la fine pointe de la technologie et, par conséquent, la question qui se pose, comme l'indique l'article de 2019 de Rudin et Radin, est la suivante : « Pourquoi utilisons-nous des modèles de type « boîte noire » en intelligence artificielle alors que ce n'est pas nécessaire? ».

Ne pas utiliser des modèles simples dans des domaines d'application où leur précision est suffisante a inutilement mené à des recommandations qui peuvent avoir des incidences sur des domaines comme la société, la santé, la liberté et la sécurité. Le problème du choix hypothétique souvent évoqué entre la fiabilité d'un robot chirurgien qui repose sur l'apprentissage automatique et un chirurgien humain moins fiable ne se pose plus lorsqu'on construit un robot chirurgien interprétable aussi fiable que tout autre robot. Encore une fois, c'est le modèle de prévision qui est compréhensible, pas nécessairement la tâche de prévision elle-même.

Des modèles simples et interprétables?

Le nombre de domaines d'application dans lesquels des modèles de prévision simples et précis peuvent être conçus pour être compris a augmenté au fil du temps. On pourrait soutenir que ces modèles devraient être étiquetés comme modèles d'apprentissage automatique « interprétables », car ils sont conçus à partir de rien pour être compréhensibles. Ils sont délibérément soumis à des contraintes pour que leurs processus de raisonnement soient plus compréhensibles pour la plupart, voire la totalité des utilisateurs humains. Non seulement de tels modèles rendent le lien entre les données d'entrée et les prévisions presque évident, il est plus facile d'y détecter les problèmes et de les résoudre, et d'y apporter des modifications au besoin. L'interprétabilité est au cœur du domaine et les contraintes peuvent comprendre les éléments suivants :

  • la rareté du modèle;
  • la monotonie par rapport à une variable;
  • la décomposition en sous-modèles;
  • la capacité à effectuer un raisonnement basé sur des cas;
  • la clarification de certains types d'information dans le processus de raisonnement du modèle;
  • les contraintes génératives (p. ex. les processus biologiques);
  • les  préférences parmi le choix des variables;
  • tout autre type de contrainte pertinent au domaine.

Parmi les exemples notables de modèles interprétables, citons les modèles à logique éparse (comme les arbres de décision, les listes de décision et les ensembles de décision) et les systèmes de notation, qui sont des modèles de classification linéaire exigeant des utilisateurs qu'ils se limitent à additionner, à soustraire et à multiplier quelques petits nombres seulement pour faire une prévision. Ces modèles peuvent être beaucoup plus faciles à comprendre que la régression multiple et la régression logistique, qui peuvent être difficiles à interpréter. Cependant, la simplification intuitive de ces modèles de régression par limitation du nombre de prédicteurs, et l'arrondissement des coefficients n'offre pas une précision optimale. Il s'agit simplement d'un ajustement ultérieur. Il est préférable d'intégrer l'interprétabilité dès le départ.

La prise en compte de nombreux modèles de prévision possibles pour exécuter une tâche de prévision donnée est de mieux en mieux comprise. L'observation relativement fréquente de modèles simples donnant de bons résultats avec des données tabulaires (un ensemble de variables, dont chacune a sa propre signification) a été relevée il y a plus de 20 ans et a été qualifiée « d'effet Rashomon » (Breiman, 2001). Breiman a évoqué la possibilité d'utiliser un grand ensemble Rashomon dans de nombreuses applications, c'est-à-dire une multitude de modèles donnant approximativement le même taux d'erreur minimal. Un moyen simple de le vérifier consiste à adapter un certain nombre de modèles différents d'apprentissage automatique au même ensemble de données. Si un grand nombre d'entre eux est aussi précis que le plus précis (dans la marge d'erreur), alors beaucoup d'autres modèles non testés pourraient l'être aussi. Dans une étude récente (Semenova et coll., 2019), on suggère maintenant d'exécuter un ensemble de modèles différents d'apprentissage automatique (la plupart de type « boîte noire ») pour déterminer leur précision relative sur un ensemble de données particulier pour prédire l'existence d'un modèle interprétable simple et précis, c'est-à-dire un moyen de déterminer rapidement les applications pour lesquelles il y a de fortes chances que l'on puisse élaborer un modèle de prévision interprétable et précis.

Quelle est l'incidence du cycle de vie complet de la science des données sur l'apprentissage automatique?

Le compromis entre la précision et l'interprétabilité d'un premier ensemble de données fixes dans un domaine d'application pourrait ne pas demeurer valable dans le temps. En fait, on s'attend à ce qu'il change à mesure que des données s'accumulent, que le domaine d'application évolue ou soit mieux compris, que la collecte des données soit affinée ou que de nouvelles variables soient ajoutées ou définies. Dans le cadre d'un processus complet de la science des données, même lorsqu'on ne dispose que d'un premier ensemble de données, il convient d'évaluer et d'interpréter les résultats de façon critique et d'ajuster le traitement des données, la fonction de perte, la mesure d'évaluation ou tout autre élément pertinent. Transformer plus efficacement les données en connaissances accrues sur la tâche de prédiction qui peuvent ensuite être exploitées pour augmenter à la fois la précision et la généralisation probable. Tout compromis envisageable entre la précision et l'interprétabilité devrait donc être évalué dans le cadre du processus complet de la science des données et du cycle de vie de l'apprentissage automatique.

Le processus complet de la science des données et du cycle de vie est probablement différent lorsque des modèles interprétables sont utilisés. Il faut obtenir davantage de commentaires de la part des experts du domaine pour produire un modèle interprétable qui leur semble acceptable. Cela devrait être considéré comme un avantage. Par exemple, il n'est pas inhabituel, à un stade donné, de trouver de nombreux modèles également interprétables et précis. Pour un scientifique des données, la sélection d'un modèle peut être ardue. Cependant, lorsque ces modèles sont présentés à des experts du domaine, ceux-ci peuvent facilement discerner des possibilités d'améliorer les contraintes et d'indiquer celles qui sont moins susceptibles de bien se généraliser. Tous les modèles interprétables et précis ne sont pas égaux aux yeux des experts du domaine.

Les modèles interprétables sont beaucoup plus fiables dans la mesure où l'on peut plus facilement discerner où et quand on peut leur faire confiance et de quelle façon. Mais comment peut-on le faire sans comprendre la façon dont le modèle fonctionne, surtout lorsqu'il n'est manifestement pas digne de confiance? Cela est particulièrement important dans les cas où la distribution sous-jacente des données change et qu'il est essentiel de procéder sans délai à la détection et la résolution de problèmes et à des modifications, comme l'indique l'article réalisée en 2020 de Hamamoto et coll (en anglais seulement). Il est sans doute beaucoup plus difficile de demeurer performant dans le cycle de vie complet de l'apprentissage automatique avec des modèles de type « boîte noire » qu'avec des modèles interprétables. Même pour les applications où les modèles interprétables ne sont pas encore assez précis, ces derniers peuvent être utilisés comme un outil pour faciliter le débogage des modèles de type « boîte noire ».

Explications erronées

Il existe aujourd'hui une documentation vaste et déroutante qui confond l'interprétabilité et l'explicabilité. Dans ce court blogue, le degré d'interprétabilité est simplement considéré comme la facilité avec laquelle l'utilisateur peut comprendre le lien entre les données d'entrée et ce que le modèle d'apprentissage automatique prédirait. Erasmus et coll. (2020) présentent un point de vue plus général et philosophique. Rudin et coll. (2021) évitent d'essayer de présenter une définition exhaustive en fournissant plutôt des principes directeurs généraux pour aider les lecteurs à éviter les façons courantes, mais problématiques, de penser à l'interprétabilité. D'autre part, le terme « explicabilité » renvoie souvent à des tentatives ultérieures pour expliquer une boîte noire en utilisant des modèles « de doublure » plus simples qui prédisent les prédictions de la boîte noire. Cependant, comme indiqué dans la Ligne directrice sur les services et le numérique du gouvernement du Canada (2021), la prévision n'est pas une explication, et lorsqu'elle est présentée comme une explication, elle peut gravement induire en erreur. Souvent, cette documentation suppose qu'il suffit d'expliquer le fonctionnement d'une boîte noire sans se demander s'il existe un modèle interprétable donnant la même précision, peut-être parce qu'on a cru, sans trop y réfléchir, que seuls les modèles trop complexes pour être compris peuvent atteindre une précision acceptable.

La prise de conscience croissante des risques associés à ces « explications » a conduit un groupe de chercheurs à étudier comment l'incompréhension peut être intentionnellement conçue, ce dont les organismes de réglementation devraient de plus en plus s'inquiéter (Lakkaraju et Bastani, 2019). Il n'est pas rare non plus que ceux qui font régulièrement de la modélisation en boîte noire expliquent que leurs modèles sont des solutions de rechange ou même qu'ils justifient de renoncer à l'apprentissage et au développement de modèles interprétables.

Simplifier les choses

Les modèles interprétables d'apprentissage automatique sont simples et l'on peut s'y fier lorsqu'on s'appuie sur des outils d'apprentissage automatique pour prendre des décisions. Par ailleurs, même l'interprétabilité n'est probablement pas requise pour les décisions qui peuvent être modifiées ou vérifiées ultérieurement par des « humains » (p. ex. suggérer des options). Malgré la soif de modèles simples et précis, il est important de remarquer que les apprentissages automatiques actuels ne peuvent pas égaler la précision des modèles de type « boîte noire » dans tous les domaines d'application. Pour les applications reposant sur des données brutes (pixels, ondes sonores, etc.), les réseaux neuronaux en boîte noire ont actuellement un avantage par rapport aux autres approches. En outre, les modèles de type « boîte noire » permettent aux utilisateurs de déléguer la responsabilité pour saisir les implications de l'adoption du modèle. Bien qu'un compromis nécessaire entre la précision et l'interprétabilité subsiste dans certains domaines d'application, son omniprésence reste une exagération et la prévalence de ce compromis pourrait continuellement diminuer à l'avenir. Dans le domaine de l'apprentissage automatique, cela a créé une situation où les possibilités de comprendre et de tirer parti des avantages sont souvent négligées. Par conséquent, les avantages des nouvelles techniques de modélisation interprétables devraient être pleinement pris en compte dans toute application d'apprentissage automatique, au moins pour déterminer si une précision adéquate est réalisable. Finalement, peut-être que cela pourrait se résumer au fait que si les choses simples fonctionnent, pourquoi les rendre plus complexes.

Membres de l'équipe : Keith O'Rourke (Agence de réglementation de la lutte antiparasitaire), Yadvinder Bhuller (Agence de réglementation de la lutte antiparasitaire).

Poursuivre l'apprentissage automatique...

Breiman, L. (2001). Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author). Statist. Sci. 16(3): 199-231. DOI: 10.1214/ss/1009213726

Ennis, M., Hinton, G., Naylor, D., Revow, M., and Tibshirani, R. (1998). A Comparison of Statistical Learning Methods on the Gusto Database. Statistics. Med. 17, 2501-2508. A comparison of statistical learning methods on the GUSTO database (en anglais seulement)

Erasmus, A., Bruent, T.D.P., and Fisher E. (2020). What is Interpretability? Philosophy & Technology. What is Interpretability?

Ericsson, K. A., & Simon, H. A. (1980). Verbal reports as data. Psychological Review, 87(3), 215–251. Verbal reports as data.

Government of Canada. (2021). Guideline on Service and Digital. Guideline on Service and Digital. [Accessed: May 13, 2021].

Gu, Y., and Dunson, D.B. (2021). Identifying Interpretable Discrete Latent Structures from Discrete Data. arXiv:2101.10373 [stat.ME]

Hinton, G. (2018). Why Is a Two a Two? Why Is A Two A Two? With Geoffrey Hinton and David Naylor [Accessed: May 13, 2021]. (en anglais seulement)

Hamamoto, R., Suvarna, K., Yamada, M., Kobayashi, K., Shinkai, N., Miyake, M., Takahashi, M., Jinnai, S., Shimoyama, R., Sakai, A., Taksawa, K., Bolatkan, A., Shozu, K., Dozen, A., Machino, H., Takahashi, S., Asada, K., Komasu, M., Sese, J., and Kaneko., S. (2020). Application of Artificial Intelligence Technology in Oncology: Towards the Establishment of Precision Medicine. Cancers. 12(12), 3532; Application of Artificial Intelligence Technology in Oncology: Towards the Establishment of Precision Medicine (en anglais seulement)

Lakkaraju, H., and Bastani, O. (2019). "How do I fool you?": Manipulating User Trust via Misleading Black Box Explanations. arXiv:1911.06473 [cs.AI]

Rudin, C., Chen, C., Chen, Z., Huang, H., Semenova, L., and Zhong, C. (2021). Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges. arXiv:2103.11251 [cs.LG]

Rudin, C., & Radin, J. (2019). Why Are We Using Black Box Models in AI When We Don't Need To? A Lesson From An Explainable AI Competition. Harvard Data Science Review, 1(2). Why Are We Using Black Box Models in AI When We Don't Need To? A Lesson From An Explainable AI Competition

Semenova, R., Rudin, C., and Parr, R. (2019). A study in Rashomon curves and volumes: A new perspective on generalization and model simplicity in machine learning. arXiv:1908.01755 [cs.LG]

Date de modification :

Enquête canadienne sur la santé et les anticorps contre la COVID-19
Anticorps contre la COVID-19 : Foire aux questions

  • 1. Que signifient les résultats?

    1. Que signifient les résultats?

    Test de la tache de sang séché

    Positif — vous avez probablement été exposé au virus de la COVID-19 ou vous avez reçu le vaccin, et votre corps a produit des anticorps contre le virus.
    Négatif — aucune trace d'anticorps contre le virus de la COVID-19 n'a été trouvée dans votre sang.
    Peu concluant — le résultat de votre test ne nous permet pas de déterminer si vous avez des anticorps ou non contre le virus de la COVID-19. Un problème est peut-être survenu avec le test.

    PCR Test de salive

    Positif - L'ARN spécifique du virus SARS-CoV-2 responsable de l'infection par le COVID-19 a été détecté dans votre échantillon de salive.
    Négatif - L'ARN spécifique du virus SRAS-CoV-2 responsable de l'infection par le COVID-19 n'a pas été détecté dans votre salive.
    Non concluant - Le résultat de votre test ne nous permet pas de savoir si vous avez ou non de l'ARN spécifique du virus SRAS-CoV-2 responsable de l'infection par le COVID-19 dans votre salive. Cela peut être dû à un problème avec le test.

    Si vous avez des questions sur les résultats de votre test(s), veuillez-vous adresser à votre prestataire de soins de santé.

  • 2. Si le résultat de mon test d'anticorps contre la COVID-19 et/ou PCR-salive est positif, dois-je faire quelque chose?

    2. Si le résultat de mon test d'anticorps contre la COVID-19 et/ou PCR-salive est positif, dois-je faire quelque chose?

    Test de la tache de sang séché 

    Non, vous n'avez rien à faire. Un résultat positif vous informe d'une infection qui s'est produite dans le passé ou que vous avez reçu le vaccin. Cela ne signifie pas que vous êtes infecté en ce moment. Veuillez continuer à respecter les mesures de santé publique.

    Test PCR salive
    - Un résultat positif vous informe d'une infection active par le COVID-19 au moment où vous avez fourni votre échantillon de salive. Même si vous avez obtenu un résultat négatif au test de dépistage du virus SRAS-CoV-2 qui cause l'infection par le COVID-19, vous devez suivre toutes les recommandations de la Santé publique sur la façon de vous protéger et de protéger les autres.

  • 3. Quel est le degré de précision du test de la tache de sang séché?

    3. Quel est le degré de précision du test de la tache de sang séché?

    D'après notre expérience des tests effectués jusqu'à présent, les résultats positifs sont corrects environ 95 % du temps. Les résultats négatifs, quant à eux, sont corrects environ 99 % du temps. Aucun test de laboratoire n'est parfait.

  • 4. Quel est l'avantage des anticorps contre la COVID-19?

    4. Quel est l'avantage des anticorps contre la COVID-19?

    À l'heure actuelle, nous en savons très peu sur les avantages des anticorps contre le virus de la COVID-19. Les experts ne sont pas sûrs de la durée de vie des anticorps ni de leur capacité à offrir une protection (immunité) contre les futures infections par la COVID-19. Les efforts de recherche dans le monde entier, y compris cette étude, cherchent à comprendre ces questions sur l'immunité.

    Veuillez continuer à suivre toutes les recommandations de la santé publique, même si vous avez des anticorps contre le virus de la COVID-19. Cela vous aidera à assurer votre propre sécurité et celle des autres.

  • 5. Si j'ai des anticorps, puis-je contracter de nouveau la COVID-19?

    5. Si j'ai des anticorps, puis-je contracter de nouveau la COVID-19?

    Nous ne le savons pas encore. Les anticorps ne protègent pas toujours les gens contre de nouvelles infections. Des recherches supplémentaires sont menées dans le monde entier pour tenter de répondre à ces questions.

  • 6. Pourquoi certaines personnes ont-elles un test positif de la tache de sang séché et d'autres, un test négatif de la tache de sang séché?

    6. Pourquoi certaines personnes ont-elles un test positif de la tache de sang séché et d'autres, un test négatif de la tache de sang séché?

    Certaines personnes peuvent être plus susceptibles d'être infectées que d'autres. Cela peut dépendre de la quantité de virus à laquelle elles ont été exposées. Les personnes infectées peuvent produire différentes quantités d'anticorps. Si une personne en produit peu, il se peut que le test ne puisse pas les détecter. Le fait qu'une personne infectée présente des symptômes ou non dépend de son âge, des problèmes de santé sous-jacents et d'autres facteurs que nous tentons de mieux comprendre.

  • 7. Qu'est-ce que cela signifie si j'ai été testé positif au COVID-19 par le test PCR de salive mais que mon test d'anticorps est négatif ?

    7. Qu'est-ce que cela signifie si j'ai été testé positif au COVID-19 par le test PCR de salive mais que mon test d'anticorps est négatif ?

    Chaque personne produit différentes quantités d'anticorps. Si vous avez obtenu un résultat positif au test de la salive PCR, mais que le test d'anticorps est négatif, vous n'avez peut-être pas produit beaucoup d'anticorps contre l'infection. Cela ne signifie pas que le résultat de votre test de la salive PCR était erroné.

  • 8. Qu'est-ce que cela signifie si mon test PCR salivaire est négatif mais que mon test d'anticorps est positif ?

    8. Qu'est-ce que cela signifie si mon test PCR salivaire est négatif mais que mon test d'anticorps est positif ?

    Le test PCR de salive peut avoir été effectué alors que le virus n'était pas présent dans votre salive, de sorte que le virus n'a pas été détecté. Un résultat positif au test d'anticorps montre que vous avez été exposé au virus ou que vous avez reçu le vaccin, et que votre organisme a fabriqué des anticorps. Il ne vous renseigne pas sur la façon dont le virus vous a affecté.9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

  • 9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

    9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

    Si vous avez des questions ou des préoccupations concernant les résultats de vos tests, nous vous recommandons de vous adresser à votre prestataire de soins de santé.

  • 10. Dois-je quand même me faire vacciner si j'ai obtenu un résultat positif au test d'anticorps contre la COVID-19?

    10. Dois-je quand même me faire vacciner si j'ai obtenu un résultat positif au test d'anticorps contre la COVID-19?

    Oui. Les personnes qui ont obtenu un résultat positif au test d'anticorps contre la COVID-19 doivent quand même être vaccinées. À l'heure actuelle, les experts ne savent pas combien de temps une personne peut être protégée contre une réinfection après s'être rétablie de la COVID-19.

  • 11. J'ai reçu mon vaccin mais mon résultat du test d'anticorps est négatif. Qu'est-ce que cela peut signifier?

    11. J'ai reçu mon vaccin mais mon résultat du test d'anticorps est négatif. Qu'est-ce que cela peut signifier?

    Cela peut signifier que vous avez reçu votre vaccin après avoir fait votre prélèvement de gouttes de sang séché, ou que vous avez fait le prélèvement peu après avoir reçu le vaccin, ne donnant pas assez de temps à votre corps de produire une quantité suffisante d'anticorps pour être détecté par le test. Ce sont deux possibilités, parmi d'autres.

  • 12. Où puis-je trouver plus de renseignements sur l'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC)?

    12. Où puis-je trouver plus de renseignements sur l'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC)?

    Pour plus de renseignements sur l'ECSAC, veuillez consulter notre site Web à Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC).

  • 13. Les participants peuvent-ils retirer leur consentement à la conservation de leurs biospécimens dans la Biobanque ?

    13. Les participants peuvent-ils retirer leur consentement à la conservation de leurs biospécimens dans la Biobanque ?

    Oui. Lors du prélèvement des échantillons, il est demandé aux participants s'ils consentent au stockage de leurs échantillons. À tout moment, pendant ou après la soumission des échantillons, les participants peuvent demander que leurs échantillons soient retirés du stockage et détruits en appelant le 1-888-253-1087, ou par courriel à statcan.biobankinfo-infobiobanque.statcan@statcan.gc.ca.

  • 14. Quel type d'analyses sont effectuées sur les échantillons stockés à la Biobanque ?

    14. Quel type d'analyses sont effectuées sur les échantillons stockés à la Biobanque ?

    Les échantillons conservés à la Biobanque de Statistique Canada sont utilisés dans des études sur la santé. Les études sur la santé comprennent :

    • La recherche d'expositions passées à de nouveaux contaminants environnementaux.
    • Nouvelles façons de surveiller la nutrition humaine
    • La prévalence passée des maladies infectieuses, la découverte et la validation de nouveaux biomarqueurs pour diagnostiquer les maladies.
    • La recherche génétique pour évaluer l'état de santé et la susceptibilité des Canadiens aux maladies, aux infections ou aux expositions aux contaminants environnementaux.
  • 15. Mes échantillons de sang séché et de salive seront-ils utilisés pour des tests génétiques?

    15. Mes échantillons de sang séché et de salive seront-ils utilisés pour des tests génétiques ?

    Oui, il est possible que votre échantillon soit utilisé pour des tests génétiques. Les tests génétiques peuvent inclure des études d'association à l'échelle du génome ou le génotypage.

    Deux projets de la Biobanque ont utilisé les informations génétiques des échantillons de la Biobanque pour établir un lien entre les données génétiques et l'état de santé. Le premier projet, réalisé par l'Agence de la santé publique du Canada, a examiné comment les différences dans le code génétique entre les Canadiens pouvaient influencer la façon dont ces derniers absorbent les nutriments. Le deuxième projet, en cours à l'Université McGill, vise à déterminer comment les différences dans le code génétique influencent les résultats de santé après une exposition à des contaminants environnementaux et à des métaux.

    En aucun cas, Statistique Canada ne divulguera votre génome au public. Statistique Canada, ou tout autre ministère fédéral qui respecte la Loi sur la protection des renseignements personnels du Canada, ne permettrait jamais que votre ADN soit utilisé de cette façon.

    Il est possible de retirer son consentement à des tests génétiques tout en conservant ses échantillons dans la Biobanque de Statistique Canada pour d'autres projets. Un participant peut retirer son consentement en tout temps en utilisant les coordonnées qui se trouvent ici : Participants de la biobanque.

  • 16. Combien de temps garderez-vous mes échantillons ?

    16. Combien de temps garderez-vous mes échantillons ?

    Les échantillons sont conservés dans la Biobanque de Statistique Canada jusqu'à ce qu'ils ne soient plus scientifiquement viables. Les échantillons sont retirés lorsqu'ils sont utilisés pour un projet de recherche approuvé ou lorsqu'un participant demande que ses échantillons soient retirés et détruit.

  • 17. Où puis-je obtenir plus d'informations sur la Biobanque?

    17. Où puis-je obtenir plus d'informations sur la Biobanque?

    Des renseignements supplémentaires, comme la description des études approuvées de la Biobanque, sont affichés sur la page Web de la Biobanque. Vous pouvez également accéder au site Web en entrant " Biobanque de Statistique Canada " dans votre moteur de recherche préféré.

Date de modification :

Langues officielles et traitement du langage naturel

Par : Julien-Charles Lévesque, Emploi et Développement social Canada; Marie-Pier Schinck, Emploi et Développement social Canada

Langues officielles et traitement du langage naturel

Il est connu que l'anglais est la langue dominante dans le domaine du traitement du langage naturel (TLN). Cela peut représenter un défi pour les scientifiques des données du GC, qui doivent s'assurer de la qualité des données en français et du traitement équivalent des données des deux langues officielles afin d'éviter tout biais.

La Division de la science des données du Bureau de la dirigeante principale des données (BDPD) d'Emploi et Développement social Canada (EDSC) lance un projet de recherche sur l'utilisation du TLN dans les deux langues officielles. Cette initiative, financée par le Laboratoire d'innovation d'EDSC, vise à approfondir la compréhension de l'incidence de la langue (française ou anglaise) sur le comportement des techniques et des outils utilisés dans le TLN. Ceci permettra à nos scientifiques des données de prendre des décisions plus éclairées dans leurs projets de TLN.

Pourquoi est-il important d'explorer l'utilisation des deux langues officielles dans le TLN?

EDSC a été directement confronté à ce défi dans le cadre de ses projets de TLN, et certains de ses partenaires dans d'autres ministères ont indiqué qu'ils avaient également éprouvé ce problème. Bien qu'il existe de nombreuses approches possibles pour le traitement des données dans plusieurs langues, il est difficile de dire si certaines de ces approches fonctionnent mieux que d'autres pour fournir des prévisions de qualité comparable pour les deux langues officielles. Bref, étant donné que la façon dont la langue est traitée n'est jamais le seul objectif des projets, les scientifiques des données ne peuvent investir qu'une quantité limitée de temps et de ressources pour explorer cette question. Ce manque pourrait mener à des décisions qui ne sont pas optimales. Pour la langue française, il est nécessaire de mieux comprendre les répercussions des choix faits par les scientifiques des données lorsqu'ils appliquent les techniques de TLN. Cet exercice permettra d'améliorer la qualité du traitement des données en français, et de contribuer à réduire les biais liés à la langue. Cela permettra d'accroître l'équité des solutions tout en ayant une incidence sur la prestation de services aux clients.

Nouvelles recherches sur les techniques de TLN et les langues officielles

Afin de limiter l'impact de ce problème, EDSC lance un projet de recherche qui portera sur certaines questions récurrentes entourant l'application des techniques de TLN aux deux langues officielles. Cela comprend les techniques de prétraitement, de vectorisation (word embeddings) et de modélisation du texte, ainsi que les techniques pour atténuer les répercussions des ensembles de données débalancés. EDSC souhaite acquérir des connaissances transférables qui pourraient être mises à profit par son équipe et la communauté de la science des données du GC, afin d'aider à combler l'écart entre le français et l'anglais en ce qui a trait à la qualité des applications de TLN au sein du gouvernement fédéral.

Pour l'instant, seuls les problèmes de classification de texte serviront de cas d'utilisation. Il s'agit à la fois d'une tâche très courante de TLN et d'un type de problème sur lequel l'équipe a travaillé dans le cadre de nombreux projets. Cette dernière a accès à plusieurs ensembles de données réelles étiquetées provenant de projets antérieurs, ce qui lui permettra de fonder ses conclusions sur un contexte plus appliqué.

Tirer parti des ensembles de données existants

L'équipe d'EDSC utilisera des ensembles de données provenant de quatre problèmes de classification de texte qu'elle a déjà résolus. Ces problèmes varient en fonction de la longueur des documents, de la qualité du texte, de la tâche de classification (binaire ou à classes multiples), de la proportion de contenu français/anglais ainsi que de la façon dont le contenu en français a été traité. Afin de mettre les choses en perspective, chacun de ces projets passés est examiné plus en détails ci-dessous.

  • Le projet T4 est un problème de classification binaire de notes rédigées par des agents des centres d'appels. L'objectif était de prédire si un T4 avait déjà été envoyé de nouveau à un client ou non.
  • Le projet de surveillance des médias est un problème de classification binaire des articles de presse de NewsDesk. L'objectif était de prédire si les articles étaient pertinents pour la haute direction.
  • Le projet des commentaires de relevés d'emploi est un problème de classification à classes multiples. L'objectif était de prédire quel motif de cessation d'emploi correspondait aux commentaires des employeurs sur les formulaires de relevé d'emploi.
  • Le projet des ressources humaines (RH) est un projet de recherche qui a exploré la présélection des candidats dans le cadre de processus de dotation à grande échelle pour des postes de niveau d'entrée. Il s'agissait d'un problème de classification binaire dont l'objectif était de prédire l'étiquette attribuée par le personnel des RH en fonction des réponses des candidats aux questions de présélection.
Tableau 1. Aperçu des données de chaque problème et solution finale
Nom du projet Type de problème Taille de l'ensemble de données Proportion du contenu en français Longueur de la description d'entrée Méthode utilisée
T4 Binaire Petit (6000) 35 % Courte Jetons (tokens)dans les deux langues,
modèle de n-grammes et khi carré + perceptron multicouche (multilayer perceptron, MLP)
Surveillance des médias Binaire Grand (1 M) 25 % Longue Français traduit en anglais,
métavectorisation (de GloVe, fastText et Paragram), ensemble de classifieurs (LSTM, GRU, CNN)
Projet de commentaires relatifs au relevé d'emploi Classes multiples Moyen à grand (plus de 300 000) 28 % Courte Jetons dans les deux langues,
modèle de n-grammes et khi carré + perceptron multicouche (multilayer perceptron, MLP)
RH Binaire Petit (5 000) 6 % Moyenne à longue Vectorisations de mots multilingues pré-entraînées (algorithme Bidirectional Encoder Representations from Transformers [BERT]) suivis d'ajustements

Questions de recherche clés

Ce travail permettra d'explorer les questions clés qui se posent habituellement lors de l'élaboration de solutions de TLN pour la classification. La question récurrente des ensembles de données débalancés dans les données du GC (plus de cas observés en anglais qu'en français) sera également abordée. Plus précisément, ce projet tentera de répondre aux questions suivantes :

  1. Quelle est la différence entre l'utilisation d'un modèle distinct pour le français et l'anglais et l'utilisation d'un modèle unique pour les deux langues? Peut-on déduire des règles ou des lignes directrices générales lorsqu'il serait préférable d'utiliser l'une ou l'autre des approches?
  2. La stratégie de traduction des données du français vers l'anglais, puis d'entraînement d'un modèle anglais unilingue est-elle valable? Quels sont les principaux facteurs à prendre en considération lorsqu'on utilise cette approche?
  3. Les modèles entraînés sur une multitude de langues favorisent-ils une langue par rapport à une autre? La compréhension des documents en français équivaut-elle à la compréhension des documents en anglais avec ces méthodes?
  4. Quelle est l'incidence du débalancement de la représentation linguistique dans les données? Y a-t-il un ratio minimal de données du français par rapport à l'anglais qui devrait être visé? Quelles méthodes devrait-on utiliser pour atténuer les répercussions de ce débalancement?

Partage des résultats

La majeure partie des expériences seront achevées au cours de l'été. Une présentation et un rapport seront préparés et distribués au cours de l'automne. Ce rapport détaillé documentera la recherche et l'exploration qui auront eu lieu ainsi que les conclusions. Il s'agira d'un rapport technique qui ciblera les scientifiques des données, puisque l'objectif principal de cette initiative est de leur permettre de prendre des décisions plus éclairées lorsqu'ils traitent des données en français dans le cadre de projets de TLN. De plus, un séminaire axé sur l'apprentissage automatique sera préparé pour discuter de cette initiative de recherche. Les thèmes abordés et le nombre de séances offertes seront déterminés par les conclusions de l'étude.

Créons des liens!

L'équipe espère que cette initiative de recherche apportera de la valeur aux projets bilingues de TLN à venir grâce à un traitement plus éclairé du contenu en français, offrant ainsi un produit final de meilleure qualité. Entre-temps, si vous avez aussi été confrontés à des défis similaires lors de l'utilisation du TLN dans des ensembles de données bilingues, si vous avez des commentaires, des idées ou peut-être des leçons apprises qui pourraient être intéressantes à partager, ou si vous souhaitez simplement être tenus au courant, n'hésitez pas à communiquer avec nous! L'équipe de projet vous invite à discuter avec la communauté de la science des données du GC en rejoignant la conversation dans le Réseau des utilisateurs et praticiens de l'intelligence artificielle!

Scientifiques des données

Marie-Pier Schinck (Scientifique des données), Julien-Charles Lévesque (Scientifique des données)

Date de modification :

Modélisation thématique et modélisation thématique dynamique : Une revue technique

Par : Loic Muhirwa, Statistique Canada

Dans le sous-domaine de l'apprentissage automatique du traitement du langage naturel (TLN), un modèle thématique (topic modeling) est un type de modèle non supervisé servant à découvrir des sujets abstraits dans un corpus. La modélisation thématique peut être considérée comme une sorte de regroupement flou (soft clustering) de documents au sein d'un corpus. La modélisation thématique dynamique désigne l'introduction d'une dimension temporelle dans une analyse de modélisation thématique. L'aspect dynamique de la modélisation thématique est un domaine de recherche en pleine croissance et auquel de nombreuses applications ont recours, y compris l'analyse sémantique de séries chronologiques, la classification sans supervision de documents et la détection d'événements. Dans le cas de la détection d'événements, si la structure sémantique d'un corpus représente un phénomène du monde réel, un changement significatif dans cette structure sémantique peut être utilisé pour représenter et détecter des événements du monde réel. À cette fin, l'article présente les aspects techniques d'une nouvelle méthode bayésienne de modélisation thématique dynamique dans le contexte des problèmes de détection d'événements.

Dans le contexte d'une preuve de concept, un système de modélisation thématique dynamique a été conçu, mis en œuvre et déployé à l'aide de la Base canadienne de données des coroners et des médecins légistes (BCDCML), une nouvelle base de données élaborée à Statistique Canada en collaboration avec les 13 coroners en chef provinciaux et territoriaux, les médecins légistes en chef et l'Agence de la santé publique du Canada. La BCDCML contient des renseignements normalisés sur les circonstances des décès déclarés aux coroners et aux médecins légistes au Canada. En particulier, la BCDCML contient des données non structurées sous forme de variables en texte libre, appelées textes narratifs, qui fournissent des renseignements détaillés sur les circonstances entourant les décès déclarés. L'ensemble des textes narratifs forme un corpus (une collection de documents) adapté à l'exploration de texte, ce qui soulève la question suivante : les techniques d'apprentissage automatique peuvent-elles servir à découvrir des structures sémantiques utiles et nouvelles ? Et dans l'affirmative, peut-on analyser ces structures sémantiques dynamiquement (dans le temps) pour détecter les textes narratifs émergeants sur les décès?

Les premiers résultats sont prometteurs. L'étape suivante comporte deux volets, à savoir : premièrement, régler plus précisément le système et la construction de la détection d'événements et, deuxièmement, étant donné que ce système servira à aider les analystes à réaliser des études et des recherches sur la BCDCML, les renseignements qui en découleront devront être interprétables par l'être humain. Le présent article donne un aperçu technique de la méthodologie sur laquelle repose la modélisation thématique, explique la base de l'allocation de Dirichlet latente et introduit une dimension temporelle dans l'analyse de la modélisation thématique. Un futur article présentera l'application de ces techniques à la BCDCML.

Allocation de Dirichlet latente

L'allocation de Dirichlet latente (ou LDA pour Latent Dirichlet Allocation)Note de bas de page 1 est un exemple de modèle thématique couramment utilisé par la communauté de l'apprentissage automatique. En raison des performances des modèles de LDA, on en retrouve plusieurs implantations en production dans des langages populaires de script orientés données comme PythonNote de bas de page 2. L'allocation de Dirichlet latente a d'abord été introduite comme une généralisation de l'analyse sémantique latente probabiliste (PLSA pour Probabilistic Latent Semantic Analysis)Note de bas de page 3 présentant d'importantes améliorations, dont l'une était entièrement générativeNote de bas de page 4.

Le modèle

La LDA est considérée comme un modèle génératif, car la distribution conjointe (produit de la vraisemblance par la loi a priori) est explicitement définie, ce qui permet de générer des documents simplement en échantillonnant à partir de la distribution. Les hypothèses du modèle sont clairement démontrées par l’examen du processus générateur qui décrit la façon dont chaque mot d’un document donné est généré.

En termes formels, supposons que T ,   V N sont respectivement le nombre de sujets et la taille de l’ensemble de notre vocabulaire. Le vocabulaire fait référence à l’ensemble de tous les termes utilisés pour produire les documents. De plus, supposons que θ R T et ϕ R V sont des vecteurs représentant des distributions discrètes sur les sujets et le vocabulaire respectivement. Dans une LDA, un document est représenté par une distribution de sujets distincte et un sujet est représenté par une distribution de mots distincte. Soit w0,1V un vecteur one-hot représentant un mot particulier dans le vocabulaire et z0,1T un vecteur one-hot représentant un sujet particulier.

Les notations θ et ϕ peuvent servir à décrire le processus génératif qui génère un mot dans un document en échantillonnant à partir d'une distribution de sujets et d’une distribution de mots. La LDA suppose que ces distributions sont tirées de distributions de Dirichlet, à savoir θ~Dirα et ϕ~Dirβ, où α  et β sont les paramètres de l’absence de densité. Ensuite, au moyen de ces distributions, on tire d’abord un sujet z~Multinomialθ, puis à partir de ce sujet, on tire un mot w~Multinomialϕ. En d’autres termes, les mots d’un document sont échantillonnés à partir d’une distribution de mots régie par une distribution de sujets fixe représentant ce document. La Figure 1 démontre ce processus de génération en notation de plaque graphique, pour un corpus de taille M avec des documents de taille fixe N. Bien qu’on suppose généralement que la taille du document provienne d’un processus de Poisson indépendant, pour le moment, à des fins de simplification de la notation, on suppose sans perte de généralité que les documents sont de taille fixe.

Notation de plaque du processus génératif. Les cases sont des « plaques » représentant des répliques et les nœuds ombrés sont observés.
Description de la figure 1 - Notation de plaque du processus génératif. Les cases sont des « plaques » représentant des répliques et les nœuds ombrés sont observés.

Illustration du processus génératif de LDA en notation de plaque. Le diagramme est composé d’un graphique acyclique dirigé, où les nœuds représentent des variables et les arêtes représentent des dépendances variables. Les nœuds externes du graphique dirigé sont les hyperparamètres du modèle et ces nœuds n’ont pas d’arêtes intérieures, ce qui signifie qu’ils ne dépendent d’aucun autre paramètre du modèle. À partir des hyperparamètres, les arêtes conduisent aux autres variables jusqu’à ce qu’elles atteignent un nœud final, représentant un mot. À une extrémité, le nœud d’hyperparamètres de sujet mène à un nœud de distribution de mot, qui mène finalement au nœud de mot. À partir d’une autre extrémité, l’hyperparamètre du document, mène à un nœud de distribution de sujet, qui mène à un nœud d’affectation de mot-sujet, puis au nœud de mot. Ce nœud de mot est ombré et il s'agit du seul nœud ombré. L’ombrage indique que le nœud en question représente une variable observée, ce qui signifie que tous les autres nœuds du graphique ne sont pas observés. Certains nœuds sont contenus dans une case rectangulaire comportant une variable dans son coin inférieur droit. Les cases représentent les répétitions, et la variable en bas à droite représente la taille de la répétition. Le nœud de distribution de mot est contenu dans une case avec un nombre variable de répétitions, T. L’affectation mot-sujet et les nœuds de mot sont contenus dans une case avec un nombre variable de répétitions, N. Cette dernière est ensuite contenue dans une case plus grande qui comprend le nœud de distribution de sujet avec un nombre variable de répétitions, M. Puisque l’affectation mot-sujet et les nœuds de mot sont contenus dans deux cases, ces deux variables ont un nombre de répétitions égal au produit de la variable se trouvant dans le coin inférieur droit des deux cases, en l'occurrence N fois M.

Tableau 1 : Notation
Variable Description
D Un ensemble représentant tous les documents bruts, c'est-à-dire le corpus
T Nombre de sujets
V Nombre de mots dans le vocabulaire
θi Distribution de sujets représentant le ie document; il s'agit d'un vecteur dense RT
Nj Nombre de mots dans le je document
θt Distribution de mots représentant le te sujet; il s'agit d'un vecteur dense RV
Zij Affectation de sujet pour le ie mot dans le je document; il s'agit d'un vecteur one-hot RT
wij Affectation du vocabulaire pour le ie mot dans le je document; il s'agit d'un vecteur one-hot RV
β Paramètre de l'absence de densité de Dirichlet pour les sujets
α Paramètre de l'absence de densité de Dirichlet pour les documents

Soit Z un ensemble représentant l’ensemble de toutes les affectations de sujets, il s'agit d’un ensemble de taille j|D|·Nj et soit θ un ensemble représentant l’ensemble de toutes les distributions de sujets (documents) et enfin, soit ΦRV×RT une matrice aléatoire représentant l’ensemble de toutes les distributions de mots (sujets), c.-à-d. ϕ=[ϕ1,...,ϕT]. Il s’ensuit que si la te entrée d’un sujet donné, par exemple zij est 1, alors :

Équation 1 : ϕt=Φ·zij

D'après la notation ci-dessus, la distribution conjointe peut être définie comme suit :

Équation 2 : p(W,Z,Θ,Φ|α,β)=p(Φ|β)j=1|D|p(θj|α)i=1Njp(zij|θj)p(wij|Φ,zij)

Étant donné que l’une des hypothèses du modèle est que les distributions de sujets sont conditionnellement indépendantes par rapprt à β, la forme suivante est équivalente :

Équation 3 : p(W,Z,Θ,Φ|α,β)=t=1Tp(ϕt|β)j=1|D|p(θj|α)i=1Njp(zij|θj)p(wij|Φ·zij)

Maintenant que le modèle est spécifié, le processus de génération peut sembler plus clair en pseudo-code. D’après la distribution conjointe, le processus génératif se déroule comme suit :

Étant donné : V, T, |D|,α,β
pour t[1,...,T ]  effectuer
ϕt~Dir(β)
fin
Φ[ϕ1,...,ϕT]
pour j[1,...,|D|] effectuer
θj~Dir(α)
pour i[1,...,Nj] effectuer
zij~Mutinomial(θj)
wij~Mutinomial(Φzij)
fin
fin

Notons que T, le nombre de sujets, est fixe et que le fait d’être fixe est en fait une hypothèse et une exigence du modèle; cela implique également, dans le contexte bayésien, que T est un paramètre du modèle et non pas une variable latente. Cette différence est loin d’être négligeable, comme le montre la section sur l’inférence.

Il est important de distinguer l’allocation de Dirichlet latente d’un simple modèle de groupement Dirichlet-multinomial. Un modèle de groupement Dirichlet-multinomial comporterait un modèle à deux niveaux dans lequel on échantillonne un Dirichlet une fois pour un corpus, une variable de groupement multinomiale est sélectionnée une fois pour chaque document dans le corpus, et un ensemble de mots est sélectionné pour le document, conditionnel à la variable de groupement. Comme dans de nombreux modèles de groupement, un tel modèle restreint le document à être associé à un seul sujet. En revanche, la LDA comporte trois niveaux et, notamment, le nœud de sujet est échantillonné de façon répétée dans le document. Selon ce modèle, les documents peuvent être associés à plusieurs sujetsNote de bas de page 1.

Inférence

L’inférence avec la LDA équivaut à une ingénierie inverse du processus génératif décrit dans la section précédente. Quand le processus génératif passe d’un sujet à un mot, l’inférence a posteriori ira donc d’un mot à un sujet. Avec la LDA, nous supposons que Θ,Φ et Z sont des variables latentes plutôt que des paramètres de modèle. Cette différence a des conséquences drastiques sur la façon dont les quantités d’intérêt sont inférées, celles-ci étant les distributions Θ et Φ. En revanche, si Θ et Φ étaient modélisées comme des paramètres, on pourrait utiliser l’algorithme espérance-maximisation (EM) pour trouver l’estimation du maximum de vraisemblance (EMV). Après la convergence de l’algorithme EM, on récupère les paramètres appris pour atteindre l’objectif consistant à trouver les sujets abstraits dans le corpus. L'algorithme EM fournit des estimations ponctuelles du paramètre du modèle en marginalisant les variables latentes. Le problème est que les quantités d’intérêt sont marginalisées et que l’estimation ponctuelle ne serait pas fidèle à la méthode de l’inférence bayésienne. Pour une véritable inférence bayésienne, l’accès à la distribution a posteriori des variables latentes Θ,Φ et Z serait nécessaire. Ensuite, cette distribution a posteriori est examinée et quelques difficultés de calcul qui contribueront à motiver une approche d’inférence seront soulignées.

La distribution a posteriori est de la forme suivante :

Équation 4 : p(Z,Θ,Φ|W,α,β)=p(W,Z,Θ,Φ| α,β)p(W| α,β)

Penchons-nous de plus près sur le dénominateur :

Équation 5 : p(W|α,β)=Φp(Φ|β)Θp(Θ|α)Zp(Z|Θ)p(W|Z,Φ)dΘdΦ

L’équation (5) est connue sous le nom de preuve et agit comme une constante de normalisation. Pour calculer la preuve, il faut calculer une intégrale de grande dimension sur la probabilité conjointe. Comme le montre l’équation (5), le couplage de Θ et Φ les rend inséparables dans la sommation et, par conséquent, cette intégrale est au moins exponentielle dans dim(Θ)×dim(Φ), ce qui la rend insoluble. L'insolvabilité de l’intégrale de la preuve est un problème courant de l’inférence bayésienne, qu’on appelle problème d’inférenceNote de bas de page 1. L’inférence et la mise en œuvre de la LDA diffèrent dans la façon dont elles résolvent ce problème.

Inférence variationnelle

Dans l'apprentissage automatique moderne, l'inférence (bayésienne) variationnelle (IV) sert le plus souvent à déduire la distribution conditionnelle sur les variables latentes compte tenu des observations et des paramètres. C'est aussi ce qu'on appelle la distribution a posteriori sur les variables latentes (équation (2)). À un niveau élevé, l'IV est simple : l'objectif est d'obtenir une approximation de la distribution a posteriori insoluble avec une distribution qui provient d'une famille de distributions tractables. Cette famille de distributions tractables est ce qu'on appelle les distributions variationnelles (à partir du calcul variationnel). Une fois que la famille de distributions est spécifiée, on obtient une approximation de la distribution a posteriori en trouvant la distribution variationnelle qui optimise une certaine mesure entre elle-même et la distribution a posteriori. Une des mesures servant couramment à mesurer la similarité entre deux distributions est la divergence de Kullback-Leibler (KL) qui est définie comme suit :

Équation 6 : KL(q||p)=Ezlogq(z)p(z|x)=zq(z)logq(z)p(z|x)

q(·) et p(·) sont les distributions de probabilité sur le même support. Dans l’article original sur l’allocation de Dirichlet latenteNote de bas de page 1, les auteurs proposent une famille de distributions ayant la forme suivante :

Équation 7 : q(W,Z,Θ,Φ|λ,π,γ)=t=1TDir(ϕt|λt)j=1|D|Dir(θj|γj)i=1NjMulti(zij|πij)

λ,π et γ sont des paramètres variationnels libres. Cette famille de distributions est obtenue par découplage de Θ et Φ (ce couplage est ce qui a mené à l’insolvabilité), ce qui rend les variables latentes conditionnellement indépendantes sur les paramètres variationnels. Ainsi, l’inférence approximative est réduite au problème d’optimisation déterministe suivant :

Équation 8 : λ*,π*,γ*=argminλ,π,γ KL(q||p)

p est la distribution a posteriori d’intérêt et dont l’approximation finale est obtenue par :

Équation 9 : q(W,Z,Θ,Φ|λ*,π*,γ*)

Dans le contexte du problème, le problème d’optimisation de l’équation (8) est mal posé puisqu’il nécessite p(·) et que l’approximation de p(·) est le problème d’inférence initial. Il est facile de démontrer ce qui suit :

Équation 10 : Ezlogp(z,x)q(z)=-KL(q||p)+logp(x)

Équation 11 : Soit   L=Ezlogp(z,x)q(z) 

L est appelée ELBO (Evidence Lower Bound, borne inférieure de la preuve) et bien qu’elle dépende de la vraisemblance, elle n'a pas de p(·) et est donc tractable. Par conséquent, le problème d’optimisation de l’équation (8) équivaut au problème d’optimisation suivant :

Équation 12 : λ*,π*,γ*=argmaxλ,π,γL

Ainsi, l’inférence dans la LDA maximise l’ELBO sur une famille de distributions tractables pour donner une approximation de la distribution a posteriori. En général, on met en œuvre une méthode d’optimisation stochastique pour surmonter la complexité du calcul, en particulier la méthode de descente par coordonnée stochastique. De plus amples détails sur l’analyse de l’IV sont fournis dansNote de bas de page 1, les sections 5.2, 5.3 et 5.4 deNote de bas de page 1 et la section 4 deNote de bas de page 4.

Modélisation thématique dynamique

La modélisation thématique dynamique désigne l’introduction d’une dimension temporelle dans une analyse de modélisation thématique. En particulier, la modélisation thématique dynamique dans le cadre du présent projet fait référence à l’étude de l’évolution dans le temps de sujets donnés. Le projet vise à analyser des sujets fixes sur un intervalle de temps donné. Étant donné que les documents provenant de la BCDCML ont une estampille temporelle naturelle, à savoir la date du décès (DDD), ils constituent un moyen canonique de diviser l’ensemble de données complet en plusieurs corpus couvrant chacun un intervalle de temps. Une fois les données divisées, on peut appliquer la LDA à chaque corpus. Il est ensuite possible d’analyser l’évolution de chaque sujet dans le temps.

L’un des défis de cette méthode dynamique réside dans la mise en correspondance de sujets à partir de deux fenêtres de temps adjacentes. En raison de la nature stochastique du problème d’optimisation à l’étape de l’inférence, chaque fois qu’une instance de la LDA est exécutée, l’ordre des sujets abstraits qui en résultent est aléatoire. Plus précisément, si l'on a deux fenêtres de temps adjacentes indexées par t et t-1 et un sujet fixe indexé par i, comment peut-on s’assurer que le ie sujet au temps t donné correspond au ie sujet au temps t-1? Pour répondre à cette question, il est possible de construire des lois a priori de sujets pour le temps t en utilisant les paramètres de sujets appris lors du temps t-1. Pour mieux comprendre le mécanisme, le terme « a priori » renvoie aux paramètres des distributions a priori et non aux distributions elles-mêmes; de même, il désigne les quantités qui sont proportionnelles à l’emplacement (espérance) des distributions antérieures. Dans cette configuration, la loi a priori de sujet β peut être représentée par une matrice de sorte que l’entrée βij soit la loi a priori du ie terme étant donné le je sujet. Notons que sans information a priori ou connaissance de domaine sur Φij, le paramètre de probabilité du ie terme étant donné le je sujet, une loi a priori uniforme serait imposée en faisant de β une constante et serait donc représentée minimalement par un scalaire. Chaque fois que β est constant, la loi de Dirichlet qui en résulte est symétrique et on dit qu’elle a une loi a priori symétrique, qui est la constante. Supposons qu’au temps t-1 nous avons appris la matrice des paramètres de sujet Φt-1, avant d’apprendre Φt nous imposerons une loi a priori βt sous la forme suivante :

Équation 13 : β(t)=ηΦ(t-1)+(1-η)β(0)
  β(0)=1V1V1V1V  et  η[0,1]

La matrice Φt-1 sert de loi a priori informative pour Φt, ce qui implique essentiellement qu’on suppose que les distributions de sujets provenant de fenêtres de temps adjacentes sont semblables en un sens. β0 sert de loi a priori uniforme non informative, cette matrice lisse essentiellement l’information pointue de Φt-1. Parce que le vocabulaire évolue également au fil du temps, ce qui signifie que certains mots sont ajoutés et d'autres supprimés du vocabulaire à mesure que le modèle voit de nouveaux corpus, il faut en tenir compte dans la loi a priori. Il est nécessaire de s’assurer que tout sujet non encore appris est susceptible d’inclure un nouveau mot même si, dans les fenêtres temporelles précédentes, ce même sujet avait une probabilité de 0 d’inclure ce mot. L’introduction de β0 avec une valeur non nulle de η garantit que tout nouveau mot a une probabilité non nulle d’être repris par un sujet en évolution.

On dit qu’une distribution de Dirichlet avec une valeur non constante de β a une loi a priori non symétrique. En général, la littérature recommande de ne pas utiliser de lois a priori non symétriquesNote de bas de page 5 puisqu’il est habituellement déraisonnable de supposer qu’il y a suffisamment d’information a priori sur les distributions de mots dans des sujets inconnus. Notre cas est différent. Il est raisonnable de supposer que des corpus de temps adjacents ont en commun un certain niveau d’information sur la distribution de mots et, pour mieux justifier cette loi a priori, un chevauchement entre les corpus adjacents sera imposé. Supposons que Dt-1 et Dt sont des corpus respectivement au temps t-1 et t, essentiellement, la condition suivante sera imposée :

Équation 14 : D(t-1)D(t)

La proportion de chevauchement est contrôlée par un hyperparamètre défini au préalable. Soulignons que le chevauchement renforce l’hypothèse selon laquelle βt est une loi a priori raisonnable pour Φt. Cependant, on pourrait toujours raisonnablement supposer que cette loi a priori est raisonnable, même si les corpus ne se chevauchaient pas, puisque Dt-1 et Dt seraient assez proches dans le temps et auraient alors en commun un certain niveau d’information pour ce qui est de la distribution de mots.

Date de modification :

Initiative de démocratisation des données

L'Initiative de démocratisation des données (IDD) est un partenariat entre les établissements d'enseignement postsecondaire et Statistique Canada qui vise à améliorer l'accès aux ressources de données. Ce programme axé sur l'utilisateur renforce les capacités statistiques et le leadership grâce à une formation à l'accès aux microdonnées et d’un soutien à une collection de données de recherche en expansion constante.

Ce service par adhésion offre aux étudiants et aux membres de la facuté l'accès à la Collection de fichiers de microdonnées à grande diffusion (FMGD) de Statistique Canada et aux livres des codes de fréquence « 0 » des fichiers maîtres. Un accès illimité à toutes les microdonnées et à la documentation est offert par l'entremise du service de Transfert électronique de fichiers (TEF) de Statistique Canada et d'une base de données en ligne à accès restreint par Protocole Internet (IP) dotée d'un outil de découverte convivial. Certains fichiers sont également disponibles gratuitement sur le site Web de Statistique Canada. Divers fournisseurs de données secondaires réorganisent les données sélectionnées de Statistique Canada dans leurs propres répertoires de données de recherche, dont Abacus, ODESI et CHASS.

L'adhésion est offerte aux institutions académiques canadiennes.

Renseignements et ressources

Données

Projets et ensembles de données

Communauté d'utilisateurs

Établissements participants et personnes-ressources

Gouvernance

Comités et documentation

Formation et activités

Séances de formation, guides de l'utilisateur, webinaires et activités

Frais

Coûts liés au programme

Processus de demande et lignes directrices

Processus de demande et lignes directrices

À propos de l'accès

Historique du programme

Foire aux questions

Foire aux questions

Coordonnées

Si vous avez des questions ou des commentaires

Formation et événements - IDD

Calendrier des évènements

Le calendrier contient la liste des séances de formation régionales, des webinaires et des événements de l'Initiative de démocratisation des données (IDD) qui auront lieu ultérieurement.

Rencontres et formations

La prochaine rencontre des Membres du Comité consultatif externe aura lieu :

  • 13 mai, 2024
  • 7 octobre, 2024
  • 2 décembre, 2024
  • 10 février, 2025

La prochaine formation nationale de l'IDD aura lieu dans la semaine du 27 Mai, 2024.

Dites-nous ce que vous souhaitez pour la prochaine formation nationale. Transmettez vos idées à votre coordonnateur régional de la formation.

Consultez les Archives des événements pour obtenir des détails sur les événements de formation DLI passés.

Matériel de formation

Trousse de survie de l'IDD
Cette trousse sert de guide de référence aux personnes-ressources de l'IDD désignées par les établissements qui participent au programme à l'échelle du Canada.

Dépôt des documents de formation de l'IDD
Le dépôt des documents de formation contient des présentations tirées des séances de formation et des ateliers sur l'IDD. Il contient également d'autres présentations et ateliers connexes accessibles à l'échelle nationale et internationale.

Trousse de survie de l'IDD

 

Trousse de survie (PDF, 411.67 Ko)

  • Vue d'ensemble

    Vue d'ensemble

    À propos du programme

    L'Initiative de démocratisation des données (IDD) est un partenariat entre les établissements d'enseignement postsecondaire et Statistique Canada qui vise à améliorer l'accès aux ressources en matière de données. L'IDD est un programme qui s'inscrit dans le continuum des services et des produits d'accès aux microdonnées de Statistique Canada. Au fil des ans, l'orientation du Programme de l'IDD a évolué pour passer de l'achat d'un accès aux principaux ensembles de données recueillies par Statistique Canada à la prestation de services de formation et de soutien continus nécessaires à la compréhension et à l'utilisation efficaces d'une collection de données sans cesse grandissante. Pour obtenir de plus amples renseignements, notamment sur les avantages de l'abonnement à l'IDD et sur l'histoire du programme, veuillez visiter le site Web de l'IDD.

    Rôle de la personne-ressource de l'IDD

    En tant que personne-ressource de l'IDD pour votre établissement d'enseignement (un rôle partagé par un réseau de personnes-ressources à l'échelle du Canada), vous avez un rôle essentiel dans la promotion de l'accès aux ressources en matière de données canadiennes.

    En général, les personnes-ressources de l'IDD fournissent de l'aide pour trouver, consulter et analyser les données et les produits de Statistique Canada. Bien qu'elles ne soient pas toujours des expertes en logiciels statistiques et en analyse de données, les personnes-ressources peuvent aiguiller les utilisateurs vers d'autres personnes dans leur établissement d'enseignement ou dans la communauté de l'IDD (par l'intermédiaire du serveur de liste) qui peuvent aider à répondre à des questions d'ordre technique ou méthodologique.

    Les personnes-ressources de l'IDD ont les responsabilités suivantes :

    • Soutien aux utilisateurs : Les personnes-ressources de l'IDD aident les membres du corps professoral, le personnel et les étudiants à utiliser les ressources de Statistique Canada.
    • Licences : Les personnes-ressources de l'IDD veillent à ce que les conditions d'utilisation des ententes de licence de l'IDD soient respectées dans leurs établissements.
    • Renouvellement d'abonnement : Les personnes-ressources de l'IDD s'assurent que les frais d'adhésion annuels sont payés.
    • Liaison : Les personnes-ressources de l'IDD communiquent avec les établissements membres par l'intermédiaire de leur réseau de contacts. Ces communications ont trait aux modifications dans les licences, aux mises à jour dans les services aux membres, et aux séances de sensibilisation et de perfectionnement professionnel.
    • Accès : Les personnes-ressources de l'IDD s'assurent que le programme obtient les domaines de propriété intellectuelle (PI) actuels de l'établissement afin de maintenir l'accès aux ressources en fonction de la PI.
    • Gouvernance : Les personnes-ressources de l'IDD peuvent être appelées à voter pour leur coordonnateur régional de la formation (CRF) si plus d'un candidat se présente pour un poste à combler.

    Outre le recensement tous les cinq ans, Statistique Canada mène un large éventail d'enquêtes qui portent sur presque tous les aspects de la vie canadienne. Statistique Canada offre l'accès à ces données pour le soutien de la recherche, de l'industrie et de l'élaboration de politiques. Une compréhension de certains concepts de base relatifs aux données permettra de déterminer les produits offerts et les programmes par l'entremise desquels on peut y accéder.

    Terminologie relative aux données

    Données agrégées

    Renseignements provenant directement de fichiers de microdonnées statistiques ou de fichiers statistiques agrégés. Contrairement aux fichiers de microdonnées statistiques, les statistiques agrégées ne comprennent pas d'information au niveau des unités individuelles d'observation. Autrement dit, elles sont le résultat d'un regroupement des données à un niveau agrégé ou macro (p. ex. personnes dans un groupe d'âge particulier, entreprises ou organisations dans une industrie particulière, ou ménages dans une région particulière).

    Fichier de microdonnées

    Un fichier structuré contenant des renseignements sur des personnes, des entreprises ou des organisations. Un fichier de microdonnées peut être le résultat d'un recensement de toutes les unités ou uniquement d'un échantillon d'unités. En outre, le fichier peut être le produit de la collecte directe à des fins statistiques ou un fichier administratif où les utilisations statistiques ne représentent pas l'objectif principal de la collecte, ou bien une combinaison des deux.

    Il y a trois types de fichiers de microdonnées :

    • Fichiers-maîtres : Pour chaque enquête menée, on crée un fichier principal qui renferme toutes les réponses de chaque répondant, consignées sous la forme précisée dans le questionnaire. Les fichiers principaux ne sont accessibles que par l'entremise des centres de données de recherche (CDR) sur demande.
    • Fichiers synthétiques : Fidèle à son souci d'offrir de nouvelles possibilités d'accès, Statistique Canada investit dans la recherche de méthodes de création de données synthétiques. Ces données peuvent prendre diverses formes et présenter différentes caractéristiques de qualité, mais visent toujours à offrir une possibilité d'accès aux microdonnées sans autre risque de divulgation, d'où une diffusion grand public.
    • Fichiers de microdonnées à grande diffusion (FMGD) : Les FMGD sont des ensembles d'enregistrements qui contiennent des renseignements sur des personnes ou des ménages (microdonnées). Il s'agit de données non agrégées qui sont soigneusement modifiées puis examinées pour s'assurer qu'aucune personne ou entreprise n'est identifiée directement ou indirectement.

    Documentation

    Statistique Canada publie des documents qui accompagnent ses fichiers de microdonnées. Cette documentation est nécessaire pour utiliser et interpréter les fichiers de microdonnées, et peut notamment inclure des questionnaires d'enquête, des instructions aux intervieweurs, des livres de codes, des guides de l'utilisateur, des clichés d'enregistrements, des dictionnaires de données, des fichiers de fréquences et des tableaux de c.v.

    Données administratives

    Les données administratives sont des renseignements recueillis par les organisations des secteurs public et privé dans le cadre de leurs activités courantes, par exemple, les certificats de naissance et de décès, les dossiers fiscaux, les registres des mouvements des biens et des personnes aux frontières, et les données recueillies par les satellites. Comme la plupart des autres organismes de statistique, Statistique Canada utilise des données administratives en remplacement ou en plus des données d'enquête et à l'appui des opérations statistiques.

    Ressources à consulter pour la terminologie relative aux données

    • Définitions, sources de données et méthodes de Statistique Canada : Ces renseignements servent à mieux faire comprendre les concepts de base servant à définir les données incluant les variables et les classifications, les méthodes statistiques et les enquêtes, et les principaux aspects de la qualité des données. Ce module fournit également un accès direct aux questionnaires.
    • Les statistiques : le pouvoir des données! Glossaire : Ces définitions visent à renseigner ceux qui ont des questions concernant les statistiques, mais qui n'ont pas besoin d'une définition hautement technique.

    Continuum de l'accès aux microdonnées

    L'accès aux microdonnées est offert par l'entremise d'une série de canaux de diffusion.

    Le tableau suivant présente les canaux de diffusion offerts pour les données agrégées et les microdonnées.

      Site Web de Statistique Canada Initiative de démocratisation des données Ventes de produits et totalisations personnalisées Système d'accès à distance en temps réel (ADTR) Centres de données de recherche
    Qui peut avoir accès aux données Grand public Étudiants, membres du corps professoral et personnel des établissements d'enseignement postsecondaire membres Membres individuels d'organisations Membres individuels d'organisations, étudiants de niveau postsecondaire, gouvernements membres Chercheurs approuvés (membres individuels d'organisations, étudiants de niveau postsecondaire, gouvernements)
    Conditions Licence ouverte de Statistique Canada La majorité des produits font partie de la Licence ouverte de Statistique Canada. L'accès aux produits ne faisant pas partie de la licence ouverte est réservé à des fins statistiques, d'enseignement et de recherche. Veuillez consulter le module Processus de demande et lignes directrices pour obtenir de plus amples renseignements. Confirmation d'achat entre Statistique Canada et les membres individuels d'une organisation Entente ADTR et licence ouverte de Statistique Canada Statut de personne réputée être employée de Statistique Canada
    Données disponibles Produits de données normalisés et publications électroniques Produits de données normalisés, fichiers de microdonnées à grande diffusion, produits de données sur les codes postaux, etc. Tableaux tirés de fichiers confidentiels qui font l'objet d'un traitement spécial par Statistique Canada moyennant des frais. Fichier de microdonnées « fictives » pour différents ensembles de données administratives et d'enquête sociale, qui fournissent des extrants sous forme de tableaux statistiques. Fichiers de microdonnées et ensembles de données administratives confidentielles
    Mode d'accès Disponibles sur Internet
    • Service de transfert électronique de fichiers
    Totalisation personnalisée remise au client Service de transfert électronique de fichiers Un centre de données de recherche sécurisé

    Les enquêtes et programmes statistiques n'engendrent pas tous des produits de données. Bon nombre de divisions ne créent pas de FMGD parce qu'ils sont coûteux à produire et qu'ils doivent être approuvés par le Comité de la diffusion des microdonnées (contrôle de confidentialité des microdonnées à Statistique Canada). Certaines divisions créent uniquement des tableaux standards accessibles par l'entremise du site Web de Statistique Canada et imposent des frais d'extraction pour les demandes plus approfondies (p. ex. les totalisations personnalisées). Bien que les données puissent être librement accessibles, des frais de recouvrement des coûts s'appliqueront au temps accordé par l'analyste.

    Gouvernance

    Comité consultatif externe

    L'Initiative de démocratisation des données est orientée par son Comité consultatif externe (CCE). Le CCE est composé de représentants désignés des établissements membres de l'IDD, de Statistique Canada et d'organisations externes. Il se réunit deux fois par année. Pour la liste à jour des membres du CCE de l'IDD, consultez la section Gouvernance du site Web de l'IDD.

    Comité de développement professionnel

    Le Comité de développement professionnel (CDP) de l'IDD, qui relève du CCE, est responsable du développement continu d'un programme d'études en services de données pour les membres du personnel postsecondaire qui soutiennent l'IDD à leurs établissements d'enseignement. Le CDP comporte huit CRF, un représentant collégial, un président et un représentant de la section de l'IDD. Pour la liste à jour des membres du CDP, consultez la section Gouvernance du site Web de l'IDD.

    Coordonnateurs régionaux de la formation

    Deux coordonnateurs régionaux de la formation pour chacune des quatre régions (Canada atlantique, Québec, Ontario et Ouest canadien) et un représentant collégial font partie du CDP-IDD et ont pour responsabilités

    • de cerner les besoins en matière de formation dans leur région;
    • de communiquer ces besoins au CDP dans le but d'établir le budget qui sera accordé à la formation et à la coordination des activités de formation à l'échelle nationale;
    • d'organiser les activités de formation locales;
    • d'élaborer le programme de formation de leur région.

    Personne-ressource de l'IDD

    Les établissements membres désignent leur personne-ressource de l'IDD et un remplaçant. La personne-ressource de l'IDD a la responsabilité de promouvoir et de faciliter l'accès aux ressources de Statistique Canada, et de s'assurer que la licence de l'IDD est respectée. Consultez la section Gestion de votre adhésion ci-dessous pour obtenir de plus amples renseignements sur la licence de l'IDD.

    Les établissements membres ont l'obligation de désigner une personne-ressource, mais la sélection d'un remplacement est facultative. La personne-ressource de l'IDD et son remplaçant doivent se familiariser avec l'IDD et les ressources de Statistique Canada afin de pouvoir aider les utilisateurs ayant des questions reliées aux données. En outre, il est recommandé que la personne-ressource de l'IDD se familiarise avec les ressources offertes sur le campus, notamment l'utilisation d'un logiciel statistique afin d'aider les utilisateurs qui ont des questions liées aux données si elle n'a pas déjà acquis ces compétences.

    Consultez la rubrique Communauté d'utilisateurs pour une liste des personnes-ressources à chaque établissement membre.

    Modifier une personne-ressource de l'IDD

    Si la personne-ressource de l'IDD change dans votre établissement, veuillez en aviser la section Accès libre-service. Les coordonnées de la personne-ressource de l'IDD doivent être mises à jour si la personne-ressource de l'IDD actuelle s'absente pour un congé prolongé (sabbatique, congé de maternité). Assurez-vous de préciser la date à laquelle le changement sera en vigueur, le nom de la nouvelle personne-ressource, le titre de son poste, son adresse postale, son adresse de courriel, son numéro de téléphone et son numéro de télécopieur.

  • Gestion de votre adhésion

    Gestion de votre adhésion

    Lorsqu'une personne-ressource de l'IDD est identifiée, elle obtient l'accès aux ressources de l'IDD, y compris au service de transfert électronique de fichiers (TEF) et à la liste d'envoi (dlilist).

    Mot de passe du service de transfert électronique de fichiers

    Le site TEF de l'IDD est un référentiel utilisé pour la diffusion de la collection de l'IDD. L'utilisation du TEF est limitée aux personnes-ressources et à leurs remplaçants désignés. Chaque utilisateur du TEF doit avoir son propre code d'utilisateur et son mot de passe. Lorsqu'une nouvelle personne-ressource est identifiée, la section de l'IDD envoie les renseignements du compte TEF par courriel. Pour demander une réinitialisation du mot de passe, veuillez communiquer avec la section Accès libre-service.

    dlilist

    Les personnes-ressources de l'IDD utilisent le serveur de liste de l'IDD pour obtenir des renseignements sur la collection et les licences d'utilisation des données de l'IDD, et fournir des commentaires sur les produits et services de Statistique Canada.

    La dlilist est un serveur de liste disponible par abonnement, ce qui signifie que seuls les utilisateurs inscrits peuvent publier ou recevoir des messages. Les messages de la liste sont envoyés à tous les utilisateurs inscrits par courriel.

    La page d'accueil du serveur de liste est accessible.

    Si vous tentez de vous connecter hors campus, vous devrez utiliser un RPV.

    Abonnement et désabonnement

    Avis de non-responsabilité

    La dlilist est un serveur de liste auquel l'adhésion est facultative. En utilisant ce service, vous acceptez que votre adresse électronique et que vos communications soient accessibles par les autres utilisateurs de la dlilist. Toutes les communications seront consignées dans les archives de la liste d'envoi de Statistique Canada. Les opinions exprimées dans ces communications sont celles des utilisateurs de la dlilist et ne représentent pas celles de Statistique Canada.

    Archives de la dlilist

    Les messages de la dlilist sont consignés et conservés dans des archives protégées et consultables auxquelles les personnes-ressources de l'IDD peuvent accéder.

    2014 à aujourd'hui : archives dlilist

    Renouvellement d'abonnement

    L'abonnement annuel à l'IDD est valide du 1er avril au 31 mars de l'année suivante.Les abonnements à l'IDD sont renouvelés chaque année entre avril et juin.

    Il incombe aux personnes-ressources de l'IDD de s'assurer que les cotisations annuelles obligatoires sont payées. Certains établissements membres confient la tâche de payer la cotisation obligatoire à un service particulier de leur bibliothèque. D'autres font envoyer les factures à la personne-ressource de l'IDD qui coordonne le paiement à l'interne. Pour modifier la personne à laquelle la confirmation d'achat et la facture doivent être envoyées, veuillez communiquer avec la section Facturation.

  • Apprentissage

    Apprentissage

    Séances de formation

    L'IDD tient annuellement une séance de formation dans chacune de ses quatre régions : Canada atlantique, Québec, Ontario et Ouest canadien. Ces séances de plusieurs jours sont ouvertes à quiconque offre des services pour l'IDD. Toutefois, la priorité est accordée aux personnes-ressources de l'IDD et à leurs remplaçants. L'IDD organise une séance de formation nationale tous les quatre ans environ (généralement en conjonction avec la tenue de la conférence de l'IASSIST au Canada). Toute la communauté de l'IDD peut se rencontrer à cette occasion.

    Les coordonnateurs régionaux de la formation ont la responsabilité d'organiser la formation dans chacune de leurs régions avec le soutien de la section de l'IDD. Les séances portent sur différents sujets allant des compétences de base en matière de services de données à des séances avancées donnant suite aux formations précédentes. Ces séances de formation permettent aux personnes-ressources de l'IDD d'apprendre les unes des autres et auprès des spécialistes de Statistique Canada.

    Subventions de voyage

    Un soutien financier pour le transport vers le lieu de la formation est offert à chacune des personnes-ressources de l'IDD ou à leur représentant pour leur permettre de participer à une séance de formation par exercice financier. Toutes les demandes de voyage doivent être approuvées par la section de l'IDD avant que les réservations ne soient effectuées. Si une personne-ressource ou son remplaçant fait une communication lors d'une séance, des fonds supplémentaires peuvent être disponibles. Pour obtenir de plus amples renseignements, consultez la section Gouvernance du site Web de l'IDD.

    Initiative de formation sur la littératie des données de Statistique Canada

    L'initiative de formation sur la littératie des données fournit une foule de ressources destinées à ceux qui s'initient aux données ou à ceux qui ont une certaine expérience des données, mais qui pourraient avoir besoin d'une mise à jour ou qui veulent élargir leurs connaissances. L'objectif est de fournir aux apprenants les concepts et les compétences de base sur un éventail de sujets liés à la littératie des données, y compris Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données et Types de données : Comprendre et explorer les données.

    Bulletin de la Division de l'accès aux données (DAD)

    Le Bulletin de DAD a pour but d'informer les abonnés et les utilisateurs sur les initiatives en cours dans la division. Il fournit des mises à jour sur les projets de l'IDD et les initiatives locales liées aux données et de modernisation, de même que toutes les mises à jour sur nos autres modes d'accès aux données, comme l'ADTR et les CDR.

    Les commentaires, idées et propositions d'articles sur l'IDD pour les prochains numéros du bulletin sont les bienvenus. Veuillez les envoyer à la section Accès libre-service.

    Dépôt des documents de formation

    Le dépôt des documents de formation de l'IDD contient les ateliers tirés des séances de formation sur l'IDD ainsi que des conférences. La section de l'IDD a la responsabilité de téléverser les présentations et les documents au dépôt après chaque séance de formation. Ces documents sont accessibles à quiconque désire les consulter et les télécharger.

    Pour obtenir de plus amples renseignements sur le dépôt des documents de formation, visitez la page Web du dépôt. Pour obtenir de plus amples renseignements sur l'historique du dépôt des documents de formation, veuillez consulter la présentation intitulée Creating a Repository of Training Materials : The Canadian Experience par Jane Fry de l'université Carleton (en anglais seulement).

    Data Interest Group for Reference Services (en anglais)

    Le contenu diffusé par le Data Interest Group for Reference Services (groupe d'intérêt sur les données à des fins de services de référence) (DIGRS) porte principalement sur les questions et les réponses publiées depuis 2004 jusqu'à aujourd'hui sur le serveur de liste de l'IDD. Le contenu est présenté de façon conviviale et on peut extraire l'information par mot-clé, par date ou par catégorie.

    Citation des données

    L'importance de citer les données

    Les références bibliographiques sont importantes lorsqu'on utilise les données ou les idées d'une autre personne dans son propre texte. Elles attribuent le mérite aux auteurs desquels on emprunte le contenu et permettent aux lecteurs de trouver les sources utilisées. Des renseignements supplémentaires sont disponibles ici : Comment citer les produits de Statistique Canada.

  • Accès

    Accès

    En quoi consiste la collection de l'IDD?

    La collection de l'IDD se compose principalement de produits standards de Statistique Canada, y compris les FMGD, les tableaux de données agrégées et les fichiers de limites. Les collections sous licence comprennent des échantillons de fichiers de la Base de données sur les congés des patients (BDCP) de l'Institut canadien d'information sur la santé (ICIS), des produits de données sur les codes postaux de Postes Canada, et la Base de données et Modèle de simulation des politiques sociales (BD/MSPS).

    Site de transfert électronique de fichiers

    À propos du site

    Le site de TEF de l'IDD est l'entrepôt de données de la collection de l'IDD. Pour garantir la protection absolue des fichiers de données, le service de TEF exige que chaque utilisateur ait son propre code d'utilisateur et mot de passe.

    Le service de TEF prend en charge un protocole de transfert de fichiers (FTP) standard pour l'envoi et la réception des fichiers. Les personnes-ressources de l'IDD auront besoin d'une application FTP comme WS_FTP ou FileZilla pour accéder au site de TEF.

    Comprendre la structure des répertoires

    La collection de TEF de l'IDD contient cinq sous-répertoires, qui sont présentés dans le tableau ci-dessous. Certaines personnes-ressources de l'IDD pourraient ne pas voir tous les répertoires si leur établissement n'a pas signé pour obtenir les licences de l'IDD appropriées (p. ex. fichier de conversion des codes postaux [FCCP] ou BD/MSPS).

    . Readme-Key_Lisezmoi-cle.xls énumère tous les FMGD par date, acronyme et numéro d'enregistrement de l'enquête pour faciliter la consultation des fichiers de données.

    . Other-products_autres-produits.xls énumère tous les fichiers de données agrégées par date, acronyme et numéro d'enregistrement de l'enquête pour faciliter la consultation des fichiers de données.

    Nom du coffre Contenu Licence
    MAD_PUMF_FMGD_DAM Fichier de microdonnées et métadonnées d'enquête à grande diffusion, organisés selon le numéro d'enregistrement, l'acronyme et l'année de l'enquête Entente de licence ouverte de Statistique Canada
    MAD_DLI_IDD_DAM Rapports annuels de l'IDD, matériel de formation de l'IDD, produits de données sur CD­ROM, fichiers de géographie, fichiers du Recensement de la population et du Recensement de l'agriculture, fichiers de données agrégées, et autres Entente de licence ouverte de Statistique Canada
    MAD-PCCF_FCCP_DAM Fichier de conversion des codes postaux, Fichier des codes postaux par circonscriptions électorales fédérales et Fichier de conversion des codes postaux plus. Section I – Accès au fichier de conversion des codes postauxMO (FCCP) : Licence FCCP
    MAD_CIHI_ICIS_DAM Base de données sur les congés des patients de l'Institut canadien d'information sur la santé Section III – Accès aux fichiers d'analyse de la base de données sur les congés des patients (BDCP) – Licence de la BDCP
    MAD_SPSDM_BDMSPS_DAM Base de données et Modèle de simulation de politique sociale Section II – Accès à la base de données et au modèle de simulation de politique sociale (BD/MSPS) : Licence BD/MSPS
    MAD_PUMF_FMGD_DAM

    Chaque année d'une enquête se retrouve habituellement dans un sous-répertoire distinct. Le deuxième niveau dans le dossier d'enquête est subdivisé en données (data) et documentation (doc). On trouve également à ce niveau le fichier « lisez-moi » (« readme ») correspondant à l'enquête. Le sous-dossier/data (données) contient un fichier de données compressé. Les données peuvent prendre la forme de microdonnées au format ASCII, SPSS, STATA ou SAS. Le sous-dossier/doc (documentation) comprend les métadonnées, c'est-à-dire l'information nécessaire à l'interprétation et à la compréhension des microdonnées.

    Par exemple :

    /MAD_PUMF_FMGD_DAM/Root/
    /3250_APS_EAPA
    /1991
    /2001
    /2001-Children
    /2006
    /age-06-14
    /age-15+
    /data
    /doc
    lisezeapa2006-age-15+.txt
    readaps2006-age-15+.txt
    /3251_PALS_EPLA

    En ce qui concerne les dossiers de l'ESG, veuillez consulter la clé TEF intitulée Readme-Key_Lisezmoi-clé.xls. Nous avons bien noté les cycles de l'ESG (la dernière colonne à droite indique les cycles connexes).

    MAD_DLI_IDD_DAM
    Dossiers des recensements

    Les dossiers des recensements sont organisés par année de recensement. La manière dont le dossier de l'année de recensement est organisé varie d'une année à l'autre. Généralement, pour le Recensement de la population, les dossiers pour une année de recensement sont organisés soit par type de données (p. ex. b2020, FMGD) soit par sujet (p. ex. main-d'œuvre, revenu). Pour le Recensement de l'agriculture, l'organisation des dossiers peut varier en fonction des types de données (p. ex. Excel), de la géographie (p. ex. petite zone, région agricole), ou des données et de la documentation. La façon la plus rapide de trouver un fichier de recensement consiste parfois à envoyer un courriel au serveur de liste pour demander où il se trouve.

    Dossier de géographie

    Le dossier de géographie est d'abord subdivisé par année de recensement. Le niveau secondaire désigne le type d'information souhaitée. Ainsi un utilisateur peut chercher des cartes de référence, des fichiers de limites, ou des produits particuliers. Le fichier lisez-moi est un outil essentiel pour naviguer dans le dossier.

    Dossier des rapports

    Le dossier des rapports contient des documents qui présentent un intérêt particulier pour les personnes-ressources de l'IDD, notamment le rapport semestriel du CCE, les bulletins de l'IDD, et les procès-verbaux des réunions du CCE et du CDP. De plus, les utilisateurs peuvent y trouver les images du nouvel identificateur graphique de l'IDD.

    Dossier Other-Autres (tableaux de données, produits sur CD-ROM)

    Le dossier Autres fournit une liste de produits de données supplémentaires organisés selon le numéro d'enregistrement ou de catalogue de l'enquête, et l'acronyme correspondant à l'enquête ou au produit. L'équipe de l'IDD a commencé à utiliser cette convention nominale pour conserver l'espace dans le serveur et harmoniser les deux langues officielles. De plus, les utilisateurs qui souhaitent obtenir des précisions sur les numéros d'enregistrement ou les acronymes sont invités à utiliser le classeur Excel enregistré dans le dossier (other-products_autres-produits.xls). Les fonctions du classeur sont essentielles pour mieux comprendre la nomenclature. Les produits CD-ROM qui se trouvent dans ce dossier sont en format compressé et peuvent être téléchargés. L'utilisateur aura parfois besoin de télécharger le contenu du CD-ROM, puis de décompresser les fichiers et de les graver sur un CD-ROM (cela sera indiqué dans le fichier lisez-moi). Bon nombre de produits ont des structures exclusives inhabituelles et doivent par conséquent être exécutés à partir d'un CD plutôt que téléchargés sur un disque dur.

    MAD_CIHI_ICIS_DAM

    Le coffre de l'ICIS comprend des fichiers d'échantillon de la Base de données sur les congés des patients (BDCP). Les données de 2009 à aujourd'hui sont actuellement accessibles dans des sous-dossiers clairement identifiés.

    MAD_PCCF_FCCP_DAM

    Le coffre du FCCP est initialement divisé selon l'année de recensement. Le second niveau de division indique le produit de données des codes postaux :

    • PCCF (dossier : pccf-fccp)
    • Fichier des codes postaux par circonscriptions électorales fédérales (dossier : pcfrf-fcpcef)
    • Fichier de conversion des codes postaux plus (dossier : pccf-fccp-plus)

    Dans chaque sous-dossier, un fichier lisez-moi fournit une description du produit et un résumé des changements apportés au produit (p. ex. depuis juin 2013, le FCCP est offert uniquement en tant que progiciel standard pour le Canada [il n'est plus offert au niveau des provinces] et est mis à jour et diffusé sur une base annuelle [précédemment diffusé deux fois l'an]). Le fichier lisez-moi indique également le titre du produit (p. ex. FCCP pour août 2015), la date de diffusion (p. ex. 12 février 2016), la fréquence de diffusion et le répertoire.

    MAD_SPSDM_BDMSPS_DAM

    En 2016, la section de l'IDD a créé le coffre BD/MSPS. Les sous-dossiers sont identifiés par version, chacun contenant ses propres fichiers d'installation et instructions. Veuillez consulter les fichiers lisez-moi intégrés dans chacun des dossiers pour obtenir plus d'information.

    Convention nominale

    Les fichiers qui se trouvent sur le site de TEF suivent une convention nominale similaire. À leur réception en provenance de la division de l'auteur, on renomme les fichiers conformément à la convention nominale de l'IDD. Par conséquent, le nom d'un fichier produit par une division spécialisée peut différer de celui du fichier conservé sur le site TEF de l'IDD.

    Les fichiers sont d'abord désignés par l'acronyme de l'enquête suivi par l'année ou le cycle de l'enquête et enfin par le type du document.

    Documents et leurs extensions

    Si un fichier est mis à jour ou remplacé par la division spécialisée, une extension supplémentaire est ajoutée pour spécifier le numéro de la version.

    • Guide de l'utilisateur de l'Enquête sur l'utilisation d'Internet à la maison de 2003 : euim2003gid.pdf
    • Questionnaire pour l'Enquête sur les dépenses des ménages de 2009 : edm2009que.pdf

    Fichiers lisez-moi

    Le fichier lisez-moi est un guide de référence rapide pour le site de TEF de l'IDD. Dans un dossier (enquête, recensement, géographie, etc.), le fichier lisez-moi fournit un aperçu du contenu de tout le dossier. Cela comprend non seulement les noms de fichiers, mais aussi les titres au long, ce qui permet aux utilisateurs d'identifier le fichier qu'ils recherchent. Pour les FMGD, le fichier lisez-moi indique aussi la taille et la longueur du fichier de données afin de pouvoir vérifier rapidement si le transfert complet a bien été effectué du site TEF à l'ordinateur de l'utilisateur.

    Extraction de fichiers à partir du site TEF

    En utilisant un logiciel FTP spécialisé, accédez au site TEF de l'IDD et ouvrez une session. Le nom de l'hôte, le code d'utilisateur et le mot de passe sont fournis par la section de l'IDD.

    Lorsque vous aurez trouvé les fichiers que vous voulez télécharger, sélectionnez-les et transférez-les sur votre ordinateur. Assurez-vous de préciser le dossier de réception sur votre ordinateur avant de commencer le transfert.

    Aussi, réglez le mode de transfert selon le type de fichier que vous transférez. Il est préférable de régler le mode de transfert à auto de façon à ce que le programme sélectionne automatiquement le mode de transfert approprié selon l'extension du fichier. En règle générale, tous les fichiers doivent être téléchargés en mode binaire sauf les fichiers portant les extensions suivantes : .txt, .sps, .sas et .dat.

    Une fois que vous avez téléchargé les fichiers de données, il faut les décompresser (dézipper) si nécessaire. Si la documentation est compressée, elle devra être décompressée.

    Si vous éprouvez des difficultés, veuillez communiquer avec la section Accès libre-service.

    Demandes de données non trouvées dans la collection de l'IDD

    Si vous identifiez un produit qui devrait selon vous faire partie de la collection de l'IDD, veuillez soumettre votre demande sur la dlilist.

    Distributeurs de données secondaires

    Computing in the Humanities and Social Sciences (CHASS)

    (abonnement institutionnel obligatoire)

    CHASS (disponible en anglais seulement) est un service informatique de la Faculté des sciences humaines et sociales de l'Université de Toronto. Il offre une collection de bases de données relatives aux sciences sociales et d'intérêt général (p. ex. les tables du Fonds monétaire international et de la Banque mondiale) ainsi que deux bases de données avec des données de Statistique Canada : Canadian census – census profile data at various levels of geography back to 1961

    Microdata analysis and subsetting with survey documentation and analysis (SDA) on CHASS

    (abonnement institutionnel obligatoire)

    CANSIM sur CHASS

    SDA @ CHASS est un ensemble de programmes pour la documentation et l'analyse Web de données d'enquête. SDA offre également des procédures pour la création de sous-ensembles personnalisés d'ensembles de données.

    Abacus Dataverse Network

    (abonnement institutionnel obligatoire)

    Abacus Dataverse Network (disponible en anglais seulement) est le dépôt de données de recherche des services de données des bibliothèques de recherche de la Colombie-Britannique. Il s'agit d'une collaboration entre les bibliothèques de données de l'Université Simon-Fraser, de l'Université de la Colombie-Britannique, de l'Université de Northern British Columbia et de l'Université de Victoria.

    Ontario Data Documentation, Extraction Service and Infrastructure Initiative (ODESI)

    (abonnement institutionnel obligatoire)

    ODESI est un référentiel numérique pour les données en sciences sociales, notamment les données de l'IDD et d'un éventail de sondages d'opinion publique. Il s'agit d'un outil Web d'exploration, d'extraction et d'analyse créé par le Scholars Portal, un service de l'Ontario Council of University Libraries (OCUL), auquel les utilisateurs autorisés des universités et des établissements membres peuvent accéder. Les métadonnées d'ODESI sont des données ouvertes accessibles de partout dans le monde.

    Scholars Portal Dataverse

    (abonnement institutionnel obligatoire)

    Scholars Portal Dataverse est un dépôt de données principalement consacré aux données de recherche recueillies par les chercheurs et les organisations et fournies par le Scholars Portal pour le compte d'OCUL et d'autres établissements participants, bien que n'importe qui peut utiliser Scholars Portal Dataverse pour déposer, partager et archiver des données.

    Données statistiques et géographiques

    Conçu par les bibliothèques universitaires du Québec, le site Données statistiques et géographiques permet d'accéder aux produits géographiques et aux données agrégées de l'IDD. L'accès aux données est réservé aux étudiants, aux professeurs et aux chercheurs des universités participantes.

    Données ouvertes – gouvernement du Canada

    Cherchez des données ouvertes sur les Canadiens, apprenez comment travailler avec des ensembles de données, et voyez ce que les gens ont fait avec les données ouvertes à travers le pays.

    Infrastructure de recherche sur le Canada au 20e siècle

    L'Infrastructure de recherche sur le Canada au 20e siècle (IRCS) est une initiative pancanadienne, multidisciplinaire et multi-institutionnelle dont l'objectif est de créer un ensemble de bases de données interreliées regroupant les données des recensements canadiens tenus entre 1911 et 1951. Le site Web du portail d'accès de l'IRCS est hébergé par l'université de l'Alberta et fournit l'accès aux microdonnées, de même qu'à un cadre géographique permettant la localisation, l'agrégation et l'analyse des données de recensement et des données contextuelles.

  • Glossaire

    Glossaire

    A

    Abacus
    Abacus Dataverse Network est le dépôt de données de recherche des services de données des bibliothèques de recherche de la Colombie-Britannique. Il s'agit d'une collaboration entre les bibliothèques de données de l'Université Simon-Fraser, de l'Université de la Colombie-Britannique, de l'Université Northern British Columbia et de l'Université de Victoria.
    Accès à distance en temps réel
    Un centre d'accès à distance en ligne qui permet aux utilisateurs abonnés d'exécuter en temps réel des programmes SAS portant sur des ensembles de microdonnées situées dans un emplacement central et sécurisé.
    ADTR
    Voir Accès à distance en temps réel.

    B

    Base de données et Modèle de simulation de politique sociale
    Un modèle de microsimulation statique disponible dans la collection de l'Initiative de démocratisation des données sous réserve d'une entente de concession de licence.
    Base de données sur les congés des patients
    La Base de données sur les congés des patients contient des fichiers analytiques de recherche sur les congés de patients des hôpitaux, y compris des codes pour les traitements et les diagnostics provenant de l'Institut canadien pour l'information sur la santé.
    BD/MSPS
    Base de données et Modèle de simulation de politique sociale.
    BDCP
    Voir Base de données sur les congés des patients.
    Bulletin de la Division de l'accès aux données
    Ce bulletin a pour but d'informer les abonnés et les utilisateurs sur les initiatives en cours dans la division.

    C

    CCE
    Voir Comité consultatif externe.
    CDR
    Voir Centre de données de recherche.
    Centre de données de recherche
    Les centres de données de recherche permettent aux chercheurs d'accéder, dans un milieu universitaire sécurisé, à des microdonnées d'enquêtes sur les ménages et sur la population.
    CHASS
    Voir Computing in the Humanities and Social Sciences.
    Cliché d'enregistrement
    Le cliché d'enregistrement fournit les noms des variables et la position de leurs colonnes dans le fichier de microdonnées.
    Comité consultatif externe
    Le premier rôle du comité consiste à conseiller l'Initiative de démocratisation des données (DLI) quant à la planification, la promotion et l'implantation des initiatives du programme de l'IDD.
    Comité de la diffusion des microdonnées 
    Le mécanisme de contrôle de la confidentialité de Statistique Canada pour la diffusion des fichiers de microdonnées.
    Comité de développement professionnel
    Le Comité de développement professionnel de l'Initiative de démocratisation des données relève du Comité consultatif externe et a pour tâche de planifier et d'élaborer un programme de formation pour les ateliers régionaux.
    Computing in the Humanities and Social Sciences
    Service informatique de la Faculté des sciences humaines et sociales de l'Université de Toronto.
    Confirmation d'achat
    Il s'agit de la confirmation d'achat fournie par Statistique Canada et acceptée par le client pour confirmer sa commande lorsque le montant total de la transaction est inférieur à 20 000 $ CAN.
    Continuum d'accès
    Un modèle de diffusion utilisé par Statistique Canada qui aide les utilisateurs à déterminer les différents niveaux d'accès aux données de Statistique Canada, dont fait partie l'Initiative de démocratisation des données.
    Coordonnateur régional de la formation
    Personne sélectionnée pour représenter sa région afin d'identifier les priorités en matière de formation et de mettre en œuvre la formation sur l'Initiative de démocratisation des données.
    CDP
    Voir Comité de développement professionnel.
    CRF
    Voir Coordonnateur régional de la formation.

    D

    Data Interest Group for Reference Services (en anglais)
    Le contenu des Data Interest Group for Reference Services, qui sont hébergés par l'Université de l'Alberta, repose d'abord sur les questions et les réponses du serveur de liste de l'IDD de 2004 à aujourd'hui.
    Dataverse de Scholars Portal
    La plateforme Dataverse de Scholars Portal est fournie par Scholars Portal pour le compte de l'Ontario Council of University Libraries et d'autres établissements participants.
    Dépôt des documents de formation
    Le Dépôt des documents de formation de l'Initiative de démocratisation des données (IDD) contient, sur plusieurs années, les documents des sessions de formation et les communications aux ateliers de l'IDD de même qu'à des conférences nationales et internationales.
    Dictionnaire de données
    Les dictionnaires de données servent à trouver des renseignements généraux sur les variables d'une enquête, le codage des variables, les alignements de valeurs manquantes et les fréquences.
    DIGRS
    Voir Data Interest Group for Reference Services.
    dlilist
    Le serveur de liste de l'Initiative de démocratisation des données (IDD) est le principal outil de communication pour la communauté IDD.
    Données
    Collection d'objets de données stockés sous forme électronique, selon une structure commune et accessible par ordinateur.
    Données administratives
    Renseignements recueillis par les organismes des secteurs public et privé dans le cadre de leurs activités courantes.
    Données agrégées
    Des statistiques organisées dans une structure de données qui sont stockées dans une base de données ou dans un fichier de données. La structure de données est fondée sur des totalisations organisées selon le temps, la géographie ou le contenu social.

    E

    Entente de licence ouverte de Statistique Canada
    L'entente de licence ouverte de Statistique Canada s'applique aux produits et services standards et personnalisés dans la collection de l'Initiative de démocratisation des données, à l'exception des fichiers des codes postaux, des fichiers de la Base de données sur les congés des patients ou de la Base de données et du Modèle de simulation de politique sociale.
    Établissements membres
    Les établissements membres sont les établissements d'enseignement postsecondaire qui adhèrent à l'Initiative de démocratisation des données.

    F

    FCCP
    Voir Fichier de conversion des codes postaux.
    Fichier de conversion des codes postaux
    Un fichier de données numériques permettant la correspondance entre les six caractères d'un code postal et les unités géographiques pour lesquelles des données du recensement et des statistiques sont produites.
    Fichier de microdonnées à grande diffusion
    Un fichier-maître qui a été modifié pour réduire au minimum la possibilité de divulgation de l'identité d'un répondant.
    Fichier lisez-moi
    Un guide de référence rapide sur le site de transfert électronique de fichiers de l'Initiative de démocratisation des données qui fournit une ventilation du contenu d'un dossier.
    Fichiers de commandes
    Ils définissent le fichier de microdonnées en fournissant le nom de l'ensemble de données, la position (emplacement et largeur des colonnes) des variables, les noms et étiquettes des variables, ainsi que les étiquettes de valeurs et la position des valeurs manquantes.
    Fichiers fictifs
    Les divisions auteures créent des fichiers fictifs en reproduisant le fichier-maître et en faussant les données. Les fichiers fictifs ne contiennent pas les données réelles et ne doivent jamais être utilisés pour l'analyse.
    Fichiers-maîtres
    Les fichiers-maîtres sont les ensembles de données soi-disant « pures » créés par la division auteure. Toutes les variables et tous les cas sont disponibles pour analyse dans le fichier-maître. Le fichier-maître n'est pas offert à tous les utilisateurs.
    Fichiers synthétiques
    Les divisions auteures créent ces fichiers en reproduisant le fichier-maître et en faussant les données. Les fichiers synthétiques ne contiennent pas les données réelles et ne doivent jamais être utilisés pour l'analyse.
    FMGD
    Voir Fichier de microdonnées à grande diffusion.
    FTP
    Un protocole de transfert de fichiers est un moyen de télécharger des fichiers.

    G

    Guide de l'utilisateur
    Le guide de l'utilisateur fournit des renseignements essentiels pour l'utilisation, l'analyse et l'interprétation du fichier de microdonnées.

    I

    ICIS
    Voir Institut canadien d'information sur la santé.
    IDD
    Voir Initiative de démocratisation des données.
    Infrastructure de recherche sur le Canada au 20e siècle
    Une base de données pancanadienne regroupant les données des recensements canadiens tenus entre 1911 et 1951.
    Initiative de démocratisation des données
    L'initiative de démocratisation des données est un partenariat entre Statistique Canada et les établissements d'enseignement postsecondaire visant à promouvoir et à faciliter la disponibilité des données de Statistique Canada et d'autres données canadiennes à des fins d'enseignement et de recherche universitaire.
    Institut canadien d'information sur la santé
    Un organisme autonome et sans but lucratif qui fournit de l'information essentielle sur le système de santé du Canada et la santé des Canadiens. L'Institut a partagé l'accès à des fichiers d'échantillon de la Base de données sur les congés des patients avec la communauté de l'Initiative de démocratisation des données.
    IRCS
    Voir Infrastructure de recherche sur le Canada au 20e siècle.

    L

    Licence de l'IDD
    Entente officielle entre Statistique Canada (programme de l'Initiative de démocratisation des données) et les établissements d'enseignement postsecondaire participants.
    Livres de codes
    Terme générique souvent employé pour décrire le guide de l'utilisateur, le cliché d'enregistrement et le dictionnaire de données ou des combinaisons de ces documents.

    M

    Métadonnées
    Les métadonnées correspondent à la documentation d'accompagnement des données. Elles aident les utilisateurs à interpréter différentes données et différents fichiers géographiques.
    Microdonnées
    Les microdonnées sont des données observées ou recueillies directement auprès d'une unité d'observation particulière.

    O

    Ontario Data Documentation, Extraction Service and Infrastructure Initiative ODESI est un référentiel numérique pour les données en sciences sociales. Il comprend les données de l'Initiative de démocratisation des données, ainsi qu'un éventail de sondages d'opinion publique créés par l'Ontario Council of University Libraries. Il est mis à la disposition des utilisateurs des bibliothèques ontariennes, mais les métadonnées sont librement accessibles.
    ODESI
    Voir Ontario Data Documentation, Extraction Service and Infrastructure Initiative.

    P

    Personne-ressource de l'IDD
    Point de contact principal entre les utilisateurs et le programme de l'Initiative de démocratisation des données.

    Q

    Questionnaire
    Un questionnaire est une liste de questions posées par le répondant à l'enquête.

    R

    Remplaçant IDD
    Un remplaçant est identifié par la personne-ressource de l'Initiative de démocratisation des données (IDD) pour l'assister dans ses fonctions IDD à l'établissement.

    S

    SAS
    Le système d'analyse statistique est un programme logiciel d'analyse statistique.
    SDA
    Survey Documentation and Analysis est ensemble de programmes pour la documentation et l'analyse Web de données d'enquête.
    Séance de formation régionale
    Cette formation est tenue dans quatre régions du Canada dans le but de préparer le personnel des services de données à aider les utilisateurs des établissements d'enseignement postsecondaire à accéder aux données de l'Initiative de démocratisation des données et à les utiliser.
    Séances de formation nationales
    Les séances de formation nationales sont tenues tous les quatre ans et permettent à la communauté de l'IDD de se rencontrer et d'en apprendre davantage sur les services de données. Elles aident également les utilisateurs des établissements d'enseignement postsecondaire à accéder à utiliser les données de l'IDD.
    Section de l'IDD
    La section de Statistique Canada qui est responsable de l'administration du partenariat de l'Initiative de démocratisation des données.
    SPSS Statistical
    Package for the Social Sciences est un programme logiciel d'analyse statistique.
    STATA
    STATA est un programme logiciel d'analyse statistique.

    T

    Tableaux de c.v.
    Tableaux de coefficients de variation qui sont utilisés pour évaluer la qualité des données.
    TEF
    Voir Transfert électronique de fichiers.
    Totalisation croisée
    La totalisation croisée regroupe des variables pour permettre de comprendre la corrélation entre différentes variables. Aussi appelée « tableau croisé ».
    Totalisations personnalisées
    Tableaux tirés de fichiers confidentiels qui sont spécialement traités par Statistique Canada moyennant des frais et qui sont également appelés « tableaux personnalisés ».
    Transfert électronique de fichiers
    Un service de Statistique Canada qui permet d'accéder aux données de l'Initiative de démocratisation des données au moyen d'un protocole de transfert des données.
Date de modification :