Combinaison sécurisée de données provenant de plusieurs sources tout en préservant la confidentialité
par Betty Ann Bryanton, Agence du revenu du Canada
Introduction
La prédominance croissante de technologies comme le nuage, l'informatique mobile, l'apprentissage automatique et l'Internet des objets crée des possibilités d'innovation et d'échange de renseignements, mais également des défis pour la sécurité et la confidentialité des données. Ces défis ont été amplifiés pendant la pandémie mondiale; le télétravail a accéléré l'adoption des services hybrides et infonuagiques. Cette situation a mis à rude épreuve les capacités de sécurité existantes et a révélé des lacunes dans la sécurité des données (Lowans, 2020). Pendant ce temps, les lois sur la protection des données à l'échelle mondiale ont évolué, et chaque organisation qui traite des données personnelles est exposée à des niveaux de risque en matière de confidentialité et d'inobservation plus élevés que jamais auparavant (Wonham, Fritsch, Xu, de Boer, & Krikken, 2020).
Par conséquent, les techniques de calcul améliorées sur le plan de la confidentialité, qui protègent les données pendant leur utilisationNotes de bas de page1, ont gagné en popularité.
Qu'est-ce que le calcul multiparties sécurisé?
Le calcul multiparties sécurisé est une technique qui permet de combiner des renseignements provenant de différentes zones de confidentialité pour obtenir des renseignements sur les données combinées sans avoir à révéler les données brutes aux parties concernées. Il a évolué d'une curiosité théorique établie par le problème des millionnairesNotes de bas de page2 d'Andrew Yao dans les années 1980 à un outil important pour la création d'applications de préservation de la confidentialité à grande échelleNotes de bas de page3.
Pour illustrer le concept, Bob et Alice veulent savoir s'ils touchent la même paye, mais ne veulent pas poser cette question délicate. Ils achètent quatre boîtes à suggestions verrouillables, chacune portant une étiquette sur laquelle figure un taux horaire : 10 $, 20 $, 30 $ et 40 $. Bob gagne 20 $ l'heure, alors il n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 20 ». Alice gagne 30 $ l'heure, alors elle n'a qu'une clé pour déverrouiller la boîte portant l'étiquette « 30 ». Bob et Alice mettent tous les deux un bout de papier indiquant « oui » ou « non » dans chaque boîte sans que l'autre le voie. Par exemple, Alice met un bout de papier indiquant « non » dans les boîtes portant les étiquettes « 10 », « 20 » et « 40 », et un bout de papier indiquant « oui » dans la boîte portant l'étiquette « 30 » parce qu'elle gagne 30 $ l'heure. Bob déverrouille la boîte portant l'étiquette « 20 » et apprend qu'Alice ne gagne pas 20 $ l'heure, mais il ne sait toujours pas si son taux horaire est de 10 $, de 30 $ ou de 40 $. Alice déverrouille la boîte portant l'étiquette « 30 » et apprend que Bob ne gagne pas 30 $ l'heure, mais elle ne sait toujours pas si son taux horaire est de 10 $, de 20 $ ou de 40 $. - C'est ce que l'on appelle un « transfert inconscient ». La capacité d'effectuer des transferts inconscients est la base de l'exécution du calcul multiparties sécuriséNotes de bas de page4.
Le calcul multiparties sécurisé est une méthode d'informatique distribuée et de cryptographieNotes de bas de page5 qui combine la transformation des données (chiffrement) avec un logiciel spécialisé. Il permet à plusieurs parties qui ne se font pas confiance, ou à un tiers commun, de travailler conjointement avec des données qui dépendent de tous leurs intrants privés tout en gardant ces données chiffrées. Les participants ne connaissent que les résultats de la collaboration et non les données précises fournies par les autres. Cela permet une collaboration entre des partenaires de confiance ou même entre des concurrents.
On présume souvent que le calcul multiparties sécurisé exige la participation de plusieurs organisations; toutefois, l'exigence précise concerne plusieurs zones de confidentialité, c'est-à-dire deux domaines ou plus ayant des ensembles de restrictions de confidentialité différents. Plusieurs zones de confidentialité existent entre plusieurs organisations ayant des propriétaires de données indépendants, mais elles peuvent aussi exister au sein d'une seule organisation entre des équipes, des services ou des administrations.
On se fie à ce que les parties respectent le protocole. Si une partie n'est pas digne de confiance, des mesures supplémentaires, qui ne s'inscrivent pas dans la portée du présent document, doivent être prises pour prévenir les tentatives d'atteinte malveillantes ou cachées.
Forces
- Permet d'atteindre simultanément la confidentialité, l'inconscience et l'authenticité.
- Élimine le besoin de faire confiance à un courtier de données tiers pour accéder aux données et les traiter.
- Permet de déduire les données chiffrées : le propriétaire du modèle ne voit jamais les données privées du client et ne peut donc pas les divulguer ou les utiliser de façon malveillante.
- Élimine les compromis entre la convivialité et la confidentialité des données; autrement dit, étant donné que les données brutes sont chiffrées, il n'est pas nécessaire de masquer ou de supprimer des fonctions pour les échanger et les traiter.
- Offre de nouvelles possibilités de collaboration entre des entreprises qui n'étaient pas possibles auparavant en raison de la réglementation ou du risque.
- Niveaux de confidentialité semblables à ceux du chiffrement entièrement homomorphique, mais moins coûteux et complexe sur le plan informatique.
Défis
- Les techniques de calcul multiparties sécurisé sont extrêmement complexes et nécessitent une cryptographie exhaustive et souvent compliquée. Par conséquent, il est difficile pour les profanes de les comprendre ou de les mettre en œuvre.
- L'incapacité à voir les données d'entrée peut éveiller des soupçons.
- Si les fonctions ne sont pas soigneusement conçues et mises à l'essai, la sécurité peut être cassée.
- Frais généraux importants en ce qui concerne les aspects informatiques en raison de la complexité et de la nature distribuée. Le coût varie grandement en fonction de la collaboration requise (p. ex., nombre de parties, utilisation de différents fournisseurs de services infonuagiques) et du besoin de protection contre les parties malveillantes.
- Sensible à la latence entre les nœuds (Krikken, 2019)
- Nécessite une infrastructure supplémentaire, ce qui ajoutera à la planification des projets et au calcul du coût total de possession (Byun, 2019)
Pourquoi est-ce important?
Selon le directeur du renseignement national des États-Unis, la cybersécurité dans les secteurs public et privé des États-Unis est continuellement à risque, et on doit s'attendre à une augmentation des attaques. Les organisations qui possèdent beaucoup de données et d'actifs de propriété intellectuelle sont des cibles de choix. Les attaquants ciblent souvent ces données « joyaux de la couronne »Notes de bas de page6 en raison de leur valeur et de leur potentiel de perturbation (Enveil).
Les organisations sont de plus en plus préoccupées par la sécurité des données dans plusieurs scénarios, notamment :
- la collecte et la conservation de renseignements personnels de nature délicate;
- le traitement de renseignements personnels dans des environnements externes, comme le nuage;
- l'échange de renseignements, comme l'échange et le traitement de données de nature délicate dans des environnements distribués, des soins de santé aux finances (Krikken, 2019)
Le calcul multiparties sécurisé permet de répondre à ces préoccupations et de les atténuer en permettant aux organisations de fournir des renseignements sur les données réparties de façon conforme, sécurisée et confidentielle sans jamais les exposer ou les déplacer.
Cela est important parce que la nature de plus en plus distribuée des données sur les clients signifie que de nombreuses organisations ne génèrent pas par elles-mêmes les niveaux de données nécessaires pour obtenir les renseignements impartiaux requis pour fournir de nouvelles expériences, ouvrir de nouvelles sources de revenus et appliquer de nouveaux modèles opérationnels. Le calcul multiparties sécurisé permet une collaboration sécurisée qui offre des avantages mutuels à toutes les parties, tout en préservant la vie privée et la confidentialité.
Applications concrètes
Bien qu'il soit encore nouveau et qu'il présente des défis, le calcul multiparties sécurisé est sur le point de perturber considérablement le domaine de l'échange de données d'entreprise et d'offrir des solutions efficaces d'échange de données entre des propriétaires de données méfiants. Vous trouverez ci-dessous des déploiements réussis notablesNotes de bas de page7.
- Vente aux enchères de betteraves sucrières danoises, le premier exemple réussi de déploiement du calcul multiparties sécurisé, en 2008, où la confidentialité des soumissions des agriculteurs pour des contrats a été assurée.
- Études sur la disparité de salaire entre les hommes et les femmes du Boston Women's Workforce CouncilNotes de bas de page8, qui ont été menées pour la première fois en 2016 et qui visaient à analyser les données sur la paye de plusieurs employeurs pour établir une feuille de route du changement pour la ville et ses employeurs.
- Étude du gouvernement estonien qui a été menée en 2015 et qui visait à analyser les dossiers fiscaux et scolaires pour déterminer si le fait de travailler à temps partiel pendant les études faisait augmenter le taux d'échecNotes de bas de page9.
Cas d'utilisation
Le calcul multiparties sécurisé est très populaire pour les cas d'utilisation où des organisations doivent échanger des données avec plusieurs parties ou analyser des données provenant de plusieurs parties sans divulguer leurs données ou leur modèle d'analyse aux autres parties.
Cette liste illustre la portée et l'ampleur des applications du calcul multiparties sécurisé.
- Collaboration avec des parties disparates, par exemple, échange de données sur les citoyens entre des ministères et des institutions financières ou échange de dossiers médicaux électroniques entre des hôpitaux, des pharmacies et des assureurs.
- Exploration de données réparties : Collecte de données privées à partir de sources de données indépendantes pour apprendre quelque chose qui n'est pas possible à partir d'une source unique, par exemple, trouver des contribuables frauduleux au moyen de données d'entreprise privées ou d'autres données sur les contribuables.
- Gestion des clés : Protection des clés d'authentification pendant leur utilisation.
- Infonuagique : Échange de données, analyse des données et apprentissage automatique entre plusieurs fournisseurs de services infonuagiques inconnus.
- Surveillance de la sécurité de plusieurs réseaux entre des entités pour regrouper des données privées.
- Filtrage des pourriels dans les courriels chiffrés.
- Découverte médicale, par exemple, applications de recherche des contacts avec des personnes ayant une maladie ou un virus combinant les données de nombreux hôpitaux pour la recherche en génomique.
- Évitement de la collision de satellites sans divulguer leur emplacement.
Conclusion
La conscience que les données personnelles peuvent être compromises dans une atteinte à la protection des données ou peuvent être utilisées de façon malveillante par des entreprises dont les intérêts ne cadrent pas avec ceux de leurs utilisateurs augmente. De nouveaux règlements font de la détention de données personnelles un risque de responsabilité pour les entreprises. Le calcul multiparties sécurisé est devenu une technique puissante et polyvalente pour obtenir des renseignements sur l'échange de données sans jamais les exposer directement.
Bien qu'il n'y ait pas de produit ou de technique unique qui puisse satisfaire à toutes les exigences relatives à la sécurité des données, le calcul multiparties sécurisé peut être utilisé comme une défense avec d'autres mesures de protection des données, comme le masquage des données, et d'autres techniques de préservation de la confidentialité, comme la confidentialité différentielle et le chiffrement homomorphique.
Prochaines étapes
Gartner s'attend à ce que le calcul multiparties sécurisé soit transformationnel au cours des cinq à dix prochaines années (Lowans, 2020). Pour être prête, compte tenu de la quantité de données privées qu'elle détient et de la pression exercée pour que ces données soient protégées, une organisation devrait continuer de faire des recherches sur le calcul multiparties sécurisé et d'autres techniques de protection des données et de préservation de la confidentialité.
Sujets connexes : Anonymisation des données, confidentialité différentielle, chiffrement homomorphique, environnements d'exécution fiables/informatique confidentielle, apprentissage fédéré
Rencontre avec le scientifique des données
Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.
Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!
MS Teams – le lien sera fourni aux participants par courriel
Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.
Références
- Acar, A., Z.B. Celik, H. Aksu, A.S. Uluagac et P. McDaniel. (2017, 6 juill.). Achieving Secure and Differentially Private Computations in Multiparty Settings. Cornell University, arXiv. Sur Internet : Achieving Secure and Differentially Private Computations in Multiparty Settings (en anglais seulement).
- Accenture Labs. (2019, 1er oct.). Maximize collaboration through secure data sharing. Accenture. Sur Internet : Together, we can reinvent your business (en anglais seulement).
- Balamurugan, M., J. Bhuvana et S.C. Pandian. (2012). « Privacy Preserved Collaborative Secure Multiparty Data Mining », Journal of Computer Science, vol. 8, no 6, p. 872-878. Sur Internet : Privacy Preserved Collaborative Secure Multiparty Data Mining (en anglais seulement).
- Barot, S., et S. Agarwal. (2020, 9 oct.). 2021 Planning Guide for Data Analytics and Artificial Intelligence, ID G00732258. Gartner. Sur Internet : Gartner (en anglais seulement).
- Bogdanov, D., L. Kamm, B. Kubo, R. Rebane, V. Sokk et R. Talviste. (2016, juill.). « Students and Taxes: a Privacy-Preserving Social Study Using Secure Computation », Proceedings on Privacy Enhancing Technologies, p. 117-135. Sur Internet : Students and Taxes: a Privacy-Preserving Social Study Using Secure Computation (en anglais seulement).
- Byun, H. (2019, 1er avr.). Homomorphic Encryption and Multiparty Computation. Baffle. Sur Internet : Homomorphic Encryption and Multiparty Computation (en anglais seulement).
- Choi, J.I., et K.R. Butler. (2019, 2 avril). « Secure Multiparty Computation and Trusted Hardware: Examining Adoption Challenges and Opportunities », Security and Communication Networks, vol. 2019, ID d'art. 1368905, p. 1-28. Hindawi. Sur Internet : Secure Multiparty Computation and Trusted Hardware: Examining Adoption Challenges and Opportunities (en anglais seulement).
- De Simone, S. (2020, 24 mai). Secure Multiparty Computation May Enable Privacy-Protecting Contact Tracing Solutions. InfoQ. Sur Internet : Secure Multiparty Computation May Enable Privacy-Protecting Contact Tracing Solutions (en anglais seulement).
- Enveil. (s.d.). The Data Security Triad. Enveil. Sur Internet : The Data Triad (en anglais seulement).
- Evans, D., V. Kolesnikov et M. Rosulek. (2020). A Pragmatic Introduction to Secure Multi-Party Computation. Boston : NOW Publishers. Sur Internet : A Pragmatic Introduction to Secure Multi-Party Computation (en anglais seulement).
- Fehr, S. (2011, 8 déc.). Secure Multiparty Computation (MPC), [PowerPoint]. Sur Internet : Secure Multiparty Computation (MPC) (en anglais seulement).
- Fritsch, J. (2020, 27 janv.). Securing the Data and Advanced Analytics Pipeline, ID G00464663. Gartner. Sur Internet : Gartner (en anglais seulement).
- Gidney, C. (2013, 7 mai). Explain it like I'm Five: The Socialist Millionaire Problem and Secure Multi-Party Computation. Twisted Oak Studios. Sur Internet : Explain it like I'm Five: The Socialist Millionaire Problem and Secure Multi-Party Computation (en anglais seulement).
- IBM Corporation. (2017, nov.). Protecting your company's most critical information.
- Information Security Forum. (s.d.). Protecting the Crown Jewels: How to Secure Mission-Critical Assets. ISF. Sur Internet : Protecting the Crown Jewels: How to Secure Mission-Critical Assets (en anglais seulement).
- Inpher. (s.d.). What is Secure Multiparty Computation? Inpher. Sur Internet : What is Secure Multiparty Computation? (en anglais seulement).
- Krikken, R. (2019, 26 nov.). Achieving Data Security Through Privacy-Enhanced Computation Techniques, ID G00384386. Gartner. Sur Internet : Gartner (en anglais seulement).
- Li, Q., J.S. Gundersen, R. Heusdens et M.G. Christensen. (2020, 2 sept.). Privacy-Preserving Distributed Processing: Metrics, Bounds, and Algorithms. arXiv. Sur Internet : Privacy-Preserving Distributed Processing: Metrics, Bounds, and Algorithms (en anglais seulement).
- Lindell, Y. (2021). « Secure Multiparty Computation », Communications of the ACM, vol. 64, no 1, p. 86-96. Sur Internet : Secure multiparty computation (en anglais seulement).
- Lopardo, A., A. Benaissa et T. Ryffel. (2020, 12 juin). What is Secure Multi-Party Computation? Medium. Sur Internet : What is Secure Multi-Party Computation? (en anglais seulement).
- Lowans, B. (2020, 24 juill.). Hype Cycle for Data Security, 2020, ID G00448204. Gartner. Sur Internet : Gartner (en anglais seulement).
- Ma, R., Y. Li, C. Li, F. Wan, H. Hu, W. Xu et J. Zeng. (2020, 1er mai). « Secure multiparty computation for privacy-preserving drug discovery », Bioinformatics, vol. 36, no 9, p. 2872-2880. Oxford University Press. Sur Internet : Secure multiparty computation for privacy-preserving drug discovery (en anglais seulement).
- Pagter, J. (2017, 27 avr.). Multiparty Computation (MPC): A short introduction. Sepior. Sur Internet : An Introduction to Threshold Signature Wallets With MPC (en anglais seulement).
- Parrish, K. (2016, 10 août). Microsoft Research proposes method for exchanging secure data within the cloud. Digital Trends. Sur Internet : Microsoft Research proposes method for exchanging secure data within the cloud (en anglais seulement).
- Wikipedia. (s.d.). Yao's Millionaires' problem. Wikipedia. Sur Internet : Yao's Millionaires' problem (en anglais seulement).
- Wonham, M., J. Fritsch, D. Xu, M. de Boer et R. Krikken. (2020, 9 oct.). Guide to Data Security Concepts, ID G00731430. Gartner. Sur Internet : Gartner (en anglais seulement).
- Yao, A.C. (1982). Protocols for Secure Computations. 23rd Annual Symposium on Foundations of Computer Science (SFCS 1982), p. 160-164. SFCS. Sur Internet : Protocols for secure computations (en anglais seulement).
- Zhao, C., S. Zhao, M. Zhao, Z. Chen, C.-Z. Gao, H. Li et Y.-a. Tan. (2019, févr.). « Secure Multi-Party Computation: Theory, practice and applications », Information Sciences, vol. 476, p. 357-372. ScienceDirect. Sur Internet : Secure Multi-Party Computation: Theory, practice and applications (en anglais seulement).