Les organisations utilisent de plus en plus des modèles d’apprentissage automatique (ML) dans leurs applications et services sans tenir compte des exigences de sécurité qu’ils impliquent, selon une nouvelle étude du cabinet de conseil en sécurité NCC Group.
En raison des manières uniques dont les systèmes d’apprentissage automatique sont développés et déployés, ils introduisent de nouveaux vecteurs de menace que les développeurs ignorent souvent, selon l’étude, ajoutant que de nombreuses menaces anciennes et connues s’appliquent également aux systèmes ML.
Augmentation de l’utilisation de l’apprentissage automatique
« Nous avons constaté une augmentation constante depuis 2015 environ chez nos clients déployant des systèmes de ML, et bien qu’il y ait eu un corpus important de littérature académique, il n’y avait pas beaucoup de discussions pratiques sur les problèmes de sécurité spécifiques au ML à l’époque », Chris Anley, scientifique en chef du groupe NCC et auteur de l’étude, a déclaré La gorgée quotidienne.
Au départ, Anley a vu l’apprentissage automatique être déployé dans des applications très spécialisées. Mais aujourd’hui, les modèles ML sont de plus en plus utilisés dans des domaines Web plus généraux, tels que la recommandation de contenu ou l’optimisation du flux de travail.
« Nous voyons maintenant des chatbots utilisés pour le support client et d’autres applications textuelles telles que l’analyse des sentiments et la classification des textes devenir assez populaires – avec tous les intimité et les implications de sécurité auxquelles vous vous attendez », a déclaré Anley.
Large éventail de menaces
Une étude notable dans le domaine, Attaques pratiques contre les systèmes d’apprentissage automatiquefournit une vue globale du paysage des menaces de ML dans les applications du monde réel.
Il détaille certaines des menaces spécifiques aux modèles d’apprentissage automatique et à leur pipeline de formation et de déploiement :
- Attaques contradictoires : les données d’entrée sont modifiées avec un bruit imperceptible par l’homme pour modifier le comportement du modèle ML.
- Empoisonnement des données et attaques par porte dérobée : l’ensemble de données de formation est compromis et modifié pour rendre le modèle de ML formé sensible à des déclencheurs spécifiques.
- Attaques par inférence d’appartenance : interrogation du modèle ML pour déterminer si un point de données spécifique a été utilisé dans son ensemble d’apprentissage.
- Attaques d’inversion de modèle : Interroger des modèles ML pour recréer leurs données d’entraînement en partie ou en totalité.
Bien que ces types de menaces aient été minutieusement étudiés et documentés par des chercheurs universitaires, les chercheurs du NCC se sont concentrés sur leur recréation dans des contextes pratiques où des modèles ML ont été déployés dans des applications réelles telles que la vérification de l’identité des utilisateurs, les systèmes de santé et les logiciels de classification d’images.
Leurs découvertes montrent que mener des attaques contre les systèmes ML dans le monde réel est pratiquement faisable.
VOUS POURRIEZ AUSSI AIMER La cryptographie post-quantique franchit une étape de normalisation
« Je pense qu’il est assez surprenant qu’il existe des dizaines d’articles décrivant exactement comment ces attaques fonctionnent », a déclaré Anley. « Nous avons reproduit quelques-uns des résultats de ces articles sous forme de « démo », et nous avons mené avec succès des attaques simulées sur des lignes similaires avec des clients. Bien que ces attaques de confidentialité ne soient pas aussi simples que, par exemple, une violation de données par injection SQL[es]ils sont certainement pratiques.
L’étude montre également que les systèmes ML sont souvent vulnérables aux charges utiles malveillantes intégrées dans les modèles d’apprentissage automatique, aux vulnérabilités du code source des bibliothèques d’apprentissage automatique, aux failles de sécurité dans les pipelines d’apprentissage automatique, aux attaques par injection SQL contre les systèmes ML hébergés sur le Web et aux attaques de la chaîne d’approvisionnement. contre les dépendances utilisées dans les logiciels d’apprentissage automatique.
Paysage complexe de la sécurité des données
« Les violations de données sont toujours une préoccupation, et certains aspects fondamentaux du ML modifient les risques pour la vie privée », a déclaré Anley.
Premièrement, les systèmes ML fonctionnent mieux à mesure que le volume de données sur lesquelles ils sont formés augmente, de sorte que les organisations doivent potentiellement gérer de gros volumes d’informations sensibles.
Deuxièmement, les modèles formés n’ont pas de contrôle d’accès basé sur les rôles – toutes les données de formation sont agrégées dans le même modèle.
Et troisièmement, les expériences sont un élément crucial du développement ML, il est donc important que de grands volumes de données soient accessibles aux développeurs.
« La sécurisation des systèmes ML peut être difficile à cause de ces problèmes, en particulier si l’application gère des données sensibles », a déclaré Anley. « Les développeurs ont souvent désormais accès à des informations d’identification extrêmement puissantes, il est donc important d’examiner attentivement qui doit faire quoi et de restreindre là où vous le pouvez, sans entraver l’activité. »
Menaces de ML sur le Web
Les menaces émergentes des systèmes ML ont des conséquences directes sur l’écosystème Web, prévient Anley.
« Je pense que la principale préoccupation qui ressort de la littérature est qu’il est possible d’extraire des données de formation à partir d’un modèle formé, même lorsqu’il est hébergé sur le Web, derrière un serveur API, et même dans des conditions assez strictes », a-t-il déclaré.
Diverses études, dont certaines qu’Anley et ses collègues ont reproduites dans leurs recherches, montrent que les attaques par extraction d’informations sont réalisables contre les systèmes ML qui ne produisent que des étiquettes de classe, ce qui est la façon dont fonctionnent de nombreux services ML hébergés sur le Web.
Les modèles de ML pré-formés diffusés sur le Web, qui sont devenus très populaires ces dernières années, sont particulièrement préoccupants. Les développeurs qui n’ont pas les compétences ou les ressources nécessaires pour former leurs propres modèles ML peuvent télécharger des modèles pré-formés à partir de l’une des nombreuses plateformes Web et les intégrer directement dans leurs applications.
Mais les modèles pré-formés peuvent devenir la source des menaces et des attaques dont parle Anley dans son article.
« Les modèles formés eux-mêmes peuvent souvent contenir du code, ils doivent donc également être manipulés avec soin », a-t-il expliqué. « Étant donné que la formation de modèles coûte cher, nous avons vu l’émergence de « zoos modèles », où des modèles pré-formés sont disponibles. Celles-ci doivent évidemment être gérées avec les mêmes contrôles que vous appliqueriez au code.
Sécuriser les plats à emporter du développement
Nous apprenons toujours à faire face aux menaces émergentes posées par les applications alimentées par ML. Mais en attendant, Anley avait quelques recommandations clés à partager avec les développeurs Web qui sautent dans le train du ML :
- « Si votre modèle est entraîné sur des données sensibles, envisagez de refactoriser votre application afin de ne pas avoir à vous entraîner sur des données sensibles. »
- « Si vous devez absolument vous entraîner sur des données sensibles, envisagez des techniques de confidentialité différentielle, l’anonymisation ou la tokenisation des données sensibles. »
- « Appliquez les mêmes contrôles de la chaîne d’approvisionnement aux modèles externes que vous le feriez pour le code externe. »
- « Soignez soigneusement vos données d’entraînement et appliquez des contrôles pour vous assurer qu’elles ne peuvent pas être modifiées de manière malveillante. »
- « Authentifiez, limitez et auditez l’accès aux modèles. Si votre modèle prend des décisions sensibles qui pourraient être affectées par des perturbations contradictoires, envisagez de prendre des conseils sur la mise en œuvre d’une méthode de formation pour rendre le modèle plus résistant à ces attaques.
CONSEILLÉ Identifiants décentralisés : tout ce que vous devez savoir sur la technologie d’identification Web de nouvelle génération