IA Lab

L’IA au service de la cybersécurité pour la détection d’anomalies

25 février 2019

Résumé


En matière de cybersécurité, alors que les menaces se multiplient et se complexifient, les algorithmes de Machine Learning représentent l’une des solutions envisagées pour renforcer l’arsenal de défense à disposition des professionnels de la sécurité des systèmes d’information. La rencontre de ces deux champs stratégiques pour les états, les entreprises et les citoyens, constitue à plusieurs titres un des enjeux majeurs de la sécurisation des économies de demain. Cet article présente les principaux atouts du ML face aux nouveaux enjeux de cybersécurité ainsi que ses limitations.

 

  1. Quelle relation entre le ML et la cybersécurité ?
  2. L’apport du Machine Learning
  3. L’IA : une sentinelle bientôt indispensable, pas une solution miracle

1. Quelle relation entre le ML et la cybersécurité ?

Quel pourrait bien être le lien entre le Machine Learning (ML) et la cybersécurité ?  Une anecdote prenant racine dans le monde réel pourrait nous aider à le saisir : En 2011, la ville de Santa Cruz aux États-Unis a été la première à se doter d’un algorithme de prédiction policière, PredPol, pour prédire où et quand un crime a le plus de chances se produire. Cet outil digne d’un roman de science-fiction, pourtant bien réel, repose sur des modèles mathématiques et statistiques adossés à une base de données recensant les infractions passées. L’objectif consiste à diriger les officiers de police vers les zones où un crime est susceptible de se produire, avant même qu’il ne soit commis.

Pour les experts en cybersécurité, cette démarche semble répondre à un vrai besoin dans la mesure où ce domaine repose essentiellement sur la détection d’anomalies, c’est-à-dire des comportements plus ou moins suspects susceptibles d’indiquer une intention malveillante. Or, comme l’illustre le cas des algorithmes de prévision policière, le ML offre un ensemble d’outils statistiques qui permet, entre autres, d’identifier des anomalies, soit en alimentant l’algorithme avec des exemples normaux et anormaux (apprentissage supervisé), soit en détectant des valeurs aberrantes par rapport à un comportement usuel (détection de valeurs aberrantes), comme nous le verrons dans la section suivante.

Les applications pratiques des technologies de ML au domaine de la cybersécurité constituent depuis plusieurs années un champ de recherche et d’expérimentation établi avec des travaux reconnus au sein d’institutions universitaires et de laboratoires de recherche, publics comme privés. Cet intérêt est notamment dû à l’émergence de nouvelles problématiques stratégiques et technologiques liées à la digitalisation croissante de nos sociétés et au poids de plus en plus conséquent accordé au traitement et à la sécurisation des données numériques.

La rencontre de ces deux disciplines – cybersécurité et ML – est porteuse d’enjeux liés à des problématiques de « souveraineté numérique », exposées notamment dans le rapport de Cédric Villani sur l’intelligence artificielle [CVI] ; la maitrise de ces deux disciplines est vue par les états et les grands groupes privés à la fois comme un moyen et une condition indispensable à la création de valeur des économies de demain, et à la préservation de l’intégrité économique des organisations.

Le ML constitue pour plusieurs raisons une piste de travail incontournable dans le domaine cyber, dans la mesure où il est susceptible de renforcer considérablement l’appareil défensif. Mais ne nous y trompons pas : les attaquants veillent et s’intéressent eux aussi aux possibilités offertes par les technologies. Alors que le nombre, la complexité et la dangerosité des attaques cyber ne cessent de progresser. Ainsi, le cabinet Accenture, dans un rapport intitulé « Securing the Digital Economy » [SDE] paru en janvier 2019, a estimé que les cyberattaques pourraient générer des pertes s’élevant à plus de 5000’000’000’000 (5000 milliards) de dollars d’ici 2024 dans le monde, soit le PIB cumulé de la France, de l’Espagne et de l’Italie…

La première raison attestant de la pertinence du ML dans ce domaine est simple : la cybersécurité est avant tout une affaire de détection d’anomalies, techniques ou comportementales. Le ML pourrait par conséquent permettre un meilleur respect des politiques et des règles de sécurité relatives aux systèmes d’information. Ainsi, l’une des nombreuses applications possibles de ces algorithmes consiste à endosser un rôle de superviseur alertant les utilisateurs d’un comportement pouvant favoriser ou indiquer l’exploitation d’une faille de sécurité. Une autre manière d’influer positivement sur le niveau de sécurité, complémentaire au premier, a trait au caractère automatisable du traitement d’importantes quantités de données et à la hiérarchisation des messages d’alertes. Face à l’élévation qualitative et quantitative de la menace, le ML pourrait donc permettre d’éviter aux responsables informatiques d’être confrontés à une surcharge d’informations.

Dans tous les cas, alors que nous disposons déjà de systèmes de détection d’attaques automatisés (SIEM[1], SOC[2], etc.), l’apport principal du ML est lié à sa capacité d’apprentissage, voire, diront certains, d’anticipation. Cette capacité d’apprentissage permet de générer des modèles d’analyse complexes censés favoriser la détection d’anomalies. Surtout, par son apprentissage, le ML pourrait à terme permettre de réagir plus rapidement à des schémas d’attaques inédits, même si cela pose des questions importantes relatives à l’explicabilité des algorithmes utilisés [JDI]. On voit en effet difficilement comment une logique de boite noire pourrait satisfaire les exigences de transparence et de compréhension nécessaires aux professionnels de la sécurité informatique pour prendre leurs décisions.

On compte actuellement plusieurs cas d’usages du ML dans le domaine de la cybersécurité, relatifs à la détection d’anomalies et déjà documentés :

  • La détection de fraude, à partir de règles métiers prédéfinies et les corrélations établies sur la base de différents évènements. Par exemple, dans le cas de la fraude bancaire, le recoupement d’informations relatives au lieu des différentes opérations, de leur fréquence ou de leur nombre peut permettre d’aboutir à des niveaux de probabilité de fraude et contribuer à limiter les risques.
  • La détection de vulnérabilités, à partir de modèles prédictifs ayant pour but d’identifier les vulnérabilités d’un site web ou d’une application avant que celles-ci ne soient exploitées par un attaquant.
  • La détection d’intrusions, à partir d’analyses statiques (propriétés d’un fichier) et dynamiques (études du comportement : connexion à un réseau, accès aux clés du registre, relations avec d’autres composants informatiques…)
  • La détection d’exfiltration de données, à partir d’algorithmes développés afin de retrouver sur internet ou le dark/deep web des données qui auraient été volées ou qui auraient « fuité » par accident.

Dans les deux paragraphes qui suivent, nous rappelons quelques principes qui guident la réalisation de systèmes de détection d’anomalies au moyen du ML Nous évoquerons aussi la technologie émergente HTM (= Hierarchical Temporal Memory) basée sur une alternative au Deep Learning pour la détection d’anomalies en temps réel.

2. L’apport du Machine Learning

Les atouts du ML pour la cybersécurité

Les principes décrits dans ce paragraphe s’appliquent à tout système de détection d’anomalie au moyen du ML, qu’il s’agisse de détecter une transaction frauduleuse dans un système bancaire, une intrusion dans un système informatique ou une contamination par un virus.

Rappelons ici l’objectif de la détection d’anomalie :

  1. Détecter une partie significative des évènements anormaux d’une certaine catégorie.
  2. Minimiser la remontée de faux positifs à savoir d’évènements qui, après examen, ne sont pas des anomalies.
  3. La détection doit être suffisamment rapide pour ne pas ralentir le système.
  4. Chaque évènement notifié comme étant suspect devrait idéalement être accompagné d’une motivation pour permettre à un humain de juger s’il est pertinent ou non d’intervenir pour l’examiner de manière approfondie.

Les métriques associées aux points 1 et 2 sont respectivement le rappel et la précision comme l’illustre la figure 1. On peut augmenter le rappel en abaissant le seuil de détection mais ceci se fera au détriment d’un plus grand nombre de faux positifs et donc d’une baisse de la précision.

Figure 1 : définition des métriques de précision et de rappel. La précision est la proportion de fraudes détectées parmi les éléments signalés par le système. Le rappel est la proportion de fraudes que l’algorithme détecte par rapport à toutes les fraudes commises.

La figure 2 illustre comment on peut combiner les deux métriques précédentes en une seule que l’on appelle l’AUC PR et qui correspond à la surface sous la courbe (Area Under the Curve Precision–Recall) que trace dans le plan le point (précision, rappel) en fonction d’un paramètre de seuil. Un système sera considéré d’autant plus performant que cette surface sous cette courbe est importante.

Figure 2 : La métrique AUC PR évalue la performance d’un algorithme en mesurant la surface sous la courbe tracée par le couple (rappel, précision) lorsqu’on fait varier le seuil de détection.

Une majorité des systèmes de détection en place aujourd’hui utilisent encore des règles explicites conçues pour identifier différents types d’évènements suspects. L’inconvénient de cette approche est qu’elle ne détecte par construction que des menaces déjà observées par le passé. La nature changeante des menaces, due à l’imagination fertile des fraudeurs et des hackers, exigent en principe de mettre à jour régulièrement ces règles, un véritable travail de Sisyphe qui, à la longue, peut devenir impraticable.

Les difficultés à surmonter pour le ML

Par rapport à ces anciens systèmes, le ML offre plusieurs atouts :

  • Premièrement, un simple réentrainement d’un modèle sur un nouveau jeu de données permet de prendre en compte le caractère fluctuant des menaces, sans qu’il soit nécessaire de concevoir explicitement de nouvelles règles. Comment son nom l’indique, le ML… les apprend, par lui-même, sans pour autant qu’il soit toujours possible de les rendre intelligibles aux humains !
  • Par ailleurs, contrairement aux systèmes de règles, un modèle de ML est capable de détecter un signal anormal jamais vu.
  • Enfin, les algorithmes de ML sont capables de calculer un score qui évalue la probabilité pour qu’une anomalie détectée soit malveillante là où les systèmes de règles ne donnent généralement qu’un signalement binaire.

Utilisé conjointement avec les systèmes de règles, le ML peut considérablement renforcer leur efficacité. Selon Simon Moss, le vice-président de Teradata [FFC], 95% des alertes ne sont jamais examinées par personne et parmi les 5% qui le sont, environ 90% sont des faux positifs ! Dans un tel contexte le ML permet de sélectionner des ensembles restreints d’événements significatifs et donc d’accélérer leur analyse et l’identifications de leurs causes.

L’approche par ML exige cependant de surmonter plusieurs difficultés :

  • Le carburant du ML, on le sait, est constitué des données d’entraînement. Celles qui concernent des anomalies ne sont évidemment pas accessibles sur la place publique. D’une part pour ne pas faciliter la vie des fraudeurs mais aussi pour éviter de saper la confiance de clients qui pourraient s’inquiéter devant l’ampleur d’un phénomène de fraude par exemple. Un organisme bancaire ne pourra en principe exploiter que les données qu’il possède en propre à moins que des partenariats d’échange de données aient été conclu entre plusieurs institutions.
  • Par définition une anomalie est un phénomène rare si bien que les ensembles d’entraînement sont par nature extrêmement déséquilibrés. Pour entraîner correctement les algorithmes de ML il faut préalablement redresser ces jeux de données pour disposer d’environ 50% d’évènement normaux et de 50% d’anomalies. Une possibilité consiste à sous-échantillonner évènements normaux au risque toutefois de perdre de l’information. Une autre possibilité fréquemment utilisée est la synthèse d’exemples artificiels d’anomalies (technique SMOTE [SMO]).
  • L’exigence d’interprétabilité des alertes remontées par le système de ML impose d’écarter certains types d’algorithmes comme les réseaux de neurones s’ils ne fonctionnent qu’en mode boite noire. Restent les algorithmes basés sur des arbres de décision ou les algorithmes linéaires parcimonieux. Pour plus de détails sur ce sujet on pourra consulter notre article consacré à la justification des décisions d’un algorithme de ML [JDI].
  • Enfin la variabilité des menaces exige de réentrainer régulièrement les algorithmes et de monitorer le système pour s’assurer qu’il n’y a pas de dégradation de performances.

Approche supervisée ou non supervisée ?

L’approche la plus directe pour appliquer le ML à la détection d’anomalies consiste à partir d’une liste d’évènements préalablement étiquetés comme normaux ou anormaux et à utiliser un algorithme de ML supervisé pour apprendre une relation entre les caractéristiques de l’évènement et cette étiquette. Comparée à l’approche par règles explicites on économisera donc le travail d’écriture ou de réécriture des règles. Le problème de la détection d’évènements anormaux jamais vus auparavant demeure cependant le même que pour techniques classiques.

Au regard de la remarque précédente on préfère donc généralement utiliser des techniques qui relèvent du ML non-supervisé. Il en existe toute une panoplie que l’on peut répartir dans deux catégories selon que l’ensemble d’entraînement dont on dispose est contaminé ou non par des anomalies.

Figure 3 : Les points blancs sont les observations de l’ensemble d’entraînement. Les zones foncées sont celles pour lesquelles l’algorithmes estime probable (avec un niveau que l’on peut définir) de trouver des évènements normaux (en bleu). Les points jaunes sont des exemples d’évènements jugés peu probables. Ce sont des anomalies. La stratégie est donc similaire à une définition de quantiles multidimensionnels à l’aide de courbes de niveau.  – source [SKL]
  1. La liste des évènements est « propre ». La stratégie dans ce cas de figure consiste à apprendre comment sont distribuées les évènements normaux en fonction de leurs caractéristiques (montant, date, heure, destinataire, localisation, etc…). On sera ainsi en mesure de détecter évènements hautement improbables selon la loi empirique ainsi apprise. On parle en l’occurrence de « novelty detection » [SKL]. Un algorithme populaire dans cette situation est le One Class SVM [ESH].
  2. La liste des évènements est « contaminée ». Ce problème est plus ardu que le précédent car il s’agit maintenant de trouver une distribution empirique des évènements qui soit robuste vis à vis des perturbations que représentent les anomalies. On parle alors d’outlier detection [SKL].

Le problème est d’autant plus difficile que le nombre de dimensions (les caractéristiques de l’évènement) est élevé. Lorsque ce nombre n’est pas trop grand et qu’on a de bonnes raisons de penser que la distribution est gaussienne ou du moins unimodale, une méthode comme l’estimation robuste de la covariance avec les distances de Mahalanobis [SKL, MCD] peut donner de bons résultats. L’idée est de parvenir à définir des ellipsoïdes de confiance qui soient relativement peu influencés par les anomalies si bien qu’on pourra utiliser ces courbes pour localiser des points extrêmes comme l’illustre la figure 4.

Figure 4 : Comparaison entre l’ellipse de tolérance identifiée par un estimateur classique (maximum de vraisemblance) avec une estimation robuste nettement moins sensible aux points extrêmes.

Une autre approche [KAG], qui a le mérite de fonctionner correctement même lorsque le nombre de variables est important, utilise la technique dite des auto-encodeurs (AE) décrite dans [IAC] p.ex. En termes simples, un AE est un algorithme de ML non supervisé (souvent basé sur un réseau de neurones) dont l’objectif est de compresser des données similaires à celles d’un ensemble de données de référence. Dans le cas de la détection d’anomalies ces données correspondraient à un ensemble de référence de données jugées normales. Un AE est par ailleurs capable de recréer les données originales à partir de leur version compressée, sans trop de distorsions. Cette reconstruction ne sera toutefois possible qu’à la seule condition que les données injectées dans l’AE soient similaires aux données de référence. Si les données sont notablement différentes l’erreur de reconstruction sera élevée. D’où l’idée d’exploiter un AE pour la détection de fraude : sera considérée comme suspecte toute transaction dont l’erreur de reconstruction est significativement plus grande que la moyenne des erreurs de reconstruction des évènements normaux.

La détection d’anomalies en temps réel avec HTM

En dépit de ses succès, l’apprentissage profond souffre d’un certain nombre de limitations. Dans le contexte de la détection d’anomalies le Deep Learning est pour l’instant incapable de :

  • Traiter des flux d’information en temps réel,
  • Apprendre avec très peu de données (one-shot Learning)
  • Prendre en compte le contexte d’une donnée dans une séquence de données en mode d’apprentissage non-supervisé.

La technologie émergente Hierarchical Temporal Memory [HTM] développée par la société Numenta parvient à résoudre ces problèmes dans certains contextes comme celui de la détection d’anomalie. Il ne saurait être question ici de présenter cette technologie qui s’inspire des neurosciences et dont les principes de fonctionnement sont radicalement différents du Deep Learning qu’il s’agisse du traitement de l’information ou de la représentation des données.

Figure 5 : détection d’anomalie avec Grok.

Mentionnons simplement que l’un des premières applications commerciales de la technologie HTM a été la solution Grok pour la détection d’anomalies serveurs à partir de métriques à haute fréquence comme l’usage de CPU. Ce type de solution s’est avérée extrêmement utile pour différents fournisseurs de services Cloud [ADL].

3. L’IA : une sentinelle bientôt indispensable, pas une solution miracle

Le Machine Learning peut donc jouer un rôle essentiel dans la détection de menaces (vulnérabilités, intrusions…) en donnant la possibilité d’analyser de grands volumes de données, qui permettent d’identifier des tendances statistiques. Cette solution semble par exemple particulièrement adaptée au contexte de déploiement massif d’objets connectés, qui représentent autant de sondes et d’entrées sur le réseau. Mais elle comporte plusieurs limites :

  • Premièrement, les attaquants s’efforcent en permanence d’imaginer de nouveaux moyens pour initier leurs attaques. Ils utilisent des vulnérabilités non connues (notamment les failles critiques de type 0-day), ainsi que des procédés innovants, ce qui rendait jusqu’ici leur détection presque impossible. Se pose donc la question du « réapprentissage » des nouveaux schémas d’attaque par les algorithmes, qui pourrait s’assimiler à un véritable jeu du chat et de la souris. De plus, les IA « attaquantes » pourraient aussi apprendre à contourner les stratégies des IA « défensives » en noyant les opérateurs sous une pluie de faux positifs. De leur côté, les IA « défensives » pourraient donc être assimilées à des trieuses qui apprennent quels rapports d’alertes elles doivent transmettre en priorité pour traitement aux opérateurs, en complément des stratégies de défense à déployer automatiquement.
  • La seconde limite de cette approche, est qu’elle se concentre pour le moment essentiellement sur des aspects techniques. L’humain constitue pourtant l’un des maillons faibles en cas d’attaque cyber et est souvent le point d’entrée privilégié par les attaquants, notamment via des techniques d’ingénierie sociale. Le fait de disposer d’un apport du ML sur le plan défensif pourrait paradoxalement aboutir à une dégradation de la sécurité des organisations, qui risqueraient de délaisser le volet humain, managérial, organisationnel, de la cybersécurité.
  • Enfin, les attaquants réalisent des attaques plus complexes intégrant les processus métiers pour avoir un impact plus important tout en dissimulant leur activité. L’exemple du piratage de la « Bank of Bangladesh » l’illustre : les hackers se sont introduits dans le SI près de 9 mois avant de déclencher leur attaque, durant lesquels ils ont pu se renseigner sur l’ensemble du processus de validation des transactions bancaires (notamment via le réseau SWIFT) et analysé le comportement des utilisateurs pour y déceler de potentielles failles, puis attendu le moment propice pour déclencher leur attaque. Le préjudice final de cette attaque s’est élevé à plus de 80 millions de dollars.

Actuellement, le débat n’est pas tranché quand il s’agit de déterminer si l’IA bénéficiera en fin de compte plutôt aux attaquants ou aux défenseurs. Il est toutefois possible d’imaginer qu’elle constituera une assistance incontournable pour les acteurs de tous les bords : des campagnes de spear-phishing[3] et de faux enregistrements plus vrais que nature contribueront à rendre le cyberespace plus incertain, tandis qu’une vision plus exhaustive de l’état du réseau combinée à la détection d’anomalies techniques ou comportementales permettra aux responsables informatiques de mieux sécuriser leur environnement.  Par ailleurs, si l’usage de l’IA est voué à se démocratiser dans tous les secteurs d’activité, se posera irrémédiablement la question de la sécurisation des différents jeux de données et des IA elles-mêmes, pour éviter autant que possible tout incident.

Entre la promesse d’un cyberarmageddon généralisé et celle d’un avenir radieux promis par les zélotes des dernières évolutions technologiques, il y a donc fort à parier que le cyberespace de demain empruntera en partie à chacune ces deux extrémités. L’utilisation de l’IA par l’ensemble des acteurs en présence aboutira vraisemblablement à une complexification de l’environnement informationnel des organisations et pourrait nécessiter de maitriser de nouveaux métiers, alliant science des données, compréhension de l’IA et maitrise des risques cyber.  Autre certitude qui découle de ce constat : ce sont bien des humains en chair et en os qui seront toujours aux commandes de ces systèmes de plus en plus évolués, qui nécessiteront plus que jamais une analyse et une intuition humaines pour mener à bien les opérations demandées et assurer la sécurité des infrastructures et des organisations.

Notes

[1] Security Information and Event Management. Solution qui scanne la couche basse de l’infrastructure et du réseau.

[2] Security Operations Center. Véritable tour de contrôle de sécurité, s’appuyant sur un SIEM et y ajoutant une surveillance de la partie logicielle et des processus d’authentification liés au métier.

[3] Une forme plus élaborée et plus cyblée du phishing.

Références

Vers une nouvelle alliance Homme-machine ?

Livre blanc
Télécharger gratuitement

Les informations recueillies sur ce formulaire sont enregistrées dans un fichier informatisé de gestion des Clients et Prospects (CRM).

Le Responsable de traitement est la société weave, 37 rue du rocher 75008 Paris RCS Paris 802 396 085.

Elles sont destinées à l’activité marketing du groupe weave ainsi quà celle de ses filiales, à l’exclusion de tout transfert hors de l’UE. Elles sont conservées pour une durée conforme aux dispositions légales (par exemple 3 ans pour les données prospects).

Ce traitement nécessite votre consentement que vous pourrez retirer à tout moment sans que cela ne remette en cause sa licéité.

Conformément à la loi « Informatique et Libertés » et au règlement européen n°2016/679, vous bénéficiez d’un droit d’accès, de rectification ou d’effacement, ainsi que d’un droit à la portabilité de vos données ou de limitation du traitement. Vous pouvez également pour des raisons tenant à votre situation particulière, vous opposer au traitement de vos données et donner des directives relatives à la conservation, à l’effacement et à la communication de vos données après votre décès. Vous disposez également du droit d’introduire une réclamation auprès de la Commission Nationale de l’Informatique et des Libertés (www.cnil.fr).

Vous pouvez exercer vos droits en nous contactant à l’adresse vosdonnees@weave.eu.

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour mesurer notre audience, vous proposer des contenus et des offres personnalisées, ainsi que des fonctionnalités de partage sur les réseaux sociaux. En savoir plus sur notre politique de cookies et notre charte des données personnelles