Post-doctorant ou Post-doctorante en Génération de données de cyberattaques par interaction Humain-IA
Référence : 2024-1683478
- Fonction publique : Fonction publique de l'État
-
Employeur :
TELECOM Sud Paris
TELECOM SUDPARIS - Localisation : PALAISEAU
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD de 2 ans
- Expérience souhaitée Débutant
-
Rémunération (fourchette indicative pour les contractuels) Non renseigné
- Catégorie Catégorie A (cadre)
- Management Non
- Télétravail possible Oui
Vos missions en quelques mots
Dans le cadre du projet CKRISP (appel ANR « Thématiques Spécifiques de l’IA »), nous avons pour objectif de tirer avantage de la connaissance des attaques et des liens de causalité entre incidents de sécurité, extraits d’un graphe de connaissances cybersécurité (« cybersecurity knowledge graph » ou CSKG), pour créer une méthode de génération d’attaques pilotée par IA. Notre approche implique le développement d’un modèle de politiques de prédiction de comportements d’attaques basé sur de l’apprentissage par renforcement (« Reinforcement Learning » ou RL). Ce modèle sera capable de reproduire des stratégies de cyberattaques utilisées par des attaquants ou analystes humains (dans le cadre de tests d’intrusion, par exemple). Qui plus est, le modèle doit permettre d’explorer de nouvelles méthodes d’attaques en se référant aux connaissances du contexte des actifs ciblés. En synthétisant des données d’attaque par cette approche, nous pourrons aider des experts humains à explorer les possibles chemins d’attaque qui n’apparaissaient pas dans les observations précédentes. Cela permettra de non seulement améliorer la couverture de détection des systèmes de détection d’intrusions (ou IDS) basés sur l’IA, mais aussi de permettre aux analystes humains d’identifier des vulnérabilités potentielles.
CKRISP permettra d’établir un processus coopératif entre l’humain et l’IA pour résoudre le verrou de l’exploration et la prédiction de comportements d’attaque. Premièrement, de nouvelles attaques (par ex., les attaques 0-day), pouvant éluder la vigilance des analystes humains, peuvent être découvertes dans les logs comportementaux ; deuxièmement, la plupart des événements de sécurité collectés en pratique peuvent être non labellisés ou incomplets, dus à des sondes défectueuses. Inspirés par le succès récents des applications d’IA basées sur les grands modèles de langage (« Large Language Models » ou LLM), la coopération humain-IA envisagée permettra :
1) l’exploration de structures de sous-graphes dans les CSKGs afin de révéler de possibles chemins d’attaque ;
2) la valorisation de la vérification humaine de comportements suspects découverts par IA et l’ajout de la connaissance des analystes humains pour guider l’exploration d’attaques par apprentissage actif (« active learning ») ;
3) la récupération d’entités absentes dans les CKSGs par l’adoption de LLMs pour estimer les données d’attaque manquantes ou pour synthétiser des comportements d’attaque
Profil recherché
Niveau de formation et/ou expérience requis :
Doctorat ou PhD depuis moins de 3 ans
Niveau d'études minimum requis
- Niveau Niveau 8 Doctorat/diplômes équivalents
- Spécialisation Informatique, traitement de l'information, réseau de transmission des données, Enseignement formation
Compétences attendues
• Expériences en IA ou machine learning (ML) appliquée à la cybersécurité, en particulier, la détection d'intrusion
• Connaissances sur les LLMs, les GNNs ou l'apprentissage par renforcement (RL)
• Connaissances en graphes de connaissances
• Anglais parlé, écrit
• Expériences avec des plateformes expérimentales ou de génération de données
• Rigueur
• Autonomie
• Travail en équipe
Langues
- Anglais Autonome
Éléments de candidature
Documents à transmettre
Personnes à contacter
Qui sommes-nous ?
Télécom SudParis est une grande école publique d'ingénieurs reconnue au meilleur niveau des sciences et technologies du numérique. La qualité de ses formations est basée sur l’excellence scientifique de son corps professoral et une pédagogie mettant l’accent sur les projets d’équipes, l’innovation de rupture et l’entreprenariat. Télécom SudParis compte 1 000 étudiants dont 700 élèves ingénieurs et environ de 150 doctorants. Télécom SudParis fait partie de l’Institut Mines-Télécom, premier groupe d’école d’ingénieurs en France, et partage son campus avec Institut Mines-Télécom Business School. Télécom SudParis est co- fondatrice de l'Institut Polytechnique de Paris (IP Paris), Institut de Sciences et Technologies à vocation mondiale avec l’Ecole polytechnique, l’ENSTA Paris, l’ENSAE Paris et Télécom Paris.
Descriptif du service
Le déploiement de fonctions de détection et de classification d’attaques à l’aide d’intelligence artificielle (IA) vise à faciliter le travail des analystes dans les Centres Opérationnels de Cybersécurié (SOC) et les équipes de réponse à incident (CSIRT) qui sont confrontés à des volumes excessifs de rapports de sécurité (alertes, logs, etc.). A l’aide d’outils d’IA, les analystes humains peuvent identifier et prioriser les activités malveillantes rapidement afin de faire face au rythme croissant des attaques. Néanmoins, les modèles d’IA pour la détection de menaces connaissent encore de nombreux verrous qu’il faut résoudre, y compris la couverture insuffisante de ces modèles quant aux comportements des attaquants. En effet, les modèles d’IA nécessitent de très grands volumes de données d’entraînement afin d’apprendre le plus de comportements d’attaque possibles. Mais, en pratique, les sondes déployées ne peuvent garantir une couverture complète de ces comportements, qui plus est de ceux émergents (nouvelles attaques de type 0-day). Ce manque de couverture de certains comportements d’attaque–que l’on peut qualifier d’exemples hors distribution (out-of-distribution samples)–est ainsi problématique pour la classification précise des menaces.
À propos de l'offre
-
Date de fin d'appel à candidature: 30 septembre 2024
-
Le travail proposé se concentre sur la génération de données d’attaque par la combinaison des CSKGs produits dans CKRISP et la connaisance des analystes humains selon 2 axes. Premièrement, nous utiliserons des LLMs pré-entraînés à l’aide de CSKGs pour synthétiser les données d’attaques. Deuxièmement, nous développerons une langage de correspondance entre les actions permises dans les CSKGs explorés à l’aide d’agents RL d’un côté, et les charges utiles (« payloads ») générés par cadriciels de tests d’intrusion, de l’autre.
Cette contribution vise à construire un agent IA de requête sur un CSKG ou de malware, afin de prédire/catégoriser les comportements d’attaque. L’agent peut être entraîné en utilisant de l’apprentissage par renforcement ou en combinaison avec un LLM pour réaliser des requêtes sur le CSKG. Un modèle de réseaux de neurones de type graphe (« Graph Neural Network » ou GNN) peut aussi être considéré pour la génération d’entrées de requête (ou « prompt ») légers d’un LLM pour comprendre et interroger ce CSKG. Prédire et catégoriser les comportements d’attaque peut mener à la génération de données comportementales d’attaque, par ex., la génération de scans de ports ou de flux réseaux d’une attaque DDoS, en utilisant le CSKG.
En résumé, le travail proposé utilisera le CKSG construit par CKRISP comme base de connaissances. Il utilisera un agent d’IA (en construction) pour synthétiser les motifs comportementaux d’attaque. -
Vacant à partir du 01/10/2024
-
Chercheuse / Chercheur