Description automatisée de scènes audio explicable et frugale
Référence : 2024-1571657
- Fonction publique : Fonction publique de l'État
- Employeur : INRIA Rocquencourt
- Localisation : A définir
Partager la page
Veuillez pour partager sur Facebook, Twitter et LinkedIn.
- Nature de l’emploi Emploi ouvert uniquement aux contractuels
-
Nature du contrat
CDD de 3 ans
- Expérience souhaitée Débutant
-
Rémunération (fourchette indicative pour les contractuels) Non renseigné
- Catégorie Catégorie A (cadre)
- Management Non renseigné
- Télétravail possible Oui
Vos missions en quelques mots
Approche
L’approche visée s’inspire à la fois de la description textuelle de scènes vidéo [1] et sur les systèmes de dialogue reposant sur des scènes audio-visuelle [2]. Le système reposera sur l’extraction de représentations du signal de parole à différentes échelles (trame, segment de parole ou événement
sonore, enregistrement complet), éventuellement dédiées à des tâches différentes.
Les représentations, utiles aux différentes briques technologiques du système seront des embeddings extraits de réseaux de neurones profonds, génériques [3] ou dédiés à chaque tâche. La fusion entre les différents niveaux
d’information pourra être réalisée avec une architecture s’inspirant du schéma « Encodeur-Decodeur » multi-stream [4], avec plusieurs encodeurs produisant des séquences de représentations et un ou plusieurs décodeurs réalisant les tâches ou sous-tâches nécessaires au système. Un de ces décodeurs
produira un descriptif textuel de la scène.
Des directions de recherche potentielles, visant à dépasser un système de description de scènes audios par assemblage de briques existantes, pourront être discutées et affinées avec le candidat.
Principales activités
- Etat de l’art, constitution d’un système de description de scènes audio par assemblage des outils existants ;
- Définition de la tâche, élaboration d’un corpus et d’un protocole d’évaluation ;
- Travail sur l’alignement entre des représentations auto-supervisées du signal de parole et des grands modèles de langage ;
- Entraînement faiblement supervisé du système ;
- Evaluation des systèmes et confiance dans les prédictions.
Profil recherché
Contrat doctoral :
Année 1 & 2 = 2082 € bruts mensuels
Année 3 = 2190 € bruts mensuels
- Master 2 ou diplôme d’école d’ingénieur en informatique, mathématiques appliquées ou phonétique,
- Intérêt marqué pour la recherche appliquée,
- Maîtrise de l’anglais parlé et écrit,
- Connaissances en traitement du signal,
Connaissances en apprentissage automatique de manière générale et - dans les approches neuronales (deep learning) en particulier,
- Connaissance pratique d’outils comme Pytorch, Keras ou Scikit-learn,
- Expérience en traitement automatique de la parole, dont la connaissance de plateformes opensource
comme Kaldi ou Speechbrain.
Niveau d'études minimum requis
- Niveau Niveau 7 Master/diplômes équivalents
Localisation
Qui sommes-nous ?
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et coencadrée par Raphaël Duroselle.
La description automatisée de scènes audio consiste à présenter aux opérateurs un condensé des informations présentes dans la scène en question, sous la forme d’un texte augmenté. Ce condensé permet de faire ressortir de façon synthétique et visuelle les informations les plus importantes, tout en structurant efficacement l’accès aux informations précises.
Descriptif du service
Objectif
La thèse vise à proposer un cadre général pour le traitement des enregistrements audio dans le cadre du renseignement. Elle consiste à définir une application de haut niveau adaptée aux besoins des utilisateurs finaux promouvant la présentation d’un enregistrement sous la forme d’un rapport
synthétique pour mettre en évidence les points saillants.
À propos de l'offre
-
Susceptible d'être vacant à partir du 01/07/2024
-
Chercheuse / Chercheur