Détection d'émotions sur données multimodales restreintes par réseaux triples

Abstract

Nous présentons dans cet article un modèle d’apprentissage profond permettant une reconnaissance d’émotions multimodales, combinant des images de visages et des enregistrements sonores de phrases codés par des coefficients cepstraux.L’approche utilise un réseau triple afin d’augmenter la taille de la base d’apprentissage et de représenter les différentes émotions dans un espace vectoriel. Le modèle, basé sur le réseau Facenet, permet de placer correctement les triplets de test avec plus de 85% de précision en utilisant seulement 200 couples de type image-son pour chaque émotion étudiée. La méthode développée permet également de séparer correctement ces émotions, sans indiquer implicitement le label de la donnée apprise au réseau, ni le nombre de classes totales.

Publication
In Proc of CAP 2019
Date