IA Lab

Lorsque le Deep Learning met vos émotions à nu

20 avril 2018




Résumé

Les algorithmes de Deep Learning ont récemment contribué à faire progresser les performances des systèmes d’analyse d’émotions, qu’il s’agisse d’analyser des textes écrits, des expressions du visage ou des variations dans les intonations de la voix. Pour chacune de ces trois modalités nous présentons quelques cas d’utilisation emblématiques et nous décrivons les architectures typiques de réseaux neurones utilisés pour réaliser ces systèmes. Enfin, nous esquissons la réflexion sur les questions éthiques que soulèvent ces technologies.

  1. 66 % !
  2. Des applications à foison
  3. Où le Deep Learning fait la différence
  4. Une vaste duperie ?

66 % !

C’est la proportion d’information que véhicule les composantes non-verbales de la communication humaine, qu’il s’agisse des expressions du visage, de l’attitude corporelle ou des intonations vocales. La reconnaissance des émotions y joue un rôle prépondérant puisque c’est elle qui révèle l’état mental de nos interlocuteurs et nous permet d’adapter notre propre communication au contexte d’un échange. C’est en définitive une aptitude qui est au cœur même de toute vie sociale et, à ce titre, elle est constitutive de notre humanité.

Figure 1 Les 7 émotions de base.

L’informatique affective, qui étudie la conception de systèmes capables de reconnaître ou de simuler des émotions, est aujourd’hui en plein essor. A terme, elle nous promet des interactions beaucoup plus naturelles avec les machines. Grâce aux avancées récentes de l’apprentissage profond, les progrès sont particulièrement significatifs dans le domaine de la reconnaissance des émotions. Un champ immense de possibilités s’ouvre désormais aux applications métiers grâce la prise en compte ce nouvel élément de contexte dans les échanges d’information. Dans cet article nous décrirons quelques cas d’utilisation emblématiques pour chacune des trois modalités suivantes : l’analyse de texte, l’analyse des expressions faciales et l’analyse des intonations vocales.

Nous décrirons ensuite les architectures types des réseaux de neurones utilisés pour chaque modalité. Enfin, nous esquisserons quelques questions éthiques que soulève l’informatique affective, sans prétendre à l’exhaustivité.

Une question ouverte que nous n’aborderons pas ici est celles de la conception de machines qui ressentiraient, d’une certaine manière, des émotions, une étape qui pourrait cependant s’avérer incontournable pour le développement d’intelligences artificielles plus évoluées [TEN].

Des applications à foison

Reconnaissance d’émotions dans un texte

La détection d’émotions dans le texte est un usage classique du machine learning qu’on désigne parfois par le terme de « sentiment analysis ». Parmi les applications usuelles on trouve par exemple :

  • L’analyse de l’impact émotionnel sur les réseaux sociaux d’une campagne de marketing.
  • La détection de mouvements d’humeur, de comportements violents ou de harcèlement sur les réseaux sociaux.
  • Une solution comme DeepBreath de Google propose quant à elle d’évaluer la tonalité d’un mail et d’informer son auteur lorsqu’un mail est jugé trop agressif ou simplement discourtois.

Reconnaissance d’émotions par l’expression faciale

Les expressions du visage peuvent naturellement servirent, elles aussi, à évaluer la satisfaction d’un client aux prises avec un service après-vente ou à face à un produit récemment acquis dont il s’agit de comprendre le fonctionnement. On peut encore mentionner les applications suivantes :

  • La détection d’un manque d’attention chez un conducteur en vue d’augmenter la sécurité de la conduite.
  • L’évaluation du niveau de stress de passagers à l’atterrissage ou à l’arrivé en gare ou la détection de comportements suspects.
  • L’humanisation des robots dans leurs interactions avec les humains dont ils prendraient en compte l’état psychique. Cet usage n’est toutefois pas sans poser de sérieuses questions éthiques sur lesquelles reviendrons dans la conclusion.
  • Un système de reconnaissance émotionnel pourrait apporter une forme d’assistance ou de coaching à des personnes atteintes d’autisme à condition que la technologie puisse être intégrée à objets wearable du genre Google Glass [AUT].

Reconnaissance d’émotions dans la voix

L’application la plus fantasmée dans ce domaine est le détecteur de mensonge. Plusieurs analyses scientifiques [LID, TDE] ont toutefois démontré que ces outils ne sont pas vraiment fiables.

  • Incorporer les émotions et les intonations dans un outil de traduction simultanée joue un rôle important pour rendre plus la voix synthétique plus naturelle.
Figure 2. Un message d’avertissement à l’attention d’un conseiller lorsque le système détecter des intonations d’insatisfaction chez un client.
  • Une application concrète de la détection d’émotion par la voix est le coaching émotionnel d’employés dans des call center. Un logiciel comme Cogito suggère par exemple à un conseiller clientèle d’adapter en temps réel son discours à l’état émotionnel de son client [VDI], voir la figure 2.

La détection multimodale

L’idéal en matière de détection d’émotions consisterait à intégrer les modalités vocale et faciale au sein d’un même système. Certaines émotions, comme la colère par exemple, se manifestent en effet de manière prédominante par la voix alors que d’autres, comme la joie, se manifestent plutôt dans l’expression faciale. La conjonction des deux informations a le potentiel d’améliorer de manière drastique la précision de l’identification d’un état émotionnel. Pour l’instant, le sujet est encore l’objet de travaux de R&D.

Notons encore qu’il existe de multiples API’s de détections d’émotion prête à l’emploi.

Où le Deep Learning fait la différence

L’IA émotionnelle regroupe un ensemble de cas d’utilisation du machine learning pour lesquelles les techniques d’apprentissage profond sont particulièrement bien adaptées. Pour le comprendre, rappelons qu’un algorithme de machine learning supervisé est entraîné au moyen d’une liste d’exemples, chacun étant décrit pas certaines variables prédictives qu’on appelle aussi des « features ». Ces features sont des données numériques qui caractérisent, par exemple, l’image d’un visage ou un extrait audio qui exprime une émotion spécifique, comme la colère, la joie ou la peur. Deux possibilités se présentent alors pour construire ces features.

La première consiste à recourir à une expertise métier, celle d’un physionomiste par exemple, pour construire manuellement ces variables prédictives à partir des traits d’un visage : inclination des sourcils, angles que forme les commissures des lèvres etc. C’est ce que l’on appelle communément le feature engineering. L’inconvénient de ce processus d’extraction manuel des features est qu’il comporte une part d’arbitraire et qu’il n’exploite pas nécessairement l’intégralité de l’information disponible dans une photo ou dans une vidéo.

La deuxième possibilité consiste à utiliser un réseau de neurones profond. Ces algorithmes sont en effet capables de court-circuiter l’étape de feature engineering dans le sens où ils parviennent, pour chaque type de prédiction, à agréger toute l’information utile disponible dans les données brutes, qu’il s’agisse de textes, d’images, de vidéo ou d’échantillons de voix. Pour bénéficier de cet atout il faudra cependant renoncer à interpréter les prédictions d’un tel modèle et disposer d’un grand nombre de d’exemples étiquetés. Comme dans beaucoup de problèmes d’IA c’est là que réside l’une des principales difficultés : construire des jeux de données assez riches pour entraîner les algorithmes de deep learning à reconnaître des émotions.

A quoi il faudra encore ajouter des difficultés d’un autre ordre :

  • Le caractère très privé des données de type émotionnelles fait qu’il est par définition difficile ou voire même interdit d’y avoir accès.
  • Si, pour contourner la difficulté précédente, on demande à des personnes de jouer une émotion, le caractère contraint ou maladroit de leur simulation faussera nécessairement les données.
  • A supposer que des échantillons contenant des émotions exprimées spontanément puissent effectivement être récupérés, il faudra encore procéder à leur étiquetage. La difficulté de l’opération tient alors aux différences très ténues qui distinguent les expressions associées à des émotions comme la peur ou la surprise. On estime que les jugements humains coïncident, au mieux, dans 70% à 80% des cas [AFF] ce qui confère par conséquent un caractère partiellement subjectif à l’étiquetage de données émotionnelles.
  • Des biais culturels ou liés au genre doivent être pris en compte, aussi bien pour la source des émotions que pour l’interprète en charge de les identifier.

Architecture pour la classification de textes*[1]

L’analyse des émotions dans un texte, souvent appelée « sentiment analysis » ou « opinion mining », est une application classique du machine learning qui existait bien avant que n’apparaisse le Deep Learning. La stratégie de base consiste à utiliser un algorithme de machine learning supervisé sur un corpus de texte manuellement étiqueté avec les émotions que l’on souhaite identifier. Dans l’approche élémentaire les variables prédictives sont simplement constituées des fréquences d’apparition, correctement normalisées[2], des principaux termes ou n-grammes qui apparaissent dans le corpus. On appelle cette approche le « bag of words » car elle tient compte uniquement de la fréquence d’apparition des mots sans prendre en considération leur ordre dans les phrases. Bien que rudimentaire, cette approche donne cependant souvent de bons résultats dans les cas simples.

Figure 3 : Une architecture de RNN typique pour la classification de texte par émotion. La couche de Word Embedding (WE) converti chaque mot en un vecteur. Les couches de LSTM convertissent la suite de ces vecteurs en un vecteur qui est injecté dans une ou plusieurs couches denses (FC) en bout de chaîne avec une activation softmax qui attribue une probabilité à chaque émotion.

Pour aller plus loin et tenir compte aussi bien du sens des mots que de leur ordre dans une phrase le Deep Learning offre des solutions plus performantes. Les variantes de réseaux profonds sont nombreuses mais utilisent toutes, peu ou prou, deux ingrédients comme l’illustre la figure 3. Le premier mécanisme est ce qu’on appelle le « word embedding », il encode chaque terme d’une phrase en un vecteur numérique tout en respectant une notion de proximité sémantique au sens où deux termes similaires seront encodés par des vecteurs proches. Le second est l’utilisation d’un réseau de neurones récurrent (RNN) avec une cellule mémoire à long terme, comme les LSTM, ce qui permet de tenir compte de l’ordre chronologique des mots même dans des longues phrases. La sortie du RNN en bout de chaîne, en haut à droite dans la figure 3, encode en principe le sens approximatif de la phrase. Un réseau dense terminé par une couche softmax la convertit enfin en une distribution de probabilité sur les émotions que l’on souhaite détecter. Nous ne présenterons pas ici le détail de ces éléments car nous les avions déjà décrits dans le cadre de notre article consacré au mécanisme d’attention.

Architecture pour la détection d’émotions sur le visage*

Deux options se présentent pour détecter une émotion sur un visage : l’analyse d’une image statique ou l’analyse d’une courte séquence vidéo. L’identification d’une émotion à partir d’une séquence vidéo est plus fiable, on s’en doute, qu’à partir d’une photo mais elle est également beaucoup plus gourmande en ressources. Pour ces deux problèmes de classification nous décrirons succinctement l’architecture type de réseaux de neurones que l’on peut utiliser. Les variantes sont nombreuses et sont l’objet toujours de travaux de recherche. Tous utilisent les réseaux de convolution (CNN) que nous avions succinctement présentés dans l’article consacré au mécanisme d’attention.

Image statique

La classification d’une image statique d’un visage selon l’émotion qu’il exprime peut se faire au moyen d’un CNN classique, où alternent les filtres de convolution et les couches de maxpooling. Les filtres apprennent à reconnaître des caractéristiques utiles propres à chaque échelle de l’image alors que les couches de maxpooling en réduisent progressivement la résolution pour détecter des caractéristiques de plus en plus globales. Comme précédemment, plusieurs couches denses terminées d’une activation softmax achèvent de convertir l’information extraite du CNN en une distribution de probabilité sur les émotions que l’on souhaite détecter.

Figure 4 : un CNN classique utilisé comme classifieur d’émotions.

Séquence vidéo

Classifier en temps réel les expressions d’un visage demande d’utiliser une architecture qui sache tirer parti de l’évolution temporelle de l’expression d’un visage. Pour cela on utilise, comme pour l’analyse d’une phrase écrite, un réseau de neurones récurrent (RNN). L’architecture représentée sur la figure 5 se distingue sur trois points principaux de celle représentée sur la figure 3 :

Figure 5 : L’architecture type d’un RNN qui analyse en temps réel les émotions dans une séquence vidéo. Les CNN convertissent l’image en features qui alimentent une couche de LSTM. Ceux-ci détectent les caractéristiques temporelles de l’évolution du visage. Plusieurs couches denses convertissent finalement, à chaque instant t, la sortie des LSTM en distribution de probabilité sur les émotions à cet instant.
  1. La couche de word embedding (qui convertissait précédemment chaque mot en vecteur) est ici remplacée par un CNN qui convertit l’image à l’instant t en un vecteur. L’empilement des LSTM qui consomme ces vecteurs au cours du temps est similaire à celui de la figure 3.
  2. On s’intéresse cette fois-ci à la sortie des LSTM à chaque instant et non plus seulement à la fin de la séquence car l’émotion que l’on souhaite détecter peut varier au cours du temps.
  3. Les couches denses en charge du calcul de la distribution de probabilité sur les émotions à l’instant t sont alimentées à la fois par la sortie des couches de LSTM, ce qui permet prendre en compte de l’évolution de l’expression du visage avant cet instant t et, directement, par la sortie du CNN, ce qui permet de tenir compte de l’expression à cet instant même.

Architecture pour la détection d’émotions dans la voix*

L’analyse d’une séquence audio (SER)[3] est très similaire à l’analyse d’une séquence vidéo présentée précédemment. Dans un premier temps, le signal audio est convertit en un spectrogramme temps fréquence au moyen d’une transformation de Fourier à court terme (STFT). Ce spectrogramme peut s’envisager comme l’équivalent de la séquence vidéo de l’exemple précédent. Cette image 2D qui varie au court du temps va alimenter un RNN dont l’architecture est similaire [SER] à celle utilisée pour la détection d’émotions dans des séquences vidéo. Le canal de communication direct entre les CNN les couches denses n’a pas d’utilité dans ce cas.

Figure 6 : L’extrait audio est dans un premier temps convertit au moyen d’une transformation de Fourier à court terme (STFT) en un spectrogramme. Ce spectrogramme est l’analogue de la vidéo de la figure 5. Il alimente un RNN dont l’architecture est similaire à celle utilisée pour l’analyse de séquences vidéo.

La petite taille des jeu données disponibles est l’une des principales difficultés à surmonter pour construire un système SER. Certains progrès récents reposent davantage sur des techniques d’enrichissement de données (data augmentation) que sur des améliorations algorithmiques. Une équipe chinoise prétend avoir mis au point une telle technique qui a ferait passer la précision de reconnaissance des émotions de 70% à 99%. La phrase est ici mise au conditionnel car on peut légitimement douter qu’un score aussi stalinien ne soit en réalité symptomatique d’un banal phénomène de surapprentissage. Leur technique consiste à distordre chaque spectrogramme de différente manière pour en créer plusieurs équivalents en termes de contenu émotionnel [ABR].

Une autre difficulté, propre à la modalité vocale, tient au fait qu’un algorithme audio n’analyse que l’intonation de la voix sans tenir compte du sens des mots que contient le message. Un humain intègrera quant à lui l’information sémantique de la phrase à son appréciation, si bien qu’il saura déceler sans peine la colère contenue d’un message d’insultes prononcé à voix basse. Cette interférence entre le sens des mots et l’intonation d’un message risque de fausser une partie des jeux de données.

Une vaste duperie ?

Tout système de traitement de l’information pose des questions éthiques car nos actions et nos jugements sont influencés par l’information à laquelle nous accédons. L’élaboration de systèmes capables de détecter des émotions humaines ne fait pas exception et pose même certaines questions inédites que nous décrivons brièvement.

Le cœur du problème en l’occurrence réside dans l’asymétrie fondamentale qui existe entre une machine capable d’identifier une émotion humaine sans toutefois en ressentir elle-même. Dis autrement, on peut se poser la question de savoir si une information émotionnelle ne devrait pas être traitée uniquement par des « êtres » capables d’éprouver les émotions qu’ils détectent chez leurs semblables. Sans recours possible à un mécanisme d’empathie, l’usage de cette information risque-t-elle pas d’être une forme de tromperie ou d’usurpation de conscience ?

La question prend d’autant plus d’acuité qu’une émotion est souvent associée, explicitement ou implicitement, à un jugement moral. Ainsi, dans nombre de circonstances la colère est assimilée à un manque de maîtrise de soi. La tristesse est parfois associée à de la faiblesse, la surprise à de la naïveté etc… Dès lors, déléguer à une machine, par essence faillible, la détection d’une information susceptible d’influer notre jugement moral, et par conséquent nos actions à l’égard d’une personne, peut poser question. Le caractère opaque des réseaux de neurones, qui est en fait la contrepartie de leurs capacités prédictives, complique encore la donne car il rend difficile, voire impossible, toute justification de leurs analyses en termes humainement intelligibles. L’exemple extrême est celui du détecteur de mensonge dont plusieurs études [LID, TDE] ont démontrés qu’ils étaient plus enclins à stigmatiser des innocents qu’à détecter d’authentiques mensonges.

L’une des applications emblématiques et d’ores et déjà utilisée de la reconnaissance d’émotion est le coaching de conseillers clientèles dans des call center, nous l’avons déjà évoqué. On peut imaginer que, généralisé et poussé à l’extrême, ce genre d’usage pourrait conduire à une forme inédite de taylorisme. Chaque employé serait relégué au rang de simple nœud de traitement de l’information, un nœud qu’il s’agit d’optimiser, ou peut-être faudrait-il parler plutôt de dressage en l’occurence, grâce à l’IA émotionnelle. Se dessine alors une dystopie par l’uniformisation des comportements au nom de l’efficacité et de la sacro-sainte satisfaction du client.

Si l’hypothèse précédente peut paraître un tantinet sombre, d’autres phénomènes d’uniformisation ou d’appauvrissement, de produits cette fois, paraissent en revanche plus plausibles. Disney est par exemple en train de mettre au point un système capable de mesurer en temps réel les réactions d’une audience face aux blagues du scénario de Toy Story 5 [DBF]. De là, il n’y a qu’un pas pour entrevoir une normalisation de toute sortes de produits culturels ou de divertissement. Ou alors, à l’inverse, on peut imaginer une segmentation fine de produits, scientifiquement calibrés, pour rencontrer telle ou telle micro-population, un peu à l’image de ces sites de rencontre spécialisés dans une micro-niche socio-culturelle.

Plus subtiles pourrait être les conséquences de l’IA émotionnelle sur notre libre arbitre. Imaginons une situation où une IA émotionnelle aurait détecté du stress ou de la peur chez une personne et serait programmée pour adapter son message afin d’éviter d’accroitre chez cette personne les émotions négatives. L’information qu’elle reçoit serait alors tributaire de son état émotionnel plutôt que de sa faculté de jugement qui lui dicterait, peut-être, un comportement différent si elle avait accès à une information non filtrée. Le courage en effet n’est pas l’absence de peur ou de stress mais bien la capacité à les surmonter pour agir en pleine conscience. Une capacité qui serait en l’occurrence court-circuitée par l’IA, privant un individu d’une part de son libre arbitre.

On le voit, les questions éthiques sont nombreuses et encore largement ouvertes. En l’absence d’un « serment d’Hippocrate » pour les guider, les concepteurs d’IA et les experts en neuromarketing pourront toujours commencer par méditer, si ce n’est déjà fait, le célèbre impératif catégorique kantien :

Traites toujours autrui comme une fin et jamais seulement comme un moyen !

Emmanuel Kant (1724-1804)

Références

Notes

[1] Cette section ainsi que les deux suivantes marquées d’un * présuppose une certaine familiarité avec le fonctionnement des réseaux de neurones récurrents.

[2] Les fréquences TD-IDF sont le plus souvent utilisées.

[3] SER = Speech Emotion Recognition

Newsletter

Inscrivez-vous à notre newsletter pour recevoir nos dernières actualités*

Les informations recueillies sur ce formulaire sont enregistrées dans un fichier informatisé de gestion des Clients et Prospects (CRM).

Le Responsable de traitement est la société weave, 37 rue du rocher 75008 Paris RCS Paris 802 396 085.

Elles sont destinées à l’activité marketing du groupe weave ainsi quà celle de ses filiales, à l’exclusion de tout transfert hors de l’UE. Elles sont conservées pour une durée conforme aux dispositions légales (par exemple 3 ans pour les données prospects).

Ce traitement nécessite votre consentement que vous pourrez retirer à tout moment sans que cela ne remette en cause sa licéité.

Conformément à la loi « Informatique et Libertés » et au règlement européen n°2016/679, vous bénéficiez d’un droit d’accès, de rectification ou d’effacement, ainsi que d’un droit à la portabilité de vos données ou de limitation du traitement. Vous pouvez également pour des raisons tenant à votre situation particulière, vous opposer au traitement de vos données et donner des directives relatives à la conservation, à l’effacement et à la communication de vos données après votre décès. Vous disposez également du droit d’introduire une réclamation auprès de la Commission Nationale de l’Informatique et des Libertés (www.cnil.fr).

Vous pouvez exercer vos droits en nous contactant à l’adresse vosdonnees@weave.eu.

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour mesurer notre audience, vous proposer des contenus et des offres personnalisées, ainsi que des fonctionnalités de partage sur les réseaux sociaux. En savoir plus sur notre politique de cookies et notre charte des données personnelles