IA Lab

L’inné & l’acquis en IA : quel rôle pour le savoir a priori ?

19 juin 2018




Résumé

Cet article examine le rôle du savoir a priori par rapport à l’apprentissage à partir de données dans le Machine Learning, dit autrement le rôle de l’inné par rapport à celui de l’acquis. Deux exemples tirés du règne animal illustreront notre propos de manière très concrète. La nécessité d’un savoir à priori est formulée de manière théorique (sans formalisme) puis illustrée au moyen de plusieurs exemples de l’IA comme la classification d’image ou la reconnaissance d’écriture manuscrite. Le rôle de ce savoir inné dans la compréhension du langage naturel est évoqué.

  1. Pourquoi les rats sont plus intelligents que les pigeons
  2. Les biais indispensables du Machine Learning
  3. Une clé pour les progrès de l’IA

Pourquoi les rats sont plus intelligents que les pigeons

Qu’est-ce que la faculté d’apprendre sinon la capacité à transformer de l’expérience en une expertise ? Automatiser ce processus est aujourd’hui l’un des principaux objectifs de l’IA dont le machine learning (ML) supervisé est la forme la plus courante, la plus solide sur le plan conceptuel et la plus rentable économiquement [MLD, MLN].

A l’heure où nous essayons de construire des systèmes apprenants, il n’est peut-être pas infondé de nous tourner vers la nature pour examiner quelles « solutions » elle a mis en œuvre pour produire des mécanismes d’apprentissage efficaces, notamment dans le règne animal. Apprendre à partir de l’expérience est évidemment vital pour la survie d’un animal, notamment lorsqu’il doit trouver de la nourriture en quantité et en qualité suffisante.

En prenant un peu de liberté avec les termes, on pourrait par ailleurs envisager l’évolution des espèces elle-même comme un gigantesque processus d’apprentissage (par renforcement) étalé sur plusieurs centaines de millions d’années dans la biosphère terrestre. Dans le comportement d’un animal interviennent donc deux processus d’apprentissage. Le premier, à très long terme, pilote en quelque sorte l’évolution de l’espèce par le mécanisme de sélection naturelle qui fabrique des individus aptes à la survie dans leur biotope et à… apprendre efficacement ! Le second mécanisme d’apprentissage, à l’échelle de la vie d’un individu, lui permet d’optimiser son comportement pour maximiser son bien-être durant sa brève existence. C’est ce second processus qui nous intéresse plus directement.

Plusieurs expérimentations en psychologie cognitive ont cherché à comprendre les ressorts de l’apprentissage chez différentes espèces. Dans une expérience désormais célèbre, le physiologiste B.F. Skinner [BFS] a enfermé des pigeons affamés dans une cage, la nourriture leur étant distribuée à intervalle régulier. L’observation cruciale de Skinner a été de constater que les pigeons avaient tendance à reproduire l’activité dans laquelle ils étaient engagés (roucouler, secouer la tête, picorer etc…) lorsque la nourriture leur est distribuée pour la première fois. Les pigeons étaient superstitieux dans le sens où ils déduisaient une relation de cause à effet là où il n’y avait en réalité qu’une concomitance fortuite d’évènements. Chaque nouvelle distribution de nourriture avait dès lors de grandes chances de trouver l’animal occupé à son activité superstitieuse contribuant ainsi à renforcer encore la pauvre bête dans sa fausse croyance.

Le comportement des rats dans leur quête de nourriture est très différent [UML]. On sait qu’ils sont excessivement prudents face à un aliment qu’ils n’ont jamais vu. Ils n’en ingèrent qu’une très faible quantité et en mémorisent toutes les caractéristiques olfactives et visuelles. Si l’aliment devait provoquer un mal-être, même léger, il serait simplement proscrit de toute consommation future. Des chercheurs facétieux se sont alors demandés s’il était possible d’induire des rats en erreur au moyen de faux stimulus. Après chaque ingestion de nourriture par ces animaux ils leurs ont infligés des chocs électriques douloureux. De manière très surprenante ces chocs électriques n’ont pas réussi à conditionner les comportements des rats face à la nourriture. Des millions d’années d’évolution leur ont visiblement inculqué la ferme conviction qu’aucune nourriture ne peut être à l’origine d’un choc électrique ! La capacité des rats à apprendre correctement à partir des observations tient en l’occurrence à ce savoir inné. On peut en revanche interpréter l’ingénuité des pigeons comme un manque de savoir à priori sur ce qui est raisonnable.

De quoi l’on déduit deux vérités fondamentales : d’une part que les rats ont plus de bon sens que les pigeons (CQFD) et d’autre part que la faculté d’apprentissage tient à la confrontation de l’observation avec un savoir à priori. C’est le sujet de la suite de cet article.

Les biais indispensables du Machine Learning

Pour ceux qui en douteraient, la petite digression animalière qui précède ne relève pas de la simple blague potache. Bien au contraire, la question du savoir à priori se niche au cœur même du Machine Learning, qu’il s’agisse des applications pratiques, de sa théorie ou des questions encore ouvertes de l’IA comme la conception de machines qui comprennent (vraiment) le langage naturel.

Pour concrétiser ce propos, examinons l’exemple élémentaire d’apprentissage automatique illustré dans la figure ci-dessous, ce qui nous permettra de faire pièce à deux idées reçues :

Idée reçue n°1 : « Le ML finalement c’est avant tout de la data ». Faux !

Idée reçue n°2 : « Dans le ML il faut éliminer tous les biais ». Re-faux !

Un échantillon d’observations réparties en deux catégories : les points orange et les points verts. Apprendre à classer de nouveaux points revient à tracer une courbe séparant au mieux ces deux catégories. Trois possibilités sont illustrées.

A partir d’un ensemble d’observations réparties en deux catégories, les points oranges et les points verts, il s’agit de prédire la couleur d’un nouveau point à partir de sa position. En d’autres termes il s’agit de tracer une courbe qui sépare au mieux les deux catégories de points. La figure propose trois solutions : (a) semble raisonnable mais commet toutefois 2 erreurs, (b) semble ne commet aucune erreur mais est vraisemblablement trop spécifique au jeu de données pour être généralisable, (c) utilise une simple droite et commet 3 erreurs.

Le bon sens ou, si l’on préfère, une certaine « connaissance métier » nous incitera probablement à choisir la solution (a) car c’est celle qui semble apte à la généralisation.

Notre capacité à prédire repose donc non seulement sur les données que nous observons mais aussi sur un biais inductif qui nous fait penser que certaines prédictions seront meilleures que d’autres.

Cette observation s’avère vraie en général : sans données, pas de prédictions certes, mais sans spécialisation du modèle non plus ! Cette impossibilité est la conséquence d’un résultat théorique, connu sous le sobriquet de No-Free-Lunch-Theorem (NFLT), que l’on peut formuler en terme intuitifs ainsi :

Il n’existe pas d’algorithme universel, un algorithme doit nécessairement être spécialisé à un domaine suffisamment restreint pour que l’on soit en mesure de formuler un biais inductif.

Plus précisément on peut montrer que :

« Si quelqu’un prétend avoir découvert un algorithme universel, capable d’apprendre à partir des seules données, on pourra le détromper en construisant un jeu de données que son algorithme ne parviendra pas à exploiter, quel que soit la quantité d’observations qu’il ingurgite, alors qu’un autre algorithme y parviendra ! »

Une version plus fine du résultat précédent [UML] quantifie le nombre d’observations nécessaires à un apprentissage efficace en fonction de la fréquence et de l’amplitude des erreurs de prédiction que l’on est prêt à admettre et, c’est le point essentiel, en fonction de la richesse de notre connaissance à priori[1]. Plus cette connaissance à priori est faible, plus il nous faudra d’observations pour apprendre à faire des prédictions fiables. Dans la situation extrême où nous ne connaissons rien à priori, il nous faudra une infinité d’observations et l’apprentissage sera par conséquent impossible, ce qu’énonce précisément le NFLT.

Après ce petit détour indispensable par la théorie du ML, revenons aux implications pratiques de l’importance du savoir à priori avec quelques exemples moins académiques que la classification binaire de la figure 1.

Les systèmes de recommandations

Les systèmes de recommandations sont l’une des applications les plus courantes du ML supervisé. En bref, il s’agit de prédire l’affinité d’un client pour un produit ou un service à partir d’un historique de comportement (d’achat, de location, de consultation etc…).

La connaissance à priori exploitée dans ce cas consiste pour part à faire un choix éclairé des caractéristiques prédictives des personnes à qui l’on souhaite faire des recommandations : comment caractériser leur goût, leurs envies, leur historique d’interaction avec un site d’e-commerce etc. Il consiste aussi à sélectionner un modèle prédictif capable de prédire une affinité pour un produit à partir de ces caractéristiques.

Bref, tout l’art du data scientist consiste précisément à trouver le bon biais inductif !

La classification d’images

La classification d’image est aujourd’hui un problème essentiellement résolu de l’IA, grâce notamment aux réseaux de neurones de convolution (CNN) [LMA]. Il va de soi que la catégorisation d’objet ne devrait dépendre ni de sa position (invariance de translation), ni de son orientation dans l’image (invariance de rotation). De fait, les CNN incorporent dans leur architecture le principe d’invariance de translation. En revanche ils n’incorporent pas l’invariance par rotation, raison pour laquelle ils devront apprendre ce fait à partir d’images qui représentent un même objet sous des angles différents.

Des recherches récentes [HCN] d’un des pionniers des réseaux neuronaux, G. Hinton, tentent d’incorporer l’invariance de rotation dans une architecture d’un nouveau type appelés capsules networks.

L’enjeu est celui que nous avons mentionné précédemment : avec un savoir à priori plus important, on pourra réduire drastiquement le nombre d’observations nécessaires à l’entraînement !

La reconnaissance de l’écriture manuscrite :

Les algorithmes classiques de reconnaissance de l’écriture manuscrite exploitent le ML supervisé et sont entraînés avec des milliers d’exemplaires de chaque lettre de l’alphabet. Ils utilisent les CNN mentionnés précédemment. Dans un travail récent [HLC, SMD], l’équipe du prof. J. Tenenbaum du MIT est parvenu à construire un système qui apprend à lire comme le font les humains, à partir de seulement quelques exemples de chaque lettre et même d’un seul exemple (one-shot-learning). Pour cela les chercheurs ont construit un modèle détaillé qui explique comment les humains calligraphient un caractère quel qu’il soit, typiquement pas juxtaposition d’une succession de segment de courbes. Après avoir conçu ce modèle statistique d’écriture (dont les détails sont complexes) ils l’ont injecté dans le modèle de reconnaissance de caractères. Ce nouveau système, qui sait désormais comment les humains tracent des caractères, s’avère plus fiable dans la tâche de reconnaissance de l’écriture manuscrite que ne le sont les humains et les réseaux de neurones les plus performants !

Là encore, la richesse du savoir à priori incorporé au système l’a en quelque sorte dispensé d’avoir à l’apprendre et a contribué à diminuer d’un facteur mille le nombre d’observations nécessaires à l’apprentissage !

Une clé pour les progrès de l’IA

Grâce aux exemples précédents, on constate que le savoir à priori est au cœur de deux problématiques liées et fondamentales de l’IA :

  • La performance du processus d’apprentissage comprise comme la capacité d’un système prédictif à exploiter des jeux de données de petite taille (Small Data) [SMD].
  • L’idée d’incorporer à une IA un ensemble d’éléments de bon sens compris comme un ensemble de faits que l’algorithme ne devrait pas avoir à apprendre.

Ce savoir à priori peut revêtir deux formes. La première consiste en une connaissance, plus ou moins détaillée, du mécanisme qui produit les observations, c’est l’exemple du mécanisme d’écriture qui explique comment sont dessinées des lettres. La seconde consiste à postuler que certains types de prédictions sont plus plausibles que d’autres, c’est l’exemple de la classification binaire où l’on présuppose que la courbe séparatrice ne fait pas trop de contorsions.

Ce qui rend fascinante la question du savoir inné en IA c’est qu’elle est largement ouverte et suscite de vifs débats entre les spécialistes eux-mêmes. Dans le domaine du traitement du langage naturel (NLP) en particulier, un débat récent [IPR] a permis de confronter les points de vue de deux géants de l’IA, Yann LeCun (YLC), l’inventeur créateur des CNN, et Christopher Manning (CM), un linguiste de renom à Stanford. Sans être complètement irréconciliables, leurs points de vue sont cependant très contrastés.

YLC soutient que la tendance ces dernières années dans le modèle de Deep Learning va dans le sens de toujours moins de savoir à priori incorporé dans l’architecture des RN et de toujours plus de données. En effet, il faut savoir que les modèles de Deep Learning utilisés à ce jour en NLP ne connaissent rien ni de la grammaire et ni de la syntaxe d’une langue et moins encore du sens des mots qui relève d’une expérience sensorielle de la réalité. Les modèles de traduction automatique se contentent de prédire quel mot succède à telle suite de mots dont ils ignorent cependant complètement le sens ! A l’appuis de sa thèse, YLC invoque précisément les progrès réalisés récemment dans ce domaine. S’il ne nie pas la nécessité d’inclure un savoir à priori dans les modèles pour construire des machines authentiquement « comprenantes », il estime cependant qu’il doit émerger de progrès en apprentissage non supervisé plutôt que d’être encodé en dur dans l’architecture des RN.

CM ne nie pas ces progrès mais il estime que le NLP a été un peu perverti par cette approche par force brutale (toujours plus de données, toujours plus de GPU !) car elle tend à éluder les questions difficiles sur la nature du savoir inné à l’œuvre dans l’apprentissage d’une langue chez les humains. Il estime que les modèles utilisés en NLP aujourd’hui sont beaucoup trop superficiels en ne permettant pas l’émergence d’une couche de représentation symbolique dans laquelle se niche la capacité d’abstraction. Pour cela, dit-il, il faut se poser la question de la nature du savoir à priori à injecter dans l’architecture des RN. A l’appui de son propos, il invoque le mécanisme d’attention [LMA] qui est un parti pris d’architecture qui a fait ses preuves en NLP et en description d’images.

La nature a de tout évidence trouvé un excellent compromis entre savoir a priori et apprentissage à partir de l’expérience. Pour l’instant ce compromis garde largement son mystère. Pour l’élucider, des disciplines comme les sciences cognitives ou la linguistique pourraient donc jouer un rôle central dans les avancées de l’IA.

Notes

[1] Dans le cadre de la théorie mathématique de l’apprentissage PAC on mesure la complexité de la classe d’hypothèses parmi laquelle notre algorithme sélectionne un prédicteur. Plus la classe est riche moins notre biais inductif est important. Les mesures de complexité sont par exemple la VC-dimension ou la complexité de Rademacher [UML].

Références

 

L'Intelligence Artificielle,
au-delà des clichés

Livre blanc
Comprendre pour décider
Découvrez l'Intelligence Artificielle pour l'intégrer dès maintenant à vos enjeux stratégiques !
Téléchargez gratuitement

Les informations recueillies sur ce formulaire sont enregistrées dans un fichier informatisé de gestion des Clients et Prospects (CRM).

Le Responsable de traitement est la société weave, 37 rue du rocher 75008 Paris RCS Paris 802 396 085.

Elles sont destinées à l’activité marketing du groupe weave ainsi quà celle de ses filiales, à l’exclusion de tout transfert hors de l’UE. Elles sont conservées pour une durée conforme aux dispositions légales (par exemple 3 ans pour les données prospects).

Ce traitement nécessite votre consentement que vous pourrez retirer à tout moment sans que cela ne remette en cause sa licéité.

Conformément à la loi « Informatique et Libertés » et au règlement européen n°2016/679, vous bénéficiez d’un droit d’accès, de rectification ou d’effacement, ainsi que d’un droit à la portabilité de vos données ou de limitation du traitement. Vous pouvez également pour des raisons tenant à votre situation particulière, vous opposer au traitement de vos données et donner des directives relatives à la conservation, à l’effacement et à la communication de vos données après votre décès. Vous disposez également du droit d’introduire une réclamation auprès de la Commission Nationale de l’Informatique et des Libertés (www.cnil.fr).

Vous pouvez exercer vos droits en nous contactant à l’adresse contact@weave.eu.

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour mesurer notre audience, vous proposer des contenus et des offres personnalisées, ainsi que des fonctionnalités de partage sur les réseaux sociaux. En savoir plus sur notre politique de cookies et notre charte des données personnelles