IA Lab

Pourra-t-on bientôt se passer de data scientist ?

27 avril 2018

Un pas supplémentaire dans l’automatisation

Concevoir un programme informatique est une démarche qui vise à automatiser une tâche. Si l’on souhaite par exemple évaluer les risques qu’un emprunteur ne rembourse pas son crédit et que l’on connaît des règles qui déterminent ce risque, disons à partir de son taux d’endettement et de ses revenus, il suffira de coder ces règles dans un programme pour automatiser ce calcul. La programmation est donc un premier niveau d’automatisation.

Que faire cependant si l’on ne connait pas ces règles ? C’est là qu’intervient le machine learning ! La machine va apprendre, par elle-même, ces règles à partir d’un échantillon représentatif de données de personnes ayant remboursé ou non leur crédit. On peut donc envisager le machine learning comme une automatisation de l’automatisation. En effet, la programmation explicite par un humain a été remplacée par un apprentissage automatique.

La conception de modèles prédictifs est toutefois un métier en soi. C’est celui des data scientist. La pénurie de compétences fait que ces compétences restent aujourd’hui couteuses. Dès lors se pose la question : pourrait-on aller encore un cran plus loin et automatiser le travail des data scientist ?

On aurait alors réalisé l’automatisation de l’automatisation de l’automatisation !

Ce qu’on peut raisonnablement automatiser

Des outils commencent à apparaître qui prétendent parvenir à cette dernière phase d’automatisation. On les regroupe sous la bannière de l’Auto-ML.

Ce sont des interfaces de programmation qui s’adressent avant tout aux… data scientist eux-mêmes ! Pour mieux comprendre ce que font vraiment ces outils il faut rapidement revenir sur les principales étapes du travail d’un data scientist qui conçoit un modèle prédictif.

Ainsi on comprendra mieux ce qui est automatisable et ce qui ne l’est pas :

  1. La récupération des données à partir de sources multiples
  2. Le nettoyage des données qui consiste, entre autres, à éliminer les valeurs aberrantes
  3. La sélection des informations utiles aux prédictions
  4. La transformation des données pour les rendre assimilables par un algorithme
  5. L’enrichissement des données par des données supplémentaires
  6. Le choix d’un ou plusieurs algorithmes prédictifs
  7. L’optimisation du modèle

Récupérer des données exige d’avoir une connaissance approfondie du SI qui les exploite. Par ailleurs les questions de droit d’accès et de gouvernance jouent un rôle important à ce stade si bien qu’il est illusoire d’espérer automatiser cette phase avant longtemps. La phase de nettoyage exige, elle aussi, une appréciation humaine et ne peut aisément s’automatiser.

Quant à l’enrichissement, il demande d’effectuer des recherches pour trouver, parfois hors de l’entreprise, des sources de données complémentaires et n’est donc pas automatisable non plus. Restent les quatre rubriques figurant en vert qui sont, elles, effectivement largement automatisables.

illustration "pourra-t-on se passer de data scientist ?"

A qui s’adressent les outils d’Auto-ML ?

Les systèmes d’Auto-ML sont souvent présentés par les éditeurs comme un moyen de démocratiser la data science. Le rêve serait de rendre accessible la conception de modèles prédictifs à des experts métiers sans connaissances approfondies en machine learning.

Cette affirmation est toutefois trompeuse. D’une part les phases non automatisables exigent de l’intuition que seule une formation en data science pourra apporter. D’autre part l’analyse du dysfonctionnement d’un modèle requiert, là encore, des intuitions d’analyse statistique dont on ne peut faire l’économie.

Les systèmes d’Auto-ML sont donc prioritairement destinés aux data scientist aux mêmes. Le travail d’un data scientist s’apparente à celui de développeur mais avec des contraintes supplémentaires pour ce qui est du débogage. La source principale de difficulté tient au fait que les erreurs de conception peuvent se nicher dans chacune des phases 2–7. Par ailleurs, chaque correction demandera par ailleurs un nouvel entraînement du modèle si bien que le cycle de débogage est particulièrement lent et laborieux. Dans un tel contexte les outils d’Auto-ML simplifieront la tâche des data scientist en effectuant de manière rapide et systématique des opérations fastidieuses comme l’exploration de différentes configurations des modèles.

Les outils d’Auto-ML sont donc avant tout des outils de productivité pour les data scientists.

Comment fonctionnent-ils ?

En simplifiant on peut dire que les outils d’Auto-ML automatisent l’exploration d’un grand nombre de modèles dont ils évaluent systématiquement la précision des prédictions sur des données de validation. Comme il est inconcevable, pour des raisons de temps de calcul, d’effectuer une exploration exhaustive, ils utilisent différentes techniques statistiques pour optimiser cette exploration. Lorsqu’il s’agit d’évaluer un nouveau modèle, un système d’Auto-ML effectue un compromis entre une stratégie d’exploitation, qui consiste à ne pas prendre de risques et à tester un nouveau modèle offrant de fortes chances d’être un peu plus performant que les précédents, et une stratégie d’exploration, qui consiste à prendre plus de risques mais pour de plus grands gains de performance.

Certains systèmes d’Auto-ML capitalisent par ailleurs l’expérience acquise sur des jeux de données connus pour lesquels on connaît explicitement les algorithmes et les configurations qui fonctionnent bien.

D’autres systèmes encore utilisent des algorithmes génétiques. L’idée est de concevoir chaque modèle prédictif comme une créature dont on fait évoluer l’ADN par mutations et par croisements successifs jusqu’à obtenir une créature assez performante.

Le cas des réseaux de neurones est un peu particulier. Rappelons qu’il s’agit de modèles prédictifs un peu particuliers dont l’architecture présente certaines similitudes avec le cortex cérébral. D’une part ils intègrent déjà la capacité à trouver une bonne représentation des données et sont par conséquent moins concernés par la phase 3. D’autre part la phase d’optimisation 7 consiste en l’occurence à trouver une architecture du réseau adaptée au besoin, une tâche que seuls quelques rares spécialistes maîtrisent aujourd’hui.

Les équipes de R&D de Google mènent actuellement un important effort de recherche pour tenter d’automatiser la conception de ces architectures, ceci afin de démocratiser l’accès aux technologies d’apprentissage profond.

Réponse à la question du titre

La réponse, on l’a deviné, est : non ! Le rêve d’automatiser la data science demeurera pour longtemps encore… un rêve et il restera des data scientist à la surface de la Terre tant que la curiosité et l’imagination n’auront pas été automatisées.

 

Retrouvez également dans notre livre blanc “L’Intelligence Artificielle au-delà des clichés” pour en savoir plus sur l’automatisation de la data science.

L'Intelligence Artificielle,
au-delà des clichés

Livre blanc
Comprendre pour décider
Découvrez l'Intelligence Artificielle pour l'intégrer dès maintenant à vos enjeux stratégiques !
Téléchargez gratuitement

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour mesurer notre audience, vous proposer des contenus et des offres personnalisées, ainsi que des fonctionnalités de partage sur les réseaux sociaux. En savoir plus.