Décryptage Machine Learning header
IA Lab

Le Machine Learning décrypté

19 avril 2018

Retrouvez la première partie de cette article : « Existe-t-il des IA créatives ? » en cliquant ici


L’apprentissage supervisé au service du business

Aujourd’hui, 95% des applications business de l’IA relèvent du machine learning supervisé. C’est ainsi qu’on appelle un ensemble de techniques mathématiques et statistiques qui permettent à une machine d’apprendre à faire des prédictions à partir d’exemples.

Grâce à l’apprentissage supervisé, les entreprises peuvent établir des prédictions “business” à partir des données. Les cas d’usage sont de plus en plus nombreux. On peut, par exemple, déterminer la probabilité qu’un individu rembourse un crédit, faire des recommandations de produits et/ou services à telle ou telle cible, évaluer le risque de résiliation, prédire le risque d’être atteint d’une certaine affection à partir de symptômes etc….

Qu’entend-on par apprendre au juste ?

Au préalable et avant toute démarche d’apprentissage, il est nécessaire pour le data scientist de réaliser un travail de préparation. Cela passe par un nettoyage de données – dans le cas où certaines d’entre elles manquent ou sont aberrantes – mais aussi par le croisement de plusieurs sources de données disparates, afin de correctement alimenter le ou les algorithmes qui ne sont capables d’ingurgiter que des chiffres. A ce jour, il existe une petite dizaine d’algorithmes ou de classes d’algorithmes utilisés en pratique. Il faut bien comprendre que le travail d’un data scientist ne consiste pas à inventer de nouveaux algorithmes mais à choisir, en utilisant son intuition et l’expertise métier, quelles sont les données vraiment utiles pour faire des prédictions.

On parle d’entraînement d’un algorithme. En fait c’est au moment d’entraîner un algorithme qu’il apprend. L’entraînement consiste pour un algorithme à passer en revue des données pour lesquelles on connaît le résultat qu’un prédicteur idéal devrait produire (c’est l’origine du terme supervisé) et à essayer de faire différentes prédictions. En ajustant petit à petit certains paramètres l’algorithme va faire en sorte que les erreurs qu’il commet diminuent progressivement, pour atteindre finalement une valeur acceptable.

Machine Learning pour les Nuls - weave

Le compromis fondamental du machine learning

L’étape précédente consiste donc dans un premier temps pour un algorithme à parvenir à reproduire des résultats connus. Mais ce qui est vraiment utile et intéressant c’est naturellement de faire des prédictions pour des données que l’algorithme n’a jamais vues au préalable. On parle à ce titre de généralisation.

Pour que cette généralisation soit possible, il faut que deux conditions soient réunies. La première est qu’il faut disposer de suffisamment de données dans le jeu d’entraînement pour que les données encore jamais vues soient raisonnablement proches des exemples. L’ajustement des paramètres durant l’entraînement conduira alors l’algorithme à faire une extrapolation raisonnable à partir des données déjà vues. Par raisonnable on entend le fait que la prédiction entre deux données connues va varier de manière assez régulière. La seconde condition est donc que les prédictions soient relativement régulières.

Il s’agit alors d’éviter un double écueil. Si on exige de l’algorithme qu’il fasse des prédictions très régulières, cela se fera au prix d’une rigidité qu’il l’empêchera de parvenir à une erreur faible sur les données d’entraînement. Si en revanche on n’exige aucune forme de régularité de l’algorithme il pourra s’adapter au jeu de données d’entraînement, au prix de contorsions peu vraisemblables ce qui le conduira à commettre d’importantes erreurs sur des données qu’il n’a jamais vues.

Tout l’art du machine learning consiste par conséquent à résoudre ce dilemme : ni trop régulier, ni pas assez !

En pratique on met à l’épreuve un algorithme sur des données dites de validation distinctes de celles utilisées pour l’entraînent et on ajuste le degré de flexibilité pour que l’erreur commise sur ces données de validation soient aussi faible que possibles. Un fois la flexibilité optimale trouvée on va évaluer la précision de l’algorithme sur un troisième jeu de données, dites de test, distinctes à la fois des données d’entraînement et de validation. Cela donnera une bonne estimation de la précision de l’algorithme une fois qu’il aura été mis en production. A condition toutefois que les données de test soient bien représentatives de la réalité à laquelle l’algorithme sera confronté.

Terminons ce bref survol en énumérant quelques qualités que l’on peut attendre d’un algorithme de machine learning. La première est la précision : l’algorithme doit faire peu d’erreurs. Encore faut-il préciser comme on les mesure. On utilise pour cela différentes fonctions de coût qui quantifie les erreurs commises. L’algorithme ne doit pas consommer trop de ressources, ni pour son entraînement, ni pour la phase de prédiction surtout si cette dernière doit se faire en temps réel. Enfin, la GRPD qui entrera en vigueur le mois prochain, exige dans bien des cas que l’on soit en mesure d’expliquer les prédictions que fait un système. C’est là une contrainte forte que ne satisfont pas tous les algorithmes, notamment les réseaux de neurones profonds, le fameux deep learning.

En pratique on peut être amener à choisir entre un algorithme très performant en terme de précision et un autre moins performant mais plus « explicable »

Enfin, pour être juste, il faut préciser que la réalité est plus complexe que ce que ne le laisse penser notre petite esquisse. La majorité des problèmes de prédictions combinent en réalité les prédictions de plusieurs algorithmes pour parvenir à de bons résultats, mais laissons ces subtilités aux data scientist qui s’en délectent.

Découvrez la suite de cet article : « L’IA peut-elle être aussi créative que l’homme ? » en cliquant ici.

Retrouvez également dans notre livre blanc “L’Intelligence Artificielle au-delà des clichés” les enjeux de sécurité et les raisons pour lesquelles le Machine Learning peut représenter un risque.

Pour en savoir plus sur le machine learning avec une approche pour non spécialiste on pourra consulter l’ouvrage Big Data et Machine Learning – Dunod 2016.

L'Intelligence Artificielle,
au-delà des clichés

Livre blanc
Comprendre pour décider
Découvrez l'Intelligence Artificielle pour l'intégrer dès maintenant à vos enjeux stratégiques !
Téléchargez gratuitement

Les informations recueillies sur ce formulaire sont enregistrées dans un fichier informatisé de gestion des Clients et Prospects (CRM).

Le Responsable de traitement est la société weave, 37 rue du rocher 75008 Paris RCS Paris 802 396 085.

Elles sont destinées à l’activité marketing du groupe weave ainsi quà celle de ses filiales, à l’exclusion de tout transfert hors de l’UE. Elles sont conservées pour une durée conforme aux dispositions légales (par exemple 3 ans pour les données prospects).

Ce traitement nécessite votre consentement que vous pourrez retirer à tout moment sans que cela ne remette en cause sa licéité.

Conformément à la loi « Informatique et Libertés » et au règlement européen n°2016/679, vous bénéficiez d’un droit d’accès, de rectification ou d’effacement, ainsi que d’un droit à la portabilité de vos données ou de limitation du traitement. Vous pouvez également pour des raisons tenant à votre situation particulière, vous opposer au traitement de vos données et donner des directives relatives à la conservation, à l’effacement et à la communication de vos données après votre décès. Vous disposez également du droit d’introduire une réclamation auprès de la Commission Nationale de l’Informatique et des Libertés (www.cnil.fr).

Vous pouvez exercer vos droits en nous contactant à l’adresse contact@weave.eu.

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour mesurer notre audience, vous proposer des contenus et des offres personnalisées, ainsi que des fonctionnalités de partage sur les réseaux sociaux. En savoir plus sur notre politique de cookies et notre charte des données personnelles