Machine Learning : comment une machine apprend-t-elle ?
1.2.2 Machine Learning : Comment une machine apprend-t-elle ?
Pour permettre à la machine d’apprendre, Nous utilisons :
1- Des données qui sont des exemples, relativement abondantes et compilées dans un tableau appelé Dataset à partir desquels la machine va apprendre.
2- Des méthodes d’apprentissage fortement inspirées de la façon dont l’être humain apprend les choses. Les méthodes d’apprentissage sont fonction de la nature du problème étudié et comptent parmi elles :
-
-
-
- L’apprentissage supervisé (Supervised Learning en anglais) qui est de loin la méthode la plus utilisée et qui consiste à donner à la machine beaucoup d’exemples étiquetés de type (x=variable explicative, y=variable à prédire) et de lui faire apprendre la relation qui lie x à y. Ce type d’apprentissage est celui qui va être abordé plus loin dans la présente étude.
- L’apprentissage non supervisé (Unsupervised Learning en anglais) qui est utilisé quand les données ne sont pas étiquetées et qui consiste à modéliser les observations pour mieux les comprendre.
- L’apprentissage par renforcement (Reinforcement Learning) qui s’inspire de la manière dont nous humains éduquons nos animaux de compagnie en leur offrant une friandise quand ils font une bonne action. Les applications principales de ce type d’apprentissage se trouvent par exemple dans la robotique et les jeux (go, échecs, etc..).
-
-
3- Un algorithme d’apprentissage qui est la procédure que l’on fait tourner sur les données pour obtenir un modèle, en l’occurrence prédictif. Il existe plusieurs familles d’algorithmes à utiliser selon la nature du problème étudié et la solution la mieux adaptée :
- Classification : assignation d’une catégorie à chaque observation
- Régression : prédiction d’une quantité à chaque observation
- Labellisation : assignation d’aucune, une ou plusieurs étiquettes aux observations
- Clustering : partitionnement des observations selon des régions homogènes
- Réduction de dimension : projection des observations dans un espace de plus petite dimension.
- Génération de données : échantillonnage des observations depuis une distribution
- Détection d’anomalies : détection et prévention des anomalies dans les observations.
Au passage, nous noterions que le Deep Learning (cité plus haut) est un sous domaine du Machine Learning qui utilise la méthode d’apprentissage supervisée sur les algorithmes dits des réseaux de neurones.
Les données et l’algorithme d’apprentissage sont les deux piliers forts aussi importants l’un que l’autre de l’apprentissage automatique. Un bon modèle d’apprentissage automatique nécessite d’avoir des données pertinentes à partir desquels va apprendre un algorithme adapté.
L’entrainement d’un modèle est le fait de faire tourner un algorithme d’apprentissage sur le jeu de données. Dans le cadre de la modélisation il convient de définir et optimiser un objectif qui pourrait être par exemple de minimiser le nombre d’erreurs fait par le modèle sur les exemples d’apprentissage
En somme Le Machine Learning permet de concevoir des modèles prédictifs sur des données grâce à l’utilisation des algorithmes d’apprentissage. A ce titre, Le Machine Learning permettrait de déduire le futur, en observant le passé mais aussi le présent.
Selon Maxime Jumelle9, lorsque l’on fait du Machine Learning, nous avons besoin :
- De données (qui peuvent être structurées ou non structurées).
- D’hypothèses pour choisir un algorithme adéquat.
- Des connaissances métier pour orienter les décisions et interpréter les résultats.
Section 2 Formalisation de la grille d’analyse
Nous avons vu que pour l’analyse de la fidélité client nous pouvons utiliser différents indicateurs clé de performance présentant pour certains « le handicap » de ne pas permettre d’anticiper et de prévoir et pour d’autres ne permettant qu’une anticipation et prévention basées sur des enquêtes de sondage. En somme tous ces KPI ne pourraient tout au plus qu’aider à anticiper les comportements des clients mais pas les prédire.
Nous avons vu aussi que l’apprentissage automatique a pour vocation première la prédiction sur les données.
Dans la suite de notre étude, nous allons étayer une démarche qui va consister :
- En premier lieu à concevoir un modèle de Machine Learning pour faire de la prédiction sur un de ces indicateurs clé de performance.
- En deuxième lieu à dégager des pistes de réflexion, à partir de l’interprétation du modèle obtenu, qui pourraient être intégrées dans la construction des plans d’action à dessein d’améliorer la fidélité client.
En théorie, nous pouvons concevoir un modèle de Machine Learning pour chacun des indicateurs clé de performance cités plus haut pour peu bien-sûr de disposer des données pertinentes et RGPD compliantes.
Dans le cadre de cette étude, nous allons opté pour la prédiction du taux d’attrition (Churn) qui est de loin l’indicateur clé de performance le plus répandu pour l’analyse de la fidélité client. Plusieurs travaux existent déjà sur le sujet et depuis des années des nombreuses approches ont été faites, mais seulement nous pensons qu’il y aurait encore beaucoup de pistes à creuser sur le sujet.
_________________________
9 Maxime JUMELLE: CTO & Co‐Founder chez Blent.ai