Petit guide du machine learning – partie 2 : Prédire un événement futur en se fondant sur les données passées avec l’apprentissage supervisé
Customer Experience 3 février 2018Dans notre premier article de cette série consacrée au machine learning, nous avons vu que l’objectif premier de ce type d’ algorithme est d’utiliser les ordinateurs pour automatiser les tâches courantes. Pour cela, les algorithmes de machine learning tentent de reproduire l’apprentissage humain en se basant sur un modèle mathématique (si vous venez de nous rejoindre, retrouvez le premier article ici).
Les solutions de machine learning peuvent être classées en 3 catégories : l’apprentissage supervisé (supervised learning), l’apprentissage non supervisé (unsupervised learning) et l’apprentissage par renforcement ( reinforcement learning). Nous allons commencer par nous intéresser à l’apprentissage supervisé.
Petit exemple pour introduire le concept, ou pourquoi il ne faut pas confondre machine learning et magie
L’apprentissage supervisé repose sur le concept de « prédiction des données à venir », ce qui peut prêter à confusion en raison du mot « prédiction ». Si quelqu’un vous dit : « Je cache dans ma main un fruit vert, plutôt rond, qui fait 7,2 cm de diamètre, pèse 152 grammes, et a des pépins et un pédoncule », vous allez sûrement supposer qu’il s’agit d’une pomme. Vous avez simplement prédit les données à venir, en vous basant sur l’observation de vos parents qui, quand vous étiez enfant, vous ont appris à reconnaître une pomme. Les descripteurs tels que le poids, la forme et la couleur sont appelés des « variables observables » et le fait qu’il s’agisse d’une pomme correspond à la « cible ». Si vous communiquez ces variables à un algorithme de machine learning et que vous lui donnez le nom du fruit de manière explicite, on dit alors que l’information est supervisée. Prenez ensuite un fruit dont vous ne connaissez pas le nom, rassemblez des informations et donnez-les à votre modèle. Il va alors prédire le nom le plus probable en se basant sur ce qu’il a appris. Mais il ne peut pas savoir ce qu’il n’a pas appris : si vous ne donnez à votre modèle que des données sur des pommes et des poires et que vous lui montrez ensuite une banane, il ne devinera jamais qu’il s’agit d’une « banane » ! Alors que si vous lui présentez 10 millions d’autres pommes et poires, il vous donnera à chaque fois la bonne réponse en moins d’une seconde.
Des applications majeures pour le marketing digital, à condition d’avoir les bonnes données
L’apprentissage supervisé peut résoudre de nombreuses problématiques stratégiques à condition d’avoir collecté un historique suffisamment important d’informations supervisées. Cet historique peut provenir des moteurs de recherche (affichage des meilleurs résultats en réponse à une requête spécifique, miser la bonne enchère sur une requête donnée, etc.), des systèmes de recommandation (comme le fait Netflix) ou encore des modèles tarifaires ou d’ attribution publicitaire. Vous souhaitez, par exemple, déterminer la catégorie sociodémographique des utilisateurs afin de pouvoir adapter votre message à une cible donnée. À condition de disposer d’une quantité suffisamment importante d’informations catégorisées (données sociodémographiques effectives des utilisateurs), l’apprentissage supervisé peut déterminer les règles qui lient la cible et la navigation Web, afin de pouvoir déduire la valeur recherchée pour le reste de la population. L’apprentissage supervisé est également souvent utilisé pour prédire l’action d’un utilisateur : va-t-il acheter un produit dans un futur proche ? Quel est son risque d’attrition ( churn) ? En disposant d’un long historique d’achat ou d’attrition, un algorithme peut apprendre la règle qui explique la cible, mais uniquement s’il a pu disposer d’informations pertinentes. En effet, si 90 % des utilisateurs ne reviennent pas en raison d’un problème avec la hotline, mais que les données liées au service de hotline ne sont pas disponibles, il est logique que l’algorithme ne parvienne pas à atteindre un niveau de performance satisfaisant.
C’est pourquoi, avant de passer plusieurs mois sur un projet de machine learning, n’oubliez pas qu’il n’y a rien de magique. L’algorithme apprend les règles pour associer des variables à une cible, exactement comme le ferait un humain. Commencez donc par réfléchir aux facteurs explicatifs de la cible qui vous intéresse, puis assurez-vous que les variables que vous comptez utiliser sont disponibles. Si ce n’est pas le cas, essayez de collecter ces informations avant de consacrer trop de temps à l’exploration de votre modèle de machine learning.
Vous souhaitez en savoir plus ?
L’apprentissage non supervisé et l’apprentissage par renforcement seront abordés dans de prochains articles : inscrivez-vous à notre newsletter pour en être informé·e !