Comment le Deep Reinforcement Learning repousse les limites de l’apprentissage ?

Customer Experience 23 mars 2021

Le Deep Reinforcement Learning a affiché des performances spectaculaires ces dernières années, en permettant à des programmes d’apprendre, dans des environnements complexes, des stratégies extrêmement puissantes et robustes. Sous l’impulsion de DeepMind, ces algorithmes ont révolutionné l’intelligence artificielle dans de nombreux domaines, allant des jeux d’arcade (Agent57) et des jeux de plateau (AlphaGo), jusqu’aux jeux-vidéos (AlphaStar).

Les mécanismes d’apprentissage du Deep Reinforcement Learning

Le Reinforcement Learning, ou apprentissage par renforcement, est une branche du Machine learning dans laquelle un agent interagit avec un environnement par le biais de diverses actions, dans le but de maximiser sa récompense globale. On appelle politique de l’agent la loi qui détermine, à chaque instant, la ou les actions qu’il devra effectuer, en fonction de l’état de l’environnement. 

L’agent va pouvoir s’entraîner un très grand nombre de fois dans cet environnement, et apprendre de ses réussites et de ses échecs, dans le but de trouver la politique optimale. Un exemple classique en RL ( Reinforcement learning) est celui du jeu du Pendule (Figure 1). A chaque instant t, on décrit l’état du jeu par des variables numériques : position et vitesse du kart, ainsi qu’angle et vitesse angulaire du bâton. En partant de ces quatre valeurs, l’agent décide de pousser son kart vers la gauche ou vers la droite, pour se retrouver ensuite dans un nouvel état à l’instant t+1. A terme, son but est de tenir le plus longtemps possible avec le bâton à la verticale.

objet oscillant 1

objet oscillant 2

Figure 1 : Agent pendant (image du dessus) et après (image du dessous) l’entraînement

Le Deep Reinforcement Learning (ou Deep RL) reprend ces mêmes principes, mais utilise le Deep learning  pour analyser des environnements plus complexes, tels que des images. C’est ce que l’on peut faire avec le jeu Breakout (Figure 2) : en effectuant une analyse profonde de l’écran du jeu, l’agent est capable de comprendre d’un point de vue structurel les tenants et aboutissants de son environnement, pour en déduire comment se comporter. Ici, on peut voir que l’agent a compris tout seul qu’en creusant un trou dans la structure, il pouvait envoyer la balle de l’autre côté et casser énormément de briques d’un seul coup !

jeu breakout

Figure 2 : Agent s’entraînant au jeu Breakout

On voit donc que le fonctionnement du Deep RL se rapproche énormément de l’apprentissage humain. A force d’entraînements, l’agent va essayer différentes politiques, pour se rendre compte que certaines sont plus efficaces que d’autres. Il va pouvoir ensuite perfectionner ces politiques pour en maîtriser les subtilités. Le Deep RL permet de travailler avec des environnements complexes (images, sons…) et probabilistes (on ne peut pas prédire l’évolution de l’environnement). Enfin, il est capable de comprendre la notion de stratégie, en faisant des sacrifices sur le court terme s’il pense que cela lui permettra d’atteindre ses objectifs sur le long terme. C’est notamment grâce à cette technologie qu’il a été possible de créer des intelligences artificielles qui ont appris toutes seules à marcher

 

Toutes ces raisons ont poussé la recherche en Deep RL à se concentrer sur les jeux de stratégie. Ces derniers permettent en effet de facilement mesurer les performances d’un algorithme (est ce que l’apprentissage de l’agent résulte en un plus grand nombre de victoires face à mon adversaire ?). Mais surtout, ils sont un bon indicateur « d’intelligence », et permettent de juger de la capacité d’un programme à battre les meilleurs humains. C’est en utilisant cette technologie que le programme AlphaGo de Deepmind a appris le jeu de Go, et a réussi à battre le meilleur joueur mondial, alors que tous les experts affirmaient que ce jeu était bien trop complexe pour être maîtrisé par un ordinateur.

Un exemple d’utilisation du Deep Reinforcement Learning : application au jeu de dames

Dans cette partie, nous allons illustrer comment on peut utiliser le Deep RL pour apprendre à un agent à jouer au jeu de dames. Ici, l’objectif est de produire une IA forte et robuste, c’est-à-dire qui gagnera aussi bien contre les meilleurs joueurs que contre des débutants. 

On pourrait décider de représenter l’état du plateau de dames à chaque instant par des variables descriptives (par exemple, en renseignant le nombre de pions et de dames de chaque couleur, nombre de pièces sur les bords, les centres de gravité, etc.). Cependant, il serait très difficile d’en tirer des informations liées à la structure géométrique du plateau (alignements entre les pièces, zones intéressantes, enchaînements futurs possibles…). C’est pour cela que, dans ce cadre, on préférera utiliser le Deep RL, et ainsi analyser tout le damier en tant qu’image.

Pour pouvoir apprendre et s’améliorer, l’agent doit effectuer des actions et observer leurs conséquences. Mais contrairement au jeu du Breakout où l’agent joue seul, ici l’agent a besoin d’un adversaire. Cela engendre une nouvelle difficulté, car il serait beaucoup trop long d’utiliser des humains pour jouer face à l’agent à chaque partie. L’astuce consiste alors à faire jouer l’agent contre différentes versions de lui-même (c’est-à-dire des copies figées de lui-même après un certain temps d’apprentissage), pour qu’il apprenne ainsi à devenir meilleur qu’il n’était auparavant, au fur et à mesure de son entraînement.

On commence donc par créer un agent de niveau 0, qui effectue ses coups de manière aléatoire. Après l’avoir suffisamment entraîné à jouer contre une copie de lui-même, il « progressera » alors d’un niveau, et va pouvoir s’entraîner contre lui-même et contre les niveaux inférieurs (cf Figure 3). On poursuit ce processus jusqu’à atteindre un niveau très avancé, en jouant à chaque étape un plus grand nombre de parties contre les adversaires les plus difficiles à battre. Une fois ce niveau maximum atteint, on obtient un agent qui a appris à gagner contre toutes ses précédentes versions, donc contre un très grand nombre de stratégies adverses possibles ! 

Schéma étapes d'apprentissage au jeu de dames

Figure 3 : Etapes d’apprentissage de l’agent au jeu de dames

Le Deep Reinforcement Learning au service du marketing digital

Dans un contexte marketing, on pourrait imaginer qu’une marque utilise son site internet comme un agent de Deep RL. Dans ce cas d’usage, l’agent pourra ainsi effectuer des « parties » avec les utilisateurs lors de leurs différents passages sur le site, et en ayant pour objectif de les engager à la fin de chaque session.

A chaque étape du parcours de l’utilisateur sur le site, l’agent pourra interagir avec ce dernier en effectuant une action parmi différents leviers disponibles : rediriger l’utilisateur vers des pages personnalisées, lui suggérer certains articles, lui envoyer des notifications push, des e-mails ou encore des coupons de réduction… Ainsi, en s’entraînant suffisamment avec un grand nombre de personnes, l’agent apprendra à effectuer les actions successives optimales, qui conduiront ses utilisateurs dans la direction souhaitée.

Un tel outil pourra non seulement s’adapter aux différents cadres de travail, mais surtout aux objectifs précis de chaque entreprise. On pourrait maximiser des taux de conversion, une quantité d’argent dépensée, ou bien même inciter les potentiels acheteurs à choisir certains articles en priorité (par exemple, ceux en trop grands stocks, ou qui arrivent à expiration) ! Pour cela, il suffira simplement d’adapter le système de récompenses, pour que l’ algorithme de Deep RL ajuste ses stratégies aux objectifs métiers.

A noter qu’en raison des législations sur les données personnelles, et notamment du RGPD en Europe, il devient de plus en plus complexe de suivre un utilisateur d’une session à une autre. Il faudra donc être capable de prendre des décisions à partir de signaux faibles (par exemple, la navigation au cours de la session), dans le but d’obtenir des résultats à moyen terme. Et c’est exactement ce que permet le Deep RL.

 

 

Finalement, le Deep Reinforcement learning s’est affirmé comme la technologie en IA qui se rapproche le plus de l’intelligence humaine, car elle est capable d’assimiler des concepts extrêmement complexes et de construire des réflexions stratégiques sur le long terme. Alors que le monde continue de découvrir son potentiel immense, de nombreux milieux se l’approprient et révolutionnent leurs manières de travailler. Le marketing digital semble être le prochain sur la liste.

Vous reprendrez bien une tasse de thé ?