Comment prédire les recettes d’un film au box-office grâce au machine learning

Customer Experience 15 janvier 2018

Netflix est connu pour sa création de contenu data-driven, comme nous avons pu le voir avec le succès de la série à 100 millions de dollars House of Cards et du documentaire The Square récompensé aux Oscars. Ce service de vidéo à la demande (VOD), qui a révolutionné le marché ces dernières années, peut s’appuyer sur les données générées par ses 104 millions d’abonnés. Mais est-il vraiment nécessaire d’avoir autant d’utilisateurs pour pouvoir prédire le succès d’un film ?

En nous aidant de bases open data, nous avons travaillé avec les étudiants du Master en Business Analytics de l’Imperial College Business School de Londres pour construire un algorithme de machine learning, et essayer de prédire les recettes et le succès d’un film.

Comment avons-nous procédé ?
Et, surtout, les créateurs de contenu auraient-ils intérêt à utiliser les open data pour adopter une approche data-driven semblable à celle de Netflix ?

1ère étape : Nous avons collecté, structuré et traité d’énormes volumes de données de manière efficace et rapide

Pour commencer, il convient de définir ce que nous entendons par « open data». Les open data désignent les données auxquelles tout le monde peut accéder librement et qui ne contiennent généralement pas d’informations permettant d’identifier personnellement un individu ( PII). Pour ce projet, nous avons utilisé les sources d’open data IMDB, les bases de données The NumbersBox Office Mojo ainsi que FXTOP pour convertir les devises.

À partir de ces sources, nous avons collecté des points de données auprès de 11 000 films que nous avons ensuite classés selon plus de 300 critères différents, tels que :

  • la popularité des acteurs et des réalisateurs, basée sur le nombre de films et de récompenses obtenues, le nombre de likes et de retweets ou encore la carrière
  • le genre cinématographique et la taille de l’audience cible ; les thrillers et les films dramatiques attirent plus de monde que les documentaires et les films noirs
  • la reconnaissance du visage des acteurs sur les affiches des films
  • les précédents succès des studios de production
  • le nombre de bandes-annonces
  • le pays d’origine
  • la limite d’âge
  • la durée du film
  • mots-clés extraits du pitch du film
  • tendances contextuelles liées à la date de sortie du film et aux taux de change en vigueur

2e étape : Nous avons eu recours au machine learning pour élaborer et réitérer notre modèle prédictif

Là où l’expertise humaine aurait montré ses limites, ces millions de points de données ont été traités en quelques secondes seulement grâce au machine learning. L’ algorithme a ainsi pu établir des corrélations entre des paramètres qui n’auraient pas pu être observées si l’opération avait été effectuée « manuellement ».

movie open data FR

3e étape : Nous avons appliqué le modèle à l’adaptation américaine du roman de Stephen King « La Tour sombre »

Quelques semaines plus tard, nous avons mis au point un modèle basé sur une centaine de variables ; modèle censé être deux fois plus performant qu’un simple modèle fondé sur un système de règles (comme le succès passé des acteurs, du réalisateur et du genre du film, par exemple) pour prédire la réussite au box office. En une fraction de seconde, le modèle était capable de prédire le succès au box office américain de n’importe quel film. Nous avons alors décidé de l’expérimenter sur un film qui n’était pas encore sorti en salle. Notre choix s’est porté sur « La Tour sombre » de Nikolaj Arcel, avec Idris Elba et Matthew McConaughey, affichant un budget de 60 millions de dollars.

Pour sa sortie aux États-Unis, nous avions prédit des recettes brutes totales d’un montant de 70 millions de dollars. Mais, trois mois plus tard, le film n’avait engrangé que 50 millions.

Nous sommes prêts à reconnaître que notre modèle n’est peut-être pas aussi sophistiqué que celui de Netflix : la plate-forme de vidéos à la demande a en effet à sa disposition de gigantesques volumes de données comportementales… Mais cela veut-il dire pour autant que notre modèle ne fonctionne pas ? Pas nécessairement mais, pour en être sûrs, il nous faudrait le tester sur plusieurs centaines de films afin de pouvoir évaluer ses performances réelles. Peut-être aurions-nous dû prendre en compte plus d’historiques de données ou alors ajouter davantage de sources de données.

Bref, élaborer un modèle prédictif n’est pas une tâche aisée et il n’existe pas de recette miracle ! C’est un processus perpétuel d’itération, de test et d’apprentissage qui nécessite du temps. Alors, si vous voulez nous donner un petit coup de pouce, et que vous lisez ces lignes depuis les États-Unis, cela ne vous tenterait pas d’acheter une place de cinéma pour aller voir « La Tour sombre » ?

Vous reprendrez bien une tasse de thé ?