Scroll to top of page

Comment prédire les recettes d’un film au box-office grâce au machine learning

Netflix est connu pour sa création de contenu data-driven, comme nous avons pu le voir avec le succès de la série à 100 millions de dollars House of Cards et du documentaire The Square récompensé aux Oscars. Ce service de vidéo à la demande (VOD), qui a révolutionné le marché ces dernières années, peut s’appuyer sur les données générées par ses 104 millions d’abonnés. Mais est-il vraiment nécessaire d’avoir autant d’utilisateurs pour pouvoir prédire le succès d’un film ?

En nous aidant des open data accessibles à tous, nous avons travaillé avec les étudiants du Master en Business Analytics de l’Imperial College Business School de Londres pour construire un algorithmealgorithmeUn algorithme est un processus mathématique qui permet de résoudre un problème ou d'obtenir un résultat par un nombre fini d'opérations ; il peut être traduit en programme informatique grâce à un langage de programmation.Learn more de machine learningmachine learningLe machine learning, ou apprentissage automatique, est un système d'intelligence artificielle, qui se fonde sur la capacité d'apprentissage des algorithmes. Learn more, et essayer de prédire les recettes d’un film et la façon dont il est reçu par la critique.

Comment avons-nous procédé ?
Et, surtout, les créateurs de contenu auraient-ils intérêt à utiliser les open data pour adopter une approche data-driven semblable à celle de Netflix ?

1ère étape : Nous avons collecté, structuré et traité d’énormes volumes de données de manière efficace et rapide

Pour commencer, il convient de définir ce que nous entendons par « open data ». Les open data désignent les données auxquelles tout le monde peut accéder librement et qui ne contiennent généralement pas d’informations permettant d’identifier personnellement un individu (PIIPIILes Personnally Identifiable Information (PII) sont des informations spécifiques qui permettent d'identifier une personne de manière directe ou indirecte : son nom entier, son adresse, son mail, sa date de naissance, ou alors des ensembles de données anonymes qui permettent de l'identifier. Learn more). Pour ce projet, nous avons utilisé les sources d’open data IMDB, les bases de données The NumbersBox Office Mojo ainsi que FXTOP pour convertir les devises.

À partir de ces sources, nous avons collecté des points de données auprès de 11 000 films que nous avons ensuite classés selon plus de 300 critères différents, tels que :

  • la popularité des acteurs et des réalisateurs, basée sur le nombre de films et de récompenses obtenues, le nombre de likes et de retweets ou encore la carrière
  • le genre cinématographique et la taille de l’audience cible ; les thrillers et les films dramatiques attirent plus de monde que les documentaires et les films noirs
  • la reconnaissance du visage des acteurs sur les affiches des films
  • les précédents succès des studios de production
  • le nombre de bandes-annonces
  • le pays d’origine
  • la limite d’âge
  • la durée du film
  • mots-clés extraits du pitch du film
  • tendances contextuelles liées à la date de sortie du film et aux taux de change en vigueur

2ème étape : Nous avons eu recours au machine learning pour élaborer et réitérer notre modèle prédictif 

Là où l’expertise humaine aurait montré ses limites, ces millions de points de données ont été traités en quelques secondes seulement grâce au machine learning. L’algorithme a ainsi pu établir des corrélations entre des paramètres qui n’auraient pas pu être observées si l’opération avait été effectuée « manuellement ». 

3ème étape : Nous avons appliqué le modèle à l’adaptation américaine du roman de Stephen King « La Tour sombre »

Quelques semaines plus tard, nous avons mis au point un modèle basé sur une centaine de variables ; modèle censé être deux fois plus performant qu’un simple modèle fondé sur un système de règles (comme le succès passé des acteurs, du réalisateur et du genre du film, par exemple) pour prédire la réussite au box office. En une fraction de seconde, le modèle était capable de prédire le succès au box office américain de n’importe quel film. Nous avons alors décidé de l’expérimenter sur un film qui n’était pas encore sorti en salle. Notre choix s’est porté sur « La Tour sombre » de Nikolaj Arcel, avec Idris Elba et Matthew McConaughey, affichant un budget de 60 millions de dollars.

Pour sa sortie aux États-Unis, nous avions prédit des recettes brutes totales d’un montant de 70 millions de dollars. Mais, trois mois plus tard, le film n’avait engrangé que 50 millions.

Nous sommes prêts à reconnaître que notre modèle n’est peut-être pas aussi sophistiqué que celui de Netflix : la plate-forme de vidéos à la demande a en effet à sa disposition de gigantesques volumes de données comportementales... Mais cela veut-il dire pour autant que notre modèle ne fonctionne pas ? Pas nécessairement mais, pour en être sûrs, il nous faudrait le tester sur plusieurs centaines de films afin de pouvoir évaluer ses performances réelles. Peut-être aurions-nous dû prendre en compte plus d’historiques de données ou alors ajouter davantage de sources de données.

Bref, élaborer un modèle prédictif n’est pas une tâche aisée et il n’existe pas de recette miracle ! C’est un processus perpétuel d’itération, de test et d’apprentissage qui nécessite du temps. Alors, si vous voulez nous donner un petit coup de pouce, et que vous lisez ces lignes depuis les États-Unis, cela ne vous tenterait pas d’acheter une place de cinéma pour aller voir « La Tour sombre  » ? :)

Traduit de l'anglais par Hélène Livet

Want to learn more? Get in touch!

15-01-2018

close legal

À propos

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Donec a venenatis dolor, non ornare ligula. Nam ultricies elementum tellus, sed pulvinar libero egestas nec. Fusce facilisis nulla vestibulum, commodo neque eget, dapibus lacus. Aliquam neque felis, sagittis nec consequat sed, commodo ac ipsum. Sed neque tortor, semper quis viverra et, malesuada et eros. Donec at dui ut ligula pharetra aliquet. Etiam dapibus semper orci. Integer efficitur dolor tortor, nec mattis elit placerat vel. Ut nulla enim, lacinia in pharetra id, convallis vitae massa. Donec neque est, tincidunt non ullamcorper commodo, tincidunt non turpis. Pellentesque viverra enim a sapien placerat, ut volutpat mauris condimentum. Proin tincidunt sollicitudin dui, sit amet condimentum ante commodo a. Aenean posuere aliquam purus, sed aliquam magna sagittis finibus. Morbi molestie feugiat feugiat. Phasellus tempus in dolor vel maximus. Cras efficitur sagittis lorem porta iaculis. Maecenas sed hendrerit urna. In mattis posuere purus, sit amet placerat arcu posuere quis. Etiam nec arcu nec magna interdum maximus. Integer sit amet lacus neque. Curabitur interdum molestie magna, in scelerisque tellus iaculis sed. Sed nec metus ut purus efficitur laoreet a quis eros. Proin dui dui, dignissim eget risus sit amet, bibendum condimentum velit. Maecenas in justo eu elit eleifend consectetur. Aenean scelerisque fringilla sollicitudin. Nam sem nibh, pharetra nec lacus non, mollis interdum odio. Aliquam sollicitudin posuere nibh sed eleifend.

Édition

55 SAS, 5 — 7 rue d'Athènes

75009 Paris

+33 1 76 21 91 37

Hébergement

OVH SAS

2, rue Kellermann

59100 Roubaix

+33 8 20 69 87 65

Publication

Lan Anh Vu Hong

Crédits photo

Mats Carduner, Adobe Stock & Unsplash

Vous avez aimé nos nouvelles fraîches sur l'état du marché brandtech ? Inscrivez vous à notre newsletter