我们如何预测电影《黑塔》的票房收入

客户体验 2017年 12月 07日

美国Netflix公司因为以数据驱动来促进内容生产而闻名,公司花费一亿美元制作的电视剧《纸牌屋(House of Cards)》以及奥斯卡获奖纪录片《广场(The Square)》都是成功案例。作为视频点播服务提供商,Netflix在近几年时间里颠覆了整个市场,1.04亿订阅用户所产生的数据对他们来说已足矣。然而,真的需要拥有1.04亿用户才能预测一部电影能否成功吗?

我们与伦敦帝国理工商学院商业分析专业的硕士学生一起合作,利用易于获取的开放数据,尝试预测电影的商业表现和影评走向。

我们是如何做的呢?

还有一点更值得注意,那就是内容生产者可以轻松利用开放数据实现类似Netflix的数据驱动模式吗?

第一步:高效收集、整合并处理大量数据

首先,让我们了解一下何为“开放数据”。“开放数据”是任何人都能随时访问的数据,通常不包含个人识别信息(PII)。我们在此项目中所使用的开放数据来自互联网电影数据库(IMDB)、The Numbers数据库、票房魔咒网(Box Office Mojo)以及用于汇率转换的FXTOP网。我们从这几大来源收集了1.1万部电影的数据点,并将其依照300多条标准进行分类,例如:

  • 演员及导演的热度,根据他们的影片及获奖数量、点赞及社交网络粉丝转发数量或事业发展情况排序
  • 影片类型及潜在观影人数;悬疑片和剧情片比纪录片和悲情片吸引力大
  • 电影宣传海报上演员的大众辨识度
  • 影片制作公司的历史表现
  • 电影的预告片数量
  • 电影来自哪个国家
  • 观影年龄条件
  • 影片长度
  • 从影片描述中提取的关键词
  • 与影片上映日期及同期汇率相关的背景趋势

第二步:运用机器学习技术来搭建及反复调整我们的预测模型

由于人类的知识和能力有限,所以我们运用机器学习技术处理这几百万个数据点,几秒钟就完成了任务,而其中的算法还帮我们找出了人工无法发现的参数关联。

第三步:将我们的模型用于预测根据斯蒂芬·金小说《黑塔》改编而成的美国电影

我们用了几周的时间,通过100条变量确定了预测模型。它判断电影票房的准确性应当要比简单的规则模型(仅由演员、导演和电影类别的历史表现判断)高一倍。这个模型可以在一秒钟以内预测任何一部电影在美国的票房表现。

我们决定以一部还未上映的电影试水——电影《黑塔》,由尼克莱·阿尔赛(Nikolaj Arcel)导演,伊德瑞斯·艾尔巴(Idris Elba)及马修·麦康纳(Matthew McConaughey)主演,预算为6000万美元。

我们预测这部电影在美国票房总收入7000万美元,然而三个月后,票房只达到5000万。

我们承认这个模型或许没有Netflix的精密,因为他们有大量的用户行为数据可以使用,但是这是否代表我们的模型一定错误呢?那倒未必,虽然我们需要对上百部电影进行预测才能知道我们模型的真实水平。或许我们应该收集更多的数据,甚至扩大数据来源。

总而言之,搭建预测模型并非易事,没有捷径可走!它是一个持续重复、检验并学习的过程,需要花费时间。然而每一分努力都有作用,所以如果正在阅读这篇文章的你身在美国,可否请你去支持一下《黑塔》的票房呢?

还想再来一杯茶吗?