浅谈机器学习之系列三:使用非监督式学习,改善受众划分

客户体验 2019年 01月 07日

在专题探讨机器学习系列文章的第一篇中,我们已了解机器学习的主要目的就是借助计算机自动化执行一般性工作。为实现这一目标,机器学习算法会基于某个数学模型力求模仿人类学习。

机器学习解决方案可分为三大类:监督式学习、非监督式学习、强化学习。本文将讨论非监督式学习:非监督式学习如何发挥效用,及其运用的时机何在?

对比监督式学习和非监督式学习

监督式学习使用过往的数据预测未来事件,并尽力回答具体问题(例如“这是什么?”),而非监督式学习并非是要力求优化某一具体任务。相反,其目标十分简单:使用预先设定的标准(由项目团队设定)将观察数据按预先设定的组别数分组。从本质上来讲,无监督学习就是将各元素按照其特性归类为不同组别。

想象一下,有人给了您形状和大小不一的多个物体:有圆的、方的、星形的,颜色也各不相同,红蓝白绿都有。如果要求将其分为三类,你可以按形状划分;如果分为四类,则可以按颜色划分;如果分为十二类,则可以将形状和颜色分别作为两个参数来划分;如果类别数为其他数字,分类会变得更加困难,但分类也会进一步细化。再想象一下,有人给了您一大盒乐高玩具,里面装着各种形状和颜色不尽相同的积木块,如果要求给它们分类,那恐怕是复杂至极了!

这一类问题可以通过非监督式学习算法大规模地解决。只要向模型提供清单,列明各类物体和标准,以及所需的组别数,剩下的就全由算法来搞定啦!

监督式学习会权衡比对各个特性,以更好地预测未来事件,非监督式学习却是不任何偏见的。例如,非监督式学习不会考虑按形状还是按颜色划分哪个更“合适”。当然,人类可以干涉算法,从而保证算法可以集中关注某些特性,但算法无论如何都只会运用其所获得的数据来工作。因此,为了获得清楚界定的组别,选择哪些特性就显得至关重要了。如果想要将上文提到的乐高积木块分类,您可以按照形状、颜色或大小来分组,这样各个分组就会一清二楚,且十分受用。而按照每块积木的购买日期或时间来划分就显得有些不得要领了。

数字营销中的应用

监督式学习解答是具体问题,如“该用户会在未来几天重访我的网站吗?”,而非监督式学习则是服务于对描述和信息量要求更高的需求。例如,非监督式学习可以按某一特性分组受众,因此在针对某一特定用户组别策划针对性的广告活动时,非监督式学习会非常实用。

几年前(也许现在也还是!),我们通常都使用“近度频度值度法”(RFM)评估客户数据库,以便从营销的角度来判断顾客价值。也就是说,使用“近度”“频度”“值度”标准分别了解顾客上一次购买产品或与品牌互动是什么时候,了解顾客在某一限定的期限内购买的次数是多少,了解顾客在某一限定的期限内花费了多少钱。根据所需组别数,每个RFM标准都可被拆分成更小的具有共同特性的组别。例如,如果想把一个组别划分为八个小组别,每个标准就可以分为两个组别。

machine-learning

得益于线上数据可用,我们现在可以考虑使用数量更多的标准(或维度)以更加精确地划分顾客组别,可按照用户使用的设备、用户流量来源、浏览的网页数量等等。针对几百万的用户会有数量巨大的描述符可用,出于方便管理的需求,要靠人力将数据拆分为适当数量的组别可谓是相当困难了。

再次强调,决定使用什么标准划分组别至关重要。例如,按照饮食习惯分类用户与线上鞋店运营之间的相关性就不大。理论上来讲,其他标准也可能会派上用场,但在实操中可能并不好用,这主要取决于激活方案。例如,如果一开始就未曾收集有关家庭状况的数据,那么就可能会很难通过电邮针对父母亲们打广告。

精心挑选变量(最好是由一名主题内容专家挑选),确定所需组别数(或给定范围,算法可从中选取最佳组别数),算法便给出一系列规则把用户划分为各个组别。之后可提供一份热度图以方便理解信息。此处运用的策略就是计算每个组别每个特性的平均值,诸如每个组别网页浏览平均数或每个组别在每台设备上的用户百分比。经由这一过程,即可使数据可视化,如下图所示。

如上图所示,我们正在使用被分为四大类的十三个变量分析某品牌的受众:对品牌的熟悉度、访问时长和质量、对分段的态度、参与行动。该分析使用了十三个变量按照与品牌互动的程度从低到高,识辨出五个用户组别。

在数字营销中,运用无监督学习是为了更多了解您个人数据(以及有关您的客户或未来发展前景的数据!)所迈出的第一步,十分好用。也可运用无监督学习收集观测数据以减小体量。实操过程中,如果您为实现某个具体的目标希望收集观测数据,例如提高点击率,请记得根据所作出的选择监测某个特定激活案例的业绩表现。

最后,提醒大家记住,非监督式学习习产出的结果(远超监督式学习)很大程度上取决于作出选择的数据科学家,他们的选择最终将助您达成商业目标!

还想再来一杯茶吗?