技术工作:数据解密人——了解更多关于数据科学家这个职业

行业趋势 2018年 03月 13日

哇,大数据,这一概念引发了商界的革命,对于那些必须紧跟潮流的公司来说,这也决定了它们的战略走向。大数据的出现造就了一批新兴领域的专家,包括数据分析师、数据科学家和数据工程师。

虽然《哈佛商业评论》认为数据科学家是“21世纪最性感的职业”(当然,数据分析师也曾被提名),这一职业仍然非常神秘。那么在当今时代,成为数据科学家到底意味着什么?他们可以为企业提供什么帮助?

首先,数据科学能实现什么目标?

如今,数据收集和分析可以运用于多个领域,也为各个行业的专家带来了重重挑战。电商可能想要生成个性化的优惠券或产品推送,而能源供应商、保险商和电信公司可能是要识别那些想终止合同的客户(或者称之为“流失率”)。数据科学就可以针对这些目的发挥作用 – 然而,使用者必须要有一种批判性的视角,了解其局限性,知道什么样的模型是可以建立的。具体来说,不论是公众还是专家,都会对数据挖掘提出关乎伦理的问题,特别是在自动化、人工智能这样的学科。举个例子,在美国,有两位斯坦福的研究者宣称他们可以通过“深度神经网络”,使用一种算法进行人脸分析,进而判断一个人是不是同性恋。这个案例表示,特定的数据(特别是个人数据)可以用来达成任何目的,不论好坏。使用算法来辅助决策时,我们必须要小心地处理其潜在的解读方式和用处。

数据科学家扮演着什么样的角色?

数据科学家被看作是“数据解密人”,当他们一旦完成原始数据的收集,必须对数据进行处理和分析,看看它们要“说”什么,才能做出决策。因此数据科学家不仅要运用统计模型,还需要从数据中学习。数据科学家必须掌握一系列不同技巧,包括数学(统计学,甚至是机器学习)、计算机科学,还要有良好的商业意识,以及市场营销的概念。

我在 55 数据公司担任数据科学家一职已有两年多了,也参与过各类项目。每个项目都有自己的特性,但其中的方法大体一致。首先,我们必须理解客户的需求,与业务团队及市场专家合作,共同界定其中的风险以及受到的限制。接下来就会对项目进行可行性研究,由一个工程师团队负责收集数据,并核实数据是否可靠。如果数据收集的方式不对,或者数据量不充足,那么就没办法得出任何结论。有些公司恰巧就是在这一方面较为薄弱。我们的职责是要告诉他们,数据的质量是最重要的,这样才能够启动一个数据项目。

项目过审后,下一步是什么?

接下来会进入一个描述性分析阶段,数据科学家会在此阶段找出异常值,并对主要趋势形成初步构想。比如说,如果一个用户一天之内,在某一线上商店浏览了1000个页面,而平均值为每天每用户10个页面,那么就预示着这个用户是个机器人,相关的数据可以从数据集中排除。在此过程中,我们必须与客户保持紧密联系,因为客户对自己所处的行业具有最深入的了解,而我们对于银行业、保险业或零售业的了解,是没办法与客户的专业程度比肩的。只有通过共同合作,才能够确定最佳的探究方向。

最后,数据经过分析和清理之后,就可以开始建模了。这个模型是由从数据库中提取和自动生成的决策规则组成的,使用了机器学习的算法。

让我们看一个更为直观的真实案例。

一家广告商找到 55 数据公司,想要研究其受众的特征 – 也就是说,这家广告商在数量和质量上都想要掌握更多关于其受众群体的信息。比如说,可能这家广告商想要知道每一个用户的粘度级别,或者找出社会人口分布规律。要达到这一目的,数据科学家可能会使用聚类分析法,先和广告商共同选取特定的变量,再在其基础之上建立特征相似的用户群组。一旦建立起了这些群组,就可以决定采取哪些定向的用户激活策略。比如,通过浏览数据,电商可以根据用户画像和用户对某一特定产品类型的兴趣,将用户分成不同“用户群”,以便为其提供个性化的用户体验。

每个客户需求都有多种解决方案!通过分析比对数据结果,数据科学家及其团队可以确立不同的领域进行开拓,然后根据客户的目标和战略决定是否要挖掘这一领域,因此每个项目都是独一无二的。那么,你认为做一名数据科学家性感吗?你说了算!

还想再来一杯茶吗?