如何成为一名卓越的数据科学家 ——桃树七剑之四:知识发现

2022-06-21 10:57:19

这里有最具价值的大数据技术、

大数据实践案例、大数据创新思维，

更有你想融入的大数据高端人脉圈！

据说，国内近6成大数据精英都在这！

关于作者：

杨滔，桃树科技（TaoData）创始人，专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士，悉尼科技大学博士后。曾任阿里巴巴集团数据科学家，建立淘宝网数据科学团队，首创聚划算爆款模型。曾任F团首席科学家，建立F团数据化运营体系。

作者:杨滔来源：桃树科技

168大数据经作者投稿授权发布，未经允许禁止转载。

卓越数据科学家系列的前几篇，我们都在着重讨论卓越的数据科学家如何能通过机器学习技术，帮助企业提升效率，或者协助处理人力难以覆盖的繁琐问题。其实，数据科学的精髓绝不仅仅局限于传统的黑箱子建模。

所有伟大的商业变革，无一不是变革者从自身发现了更高的需求，从而不断将这些需求在实际中分层执行的结果。

卓越数据科学家的终极目标，并不是让机器取代人，而是用机器学习技术解放人类，助力发掘人脑最深层次的潜能——知识发现。

从数据科学的角度，这一切的可能都源于数据。数据，不仅可以帮助机器具备自学习能力，也可以帮助人发现新知识。

未来，数据的获取会越来越便利，处理数据的工具也会越来越智能。科技给各行各业注入了发展的新动力，但同时，企业之间的竞争只会愈发激烈。

数据和工具本身的优势，只不过是企业建立护城河的基础。

作为卓越的数据科学家，如果希望帮助企业建立核心壁垒，需要专注于用数据和工具来帮助企业建立知识发现的机制。这并非一项简单的任务，知识发现需要数据科学家深入到数据源和业务细节中，凭借直觉和工具，发现行业规律和业务异常点。

与提升运营效率不同，数据科学从数据中带来的知识发现将赋能企业发现业务创新的机会点，实现从战术到战略上的升华。

知识发现，是让数据从简单的决策辅助品变身成创造力之源的关键环节。

正如最丰硕的果实总是长在最高的枝头，知识发现的过程是数据科学七剑体系中最难被标准化定义的。今天的文章仍旧只讨论冰山一角，以后想到哪便在哪里继续展开。

数据科学七剑体系中的知识发现这一剑，我总结了五个招式：数据可视化、假设检验、规则提炼、标签挖掘和网络关系图谱。

一、数据可视化

数据可视化是最简单的知识发现技术。

数据可视化是以图形化的方式，从不同维度将数据展示出来，为分析师提供信息解读视角，并且允许分析师从不同维度对数据进行钻透式分析。

数据不等于信息。原始数据往往晦涩难懂，但当数据在合适的维度被展示出来之后，许多信息便显而易见了。

在实际业务中，原始数据一般维度很高，我们往往需要降维技术（特征选择、PCA、LDA等）对原始数据进行处理。并且，当我们把不同变量组合在一起或把变量在时间序列中展示时，往往会有许多意想不到的收获。

例如，在预测商品转化率的模型中，关键的原始数据是商品的类目，品牌，价格。但是当这三个数据完整的摆在商家面前，商家对营销活动的响应率是完全无从推断的。

有经验的数据科学家则会换一个视角，他们会告知商家，销量预测最相关的变量常常是商品的价格与同类商品的平均价格比。试想，一个商品定价100元做营销，而如果你不知道竞争对手的价格，怎么可能准确判断销量呢？

由此可见，通过数据可视化带来的知识发现，并不一定涉及复杂的算法技术，却可以非常实用。

如果你拥有高质量的数据，却没有从数据中发现什么有价值的信息，最大可能是你没有选对视角。数据可视化的关键正是在于视角的选择，而视角选择往往高度依赖数据科学家的经验。

值得特别注意的是，知识发现并不仅仅是整体趋势的披露，有时候，异常点的发现更有价值。

例如，在分析信贷业务的违约客户特征时，我们可以从数据中发现大部分违约客户都在某些特定特征（地区、行业、贷款用途、征信记录等）中具备共性。但是，更加有意义的发现是，那些不具备“共性特征”的违约客户大部分并非有意违约，而这些违约客户正是最有效的催收群体。

二、假设检验

数据科学家既可以从数据出发去发现知识，也可以直接带着问题找数据。

在假设检验中，数据科学家首先提出假设，再带着这些假设从数据中寻求证据，并在假设检验的过程中逐渐完善对业务和数据的全面认知。

当企业处于发展中阶段，我们一般直接从问题出发，带着问题找数据。而当企业发展到了一定阶段，高质量的数据有了一定积累，我们就需要从数据中去发现创新的机会。

令人遗憾的是，许多企业在初创阶段就过分迷信数据，认为数据能为他们带来战略上的突破，这是不切实际甚至危险的。因为，初创企业所积累数据的质和量都有限，而且产生数据的业务本身也在快速变化中。

而另一个常见的错误则与此相反，许多成熟企业往往过分迷信自己的历史经验，很难放下经验去从数据中探索创新的机会点。

在这样的文化之下，我们很可惜的看到，大数据往往只能带来小常识。

以一家发展中的电商企业为例，如果我是这家企业的数据科学家，一开始我就会忘记那些复杂的技术和那堆不大不小的数据。我会首先关注该平台的核心用户群体，即那些回访率最高的用户。针对这个用户群，我会围绕以下几个问题，试图从数据中找到答案：

这个群体具有哪些与众不同的特征？
这个群体的规模是在增加还是在减少？
他们最喜欢购买/浏览的产品分别有什么特点？
他们的收藏夹中一般都包括什么产品？
他们浏览产品的SKU是否均匀，亦或高度集中？
他们的投诉都包含哪些内容，他们对客服是否满意？
这个群体的来源？

在诸如此类的推理和分析中，数据科学家可以在行业中建立分析框架，并逐渐形成行业标准。由此，针对行业中不同类型和阶段的企业，数据科学家便可以提供有针对性的行业解决方案，将科学与商业真正的结合在一起。

三、规则提炼

在机器学习算法中，最容易解释的算法是决策树算法。

当数据被清洗好，决策树算法可以从数据中提炼一系列规则，这类规则的形式是“如果在这种情况下，就会发生什么”的IF-THEN命题。

在理想情况下，决策树算法可以直接从数据中发现知识。

然而，在现实情况中，单纯靠决策树算法往往很难得到满意的效果。当多棵决策树算法被组合使用时，模型效果会得到提升，但模型的可解释性却随之降低。

数据科学里有个悖论，好解释的模型不准确，精准的模型不好解释。

但是卓越的数据科学家并不会止步于此。所谓卓越，便是在一般人望而却步的问题上再往前走哪怕是一小步。

决策树算法适合对数据进行宏观规则提炼。在IF-THEN规则之下，数据也就被切割成了不同模块。在每个数据区间中，数据科学家可以分别提炼规则和洞察信息。如果我们想兼顾模型的可解释性和准确性，那么一个实用的技巧是在不同数据区间中去使用复杂模型。

当决策树算法被适当改造后，我们可以针对单个预测样本提供一系列决策规则。也就是说，针对每个预测样本的规则是不同的，这可以方便决策者快速认知每个预测样本的关键信息。例如，在信贷审批中，信贷员可以发现每个信贷客户的风险因子，从而做出有针对性的防护措施。

四、标签挖掘

数据科学家不仅需要自己从数据中发现知识，也需要传递这种知识发现的能力。知识发现不仅是数据科学家的特权，也是用户高效决策的工具。

我相信，数据的大规模应用一定会逐渐从企业端走向用户端，并且数据应用平民化最关键的环节正是知识发现。

未来的产品都将是个性化的。

在个性化推荐中，用户既希望自己的个性化诉求被理解，也希望在自己感兴趣的领域保留自己的选择权。事实上，用户往往需要机器来过滤掉他不感兴趣的信息，同时由自己来完成最终的决策。

并且，用户往往希望在信息探索的过程中，发现意想不到的惊喜。

帮助用户发现惊喜的技术，一般是通过标签来实现的。通过用户的行为数据，我们可以将用户的需求或兴趣还原为一系列标签。实现标签挖掘，一方面需要高质量的数据，一方面需要算法技术。为了实现标签挖掘所能达到的效果，我们往往需要从一开始就建立良好的数据收集机制。

标签挖掘的过程需要我们从产品数据开始。如果产品的核心特征没有被数据化，那么用户标签是无法建立的。当产品特征被数据化之后，我们便可以基于以下步骤挖掘用户标签：

对产品特征进行数据清洗与合并，挖掘每个产品的标签；
基于用户对产品的行为数据，将产品标签映射到用户上，建立用户标签；
基于用户和产品的矩阵数据，使用算法对稀疏数据进行填充。

基于标签数据，我们不仅可以为用户提供个性化推荐，还可以在推荐结果中为每个用户展示标签。这一过程，可以帮助用户理解个性化推荐的原因，良好的人机互动过程有助于提高用户体验。不仅如此，用户基于标签可以找到更多标签下的同类产品，从而在个性化的同时仍拥有选择的权力。

更让人欣喜的是，在特定场景中，用户可以直接查看和编辑自己的标签，与机器产生互动。这些经过迭代后的标签，正是用户的意愿清单。

意愿清单不仅可以帮助用户理解产品，还可以帮助商家了解用户未被满足的需求，从而在供给端提高生产效率，形成从生产到消费的整个商业闭环。

五、网络关系图谱

无论人工智能的发展看起来多么不明觉厉，在我看来，机器学习技术的思维框架并不适用于所有问题。

正如文章《决策：理性与非理性》中提到，传统机器学习技术仅仅适合解决决策中的理性问题，而决策中的非理性问题往往并不适合用机器学习技术来解决。在非理性决策中，我们需要引入网络关系的技术框架。

那些无法用数据可视化、假设检验、规则提炼或标签挖掘解释的问题，我们可以尝试用网络关系图谱来解决。如果数据背后存在着复杂网络关系，那么图计算技术往往是发现知识的技术框架。

我们在大量数据应用的项目中发现，真正影响业务目标的不仅包括静态的特征，也包括人与人关系的动态特征，而这些特征往往和不同领域中的专家用户相关，我们称这些专家用户为达人。

运用网络关系图谱来进行知识发现，我们首先需要实现基于不同领域的用户之间的网络关系。其次，我们需要在不同网络中找到传播路径和传播路径中的关键节点。这些节点，就是我定义的达人。

为了满足用户的个性化需求，我们不仅可以建立以标签为中心的个性化推荐系统，还可以建立分领域的多元化网络关系，并且借助达人行为来实现用户的个性化需求，并且帮助用户发现和自己最相似的达人。

帮助用户发现达人，往往可以持续拔高用户的需求，挖掘用户的“好奇心”。并且，在这个体系中，我们可以激发每个人成为达人的主观能动性，同时帮助达人实现自己的社区影响力。

卓越的数据科学家，绝不应该是高处不胜寒的独孤求败，相反，他们可以投身到数据中去，通过网络关系图谱，建立达人体系，将复杂的技术通俗化。他们的任务，是最终从自己的强大中抽身而去，却让人人都变成数据超人。

知识发现和企业竞争

作为卓越的数据科学家，如果希望帮助企业建立的核心壁垒，不仅需要让人更轻松（让机器帮助人干好人该干的事），还需要让人更具有智慧（让机器帮人发现他原本发现不到的机会点）。数据科学家不仅是工具的发明者，更是赋能企业拥有发现机制的设计师。

如果说数据科学从学术到商业的初级应用是提升效率，将人类从低级脑力劳动中解放出来，这一领域已可谓战绩喜人硕果累累。

然而，这看似数据科学发展的一大步，却只是人类追求卓越的道路上的一小步。从企业的角度，运营效率的提高固然重要，然而那些节省出来的资源，向前加速推进的方向，若是有战略性的错误，恐怕只是加快了自身冲向悬崖的步伐。

卓越的数据科学家，不应该仅止步于帮助客户在大海捞针捞的更快，他们应该找到海中达人海龙王，直接捞走定海神针。

又或者，不妨建议客户，既然在海里，针不好捞咱们改捞龙虾生蚝，如何？

免责声明：内容来自原创/投稿/公开渠道，纯属作者个人观点，仅供交流学习。转载稿件版权归原作者或机构所有，如有侵权，请联系删除。投稿、合作请联系：link@bi168.cn

168大数据

168大数据 www.bi168.cn 是国内更具影响力的数据科学社区媒体与产业创新赋能平台，专注大数据、人工智能、商业智能、数据分析、云计算等数据科学领域的深度交流、知识分享、职场社交和职业发展，以大数据驱动创业创新和助力传统产业转型升级为使命，致力于为大数据产业的从业者、传统企业、厂商、服务商提供最具价值的资讯、服务、连接与产业研究。平台聚集了国内外近十万数据领域的大数据企业创始人、首席信息官、首席技术官、首席数据官、数据架构师、数据科学家、人工智能专家、商业智能专家等精英，共同致力于大数据技术、大数据价值、大数据思维的传播、交流与分享。