首页 > 专栏

【专栏】谁是狼人——浅谈模型的建立与应用

融慧FinTell · 零壹财经 2019-01-31 14:02:09 阅读：9560

关键词：大数据 大数据风控 数据挖掘

数据挖掘谁是狼人玩过狼人杀的小伙伴们知道，狼人杀的魅力就是妥善利用各种信息，并加以推断，找到狼人玩家。对于新手而言，拿到狼人牌后，多半会显得紧张、结巴、语无伦次，甚至直接会在话语中暴露出狼人身份，坐实狼人身份。而高玩在拿到狼人牌时，会很好隐藏自己身份，使得普通玩家...

数据挖掘

谁是狼人

玩过狼人杀的小伙伴们知道，狼人杀的魅力就是妥善利用各种信息，并加以推断，找到狼人玩家。对于新手而言，拿到狼人牌后，多半会显得紧张、结巴、语无伦次，甚至直接会在话语中暴露出狼人身份，坐实狼人身份。而高玩在拿到狼人牌时，会很好隐藏自己身份，使得普通玩家难以判断。那么问题来了，谁是狼人？

现实中，这样的“狼人”并不少见。在信贷场景下，借贷者借钱后可能会恶意逾期不还，成为一个“狼人”。“引狼入室”是借贷机构所不愿见到的，因此他们也想出了一些办法来识别借贷者的身份，比如人工验证借贷者的学历、收入、征信等信息。一段时间后，机构开始顶不住了，借钱的人太多了，审核不过来。而且由于审核方式单一，很多“狼人”巧妙利用各种方式通过审核，继续坑钱。虽然一定程度上可以对审核规则进行更新，但“狼人”总能找到新的缺口，通过审核。这可愁坏了借贷机构，这造成的损失谁顶得住啊！

模型本质

机器学习

不过，再会玩的狼人都会在言行上透露出狼人的本质。他们一言一行中总会给出细微但有价值的信息，积少成多，最终帮助我们揪出他的狼尾巴。只是，我们如何利用好这些信息呢？

随着大数据的崛起和机器学习的应用，借贷场景下的“狼人”开始无所遁形，我们可以掌握其更多维度的信息，帮助我们去判断借贷者的好坏身份，比如app安装偏好、地理位置等信息。然后合理的运用机器学习建模方法，就可以将这些信息妥善利用起来，让“狼人”露出原形。这可乐坏了借贷机构，终于有解决办法啦！

模型

逻辑与统计的胜利

狼人杀本就是个逻辑推理游戏，需要参与者能够准确抓住那些有助于我们判断的信息，并理性、客观地分析，最后找到狼人。只有这样，我们才能锻炼出“神预言家”的能力，并在不同对局中，都能准确找到“狼人”。

模型的运作就像一个机械化工厂，不同于人工审核（手工作坊）的方式，它更精密、准确，面对海量、多维度、弱特征的信息（如网络行为特征、地理信息等）时，仍可以高效率完成判别，大大提高工作效率，并且保证质量。

模型基础之

数据

纸上得来终觉浅，绝知此事要躬行。光知道玩法是不行的。要想成为狼人杀推理高手，最重要的就是多玩、多分析。一方面，要进行大量对局，加深我们对狼人杀游戏玩法的理解；另一方面，也要和不同的人对局，获得足够多的玩家信息，便于我们了解玩家。

同样的，模型再好也需要数据支撑，数据的好坏是决定模型效果的最重要一环。一般情况下，对于已有的，我们都需要进行处理，如填补变量缺失值、组合变量、衍生变量等。

（一）特征筛选

由于狼人杀局内信息繁多，我们只需要挑选比较有价值的信息进行分析，场外信息和无关信息需要过滤，否则会降低我们分析的严谨性和可信度，从而不被其他玩家信任，这对于自诩“高玩”的我们肯定是太不能接受了。

游戏尚且如此，建模就更不能马虎了。建模中，必须要对样本特征进行严格的筛选，把对业务上有解释意义的变量纳入模型。否则，面对你的建模结果，别人会一脸渴（meng）求（bi）地问：身高怎么就对一个人的逾期率产生了影响？实际操作中，我们会对诸如手机号、设备所在经纬度这样的变量进行剔除，选择个人兴趣偏好、多头得分等有解释意义的变量进入模型。

（二）样本与标签选择

苦练之下，终有所成，我们的狼人杀技术已经相当厉害了。正准备一展才华时，才发现他们要玩斗地主。慌乱之下，被地主打的落花流水，郁闷难当。总结经验，就是先明确要玩什么，再去做准备。

建模也是一样。我们的建模是基于信贷场景下的。并且，根据不同的业务需求，建模所需准备也不同。对于贷前、贷中和贷后三个场景，我们对于“狼人”的定义和认知也是不同的。贷前阶段，我们不知道借贷者是否是“狼人”，只是用模型去判断他的身份，避免“引狼入室”，但总会有遗漏；贷中和贷后阶段，我们发现了那些溜进来的“狼人”，这时，就需要对他们坏的程度进行确定，以采取进一步的手段和措施。这里，发现“狼人”和判断“狼人”有多坏需要用到不同维度的信息，这就要求在建模中要选择同业务需求相一致的样本数据。

模型基础之算法

终于，我们愉快的进行了几场狼人杀游戏。并且发现，每个人的思考逻辑、分析角度都不太一样。有的人只根据当前轮次的发言进行分析，有的人则倾向于将多轮次的发言综合起来分析，也有人选择划水，使得分析的结果也各不相同。

面对同样的业务需求，我们也可采用不同的建模方法。当然，不同建模方法之间互有优劣，具体如何采用，需要结合实际，妥善选择。信贷建模最为常用的当属LR，但其在大数据应用方面稍显逊色。实际中，我们更倾向于使用GBDT进行建模。

模型评估

谁是“神预言家”

愉快的时光总是短暂的，游戏结束了。但这是否是几场高质量的对局？谁会是那个“神预言家”？一般而言，需要通过多次对局、甚至和不同玩家多次对局才能判断玩家的推断能力。该玩家在某局推测的准确性多高？是否在不同局中都能保持这样的准确率？

模型完成后，也需要验证其准确性和稳定性，看它在其他样本（测试集、跨时间窗口样本）上的效果是否准确、稳定。如果效果不好，则需要考虑重新调整样本（变量再筛选、再组合等）、模型参数，直到模型表现好为止。很多时候，这并不是一蹴而就的事，需要多次反复进行。

本文仅代表作者观点，不代表零壹财经立场。

本文系作者授权零壹财经发表，未经许可，不得转载。

专题推荐：金融毛细血管

零壹智库推出“金融毛细血管系列策划”，通过系列文章、系列视频、系列报告、系列研讨会和专著，系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。

用户评论

游客: 自律公约

机构

资讯

博客

零壹财经

财星

零壹租赁智库

零售金融观察

数字化讲习所

01元宇宙

零壹智库

【专栏】谁是狼人——浅谈模型的建立与应用

融慧FinTell · 零壹财经 2019-01-31 14:02:09 阅读：9560

关键词：大数据 大数据风控 数据挖掘

相关文章

用户评论

所有评论

他的文章 ( 9 )

专题推荐

第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)