首页 > 专栏

【专栏】谁是狼人——浅谈模型的建立与应用

融慧FinTell · 零壹财经 2019-01-31 14:02:09 阅读:9060

关键词:大数据大数据风控数据挖掘

数据挖掘 谁是狼人 玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。而高玩在拿到狼人牌时,会很好隐藏自己身份,使得普通玩家...

数据挖掘

谁是狼人


玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。而高玩在拿到狼人牌时,会很好隐藏自己身份,使得普通玩家难以判断。那么问题来了,谁是狼人?


现实中,这样的“狼人”并不少见。在信贷场景下,借贷者借钱后可能会恶意逾期不还,成为一个“狼人”。“引狼入室”是借贷机构所不愿见到的,因此他们也想出了一些办法来识别借贷者的身份,比如人工验证借贷者的学历、收入、征信等信息。一段时间后,机构开始顶不住了,借钱的人太多了,审核不过来。而且由于审核方式单一,很多“狼人”巧妙利用各种方式通过审核,继续坑钱。虽然一定程度上可以对审核规则进行更新,但“狼人”总能找到新的缺口,通过审核。这可愁坏了借贷机构,这造成的损失谁顶得住啊!

模型本质

机器学习


不过,再会玩的狼人都会在言行上透露出狼人的本质。他们一言一行中总会给出细微但有价值的信息,积少成多,最终帮助我们揪出他的狼尾巴。只是,我们如何利用好这些信息呢?


随着大数据的崛起和机器学习的应用,借贷场景下的“狼人”开始无所遁形,我们可以掌握其更多维度的信息,帮助我们去判断借贷者的好坏身份,比如app安装偏好、地理位置等信息。然后合理的运用机器学习建模方法,就可以将这些信息妥善利用起来,让“狼人”露出原形。这可乐坏了借贷机构,终于有解决办法啦!

模型

逻辑与统计的胜利


狼人杀本就是个逻辑推理游戏,需要参与者能够准确抓住那些有助于我们判断的信息,并理性、客观地分析,最后找到狼人。只有这样,我们才能锻炼出“神预言家”的能力,并在不同对局中,都能准确找到“狼人”。


模型的运作就像一个机械化工厂,不同于人工审核(手工作坊)的方式,它更精密、准确,面对海量、多维度、弱特征的信息(如网络行为特征、地理信息等)时,仍可以高效率完成判别,大大提高工作效率,并且保证质量。

模型基础之

数据


纸上得来终觉浅,绝知此事要躬行。光知道玩法是不行的。要想成为狼人杀推理高手,最重要的就是多玩、多分析。一方面,要进行大量对局,加深我们对狼人杀游戏玩法的理解;另一方面,也要和不同的人对局,获得足够多的玩家信息,便于我们了解玩家。


同样的,模型再好也需要数据支撑,数据的好坏是决定模型效果的最重要一环。一般情况下,对于已有的海量数据,我们都需要进行处理,如填补变量缺失值、组合变量、衍生变量等。

(一)特征筛选

由于狼人杀局内信息繁多,我们只需要挑选比较有价值的信息进行分析,场外信息和无关信息需要过滤,否则会降低我们分析的严谨性和可信度,从而不被其他玩家信任,这对于自诩“高玩”的我们肯定是太不能接受了。


游戏尚且如此,建模就更不能马虎了。建模中,必须要对样本特征进行严格的筛选,把对业务上有解释意义的变量纳入模型。否则,面对你的建模结果,别人会一脸渴(meng)求(bi)地问:身高怎么就对一个人的逾期率产生了影响?实际操作中,我们会对诸如手机号、设备所在经纬度这样的变量进行剔除,选择个人兴趣偏好、多头得分等有解释意义的变量进入模型。

(二)样本与标签选择

苦练之下,终有所成,我们的狼人杀技术已经相当厉害了。正准备一展才华时,才发现他们要玩斗地主。慌乱之下,被地主打的落花流水,郁闷难当。总结经验,就是先明确要玩什么,再去做准备。


建模也是一样。我们的建模是基于信贷场景下的。并且,根据不同的业务需求,建模所需准备也不同。对于贷前、贷中和贷后三个场景,我们对于“狼人”的定义和认知也是不同的。贷前阶段,我们不知道借贷者是否是“狼人”,只是用模型去判断他的身份,避免“引狼入室”,但总会有遗漏;贷中和贷后阶段,我们发现了那些溜进来的“狼人”,这时,就需要对他们坏的程度进行确定,以采取进一步的手段和措施。这里,发现“狼人”和判断“狼人”有多坏需要用到不同维度的信息,这就要求在建模中要选择同业务需求相一致的样本数据。

模型基础之算法

终于,我们愉快的进行了几场狼人杀游戏。并且发现,每个人的思考逻辑、分析角度都不太一样。有的人只根据当前轮次的发言进行分析,有的人则倾向于将多轮次的发言综合起来分析,也有人选择划水,使得分析的结果也各不相同。


面对同样的业务需求,我们也可采用不同的建模方法。当然,不同建模方法之间互有优劣,具体如何采用,需要结合实际,妥善选择。信贷建模最为常用的当属LR,但其在大数据应用方面稍显逊色。实际中,我们更倾向于使用GBDT进行建模。

模型评估

谁是“神预言家”


愉快的时光总是短暂的,游戏结束了。但这是否是几场高质量的对局?谁会是那个“神预言家”?一般而言,需要通过多次对局、甚至和不同玩家多次对局才能判断玩家的推断能力。该玩家在某局推测的准确性多高?是否在不同局中都能保持这样的准确率?


模型完成后,也需要验证其准确性和稳定性,看它在其他样本(测试集、跨时间窗口样本)上的效果是否准确、稳定。如果效果不好,则需要考虑重新调整样本(变量再筛选、再组合等)、模型参数,直到模型表现好为止。很多时候,这并不是一蹴而就的事,需要多次反复进行。


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

相关文章


用户评论

游客

自律公约

所有评论


资讯排行

  • 48h
  • 7天


专题推荐

more

第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)



耗时 154ms