【专栏】拼多多一夜被薅数千万羊毛 信贷场景如何做反团伙欺诈?
融慧FinTell · 零壹财经 2019-01-24 10:27:56 阅读:7888
导语:
上周末最high的事莫过于拼dd的千万元损失,从凌晨1点到早上10点,辛辛苦苦积攒的羊毛被大量羊毛党猛薅。目前,个体的薅羊毛损失占比小且已经被追回,而真正的黑产团伙早就利用无门槛券购买海量的话费、Q币等虚拟物品后藏匿得无影无踪,可谓薅得猛溜得快。
电商可以薅优惠券,理财可以薅返现,信贷可以直接不还钱了。如果这些事件再乘以一个数量级......
信贷场景为什么要做反团伙欺诈,针对个人维度的风控不够嘛?
我们已经有各种身份验证,反欺诈策略和反欺诈模型,哪里还有什么坏人?!
尽管有道理,但一般的风控都是针对个体,一些有组织有纪律有(bu)预(yao)谋(lian)的团伙欺诈,往往会绕开我们的风控策略,来集体骗贷。
怎么防范呢?当前的主流方法之一就是构建关联网络和团簇挖掘。
那具体怎么做,等融慧君给你科普一下。
第一步:构建关联网络
问:为什么要构建关联网络?
答:闲着没事为了炫酷为了发现贷款用户的关联关系。

第二阶段:模糊匹配
怎么能够找出节点之间潜在的关系呢?
用户在贷款平台的申请信息中,有许多文本信息,这些文本信息可能字面不一样,但内容是相同的,这个时候在关联网络中,需要进行模糊匹配,发现其中共享的节点。
示例:

然而在这种情况下,“萌萌公司”和“萌萌有限公司”很可能是同一家公司,只是用户在填写时没有写清楚,这个时候我们需要进行模糊匹配,再进行关联,便能找出关系。
一般我们常用三种方式结合进行模糊匹配:
①基于规则补全信息,如在公司名称信息中,补全“有限公司”等场景特有字眼;
②计算文本相似度,方法有很多,比较有效和快速的如minhash法和simhash法;
③基于语料库,如公司名称库,地址库等。
第三阶段:补全隐藏关系
模糊匹配后,只是将用户所填信息进行充分挖掘,然而贷款平台上的用户申请信息虽然没有关联关系,但可能他们在现实生活中存在联系。
示例:
如果是团伙过来平台欺诈,申请信息不会露出可疑点。当我们找到他们实际有所关联,关联网络就能展示出两人的关系,我们就至少能推测出他们是相互认识的。

第二步:团簇挖掘和分析
构建好关联网络后,下一步需要缩小关联网络中的团簇范围,然后再分析挖掘这些团簇。
第一阶段:团簇发现
问:为什么我们要做“团簇发现”呢?
答:团簇过大,会导致节点间原本并不直接相关,却被误杀错判的情况,所以要缩小范围。
例如融慧君认识在看文章的你,那融慧君和融慧君的朋友以及你和你的朋友都有关联关系。但融慧君的朋友和你的朋友并不认识,所以要将这个大团簇进行分割,剩下你和你的朋友是一个团簇,以及融慧君和融慧君的朋友是一个团簇。

答:工业上还是有很多方法的,下面就给大家介绍其中一个经典方法。
融慧君在这里介绍社群发现中比较常见的Louvain算法:

分析挖掘是一门深奥的学问。在一个团簇中,有可能有多种情况:
A.整个团簇都是欺诈用户(如黑产)
B.部分是欺诈用户(如黑中介)
C.整个团簇未发现欺诈用户
接下来,就是要针对这几种情况采取不同方法。
第二阶段:团簇风险识别
对于上述的情况A,关联网络中的一些团簇可以利用规则策略识别欺诈风险,这些规则策略因平台而异,下面将列举几个在关联网络中常见的规则策略。
不一致性检验
在团簇中,如果用户的信息与我们的正常理解有严重偏差,那么这种团簇很可疑。
示例:

团簇黑节点过多且团簇紧凑
在一个封闭团簇中,如果黑节点占比过高,且满足模块度要求,则为可疑团簇。
示例:

但如何能够知道黑用户或者风险标签呢?机构可以通过外部数据源进行补充:融慧反欺诈风险名单不仅能够识别潜在欺诈风险,还能提供风险标签,为团伙挖掘提供数据支撑。
第三阶段:节点挖掘

①在无标签的情况下找到满足某些规则策略的节点;
②基于已有的标签信息,与已有标签节点邻近或者结构相似的节点。
下面列举这两种情况下用到的一些方法:
①无标签下找出可疑节点:团簇中所有节点都无标签,根据结构找出可疑节点。


第四阶段:特征构建
问:除了拉黑,关联网络还能有什么贡献呢?
答:关联网络除了自身的分析挖掘,也可以从关联网络提炼网络结构特征或者根据网络结构更新原有特征。

第三步:动态分析
问:前面不是都解决了吗,怎么还要动态分析?
答:此前我们讨论的情况都是基于静态网络,但实际业务中,一个团伙往往不是在同一时间段申请贷款的,网络动态分析是为了在团簇小规模的时候发现欺诈团伙的苗头,将其拉黑。
我们对于一个团簇,可以回溯不同节点时的最大度中心性和团簇规模的关系,得到下图:

另一方面,在业务上欺诈团伙往往会在短时间内申请贷款,把团簇规模按照时间顺序进行分析,可以得到下图的示例:

所以根据上述的两个曲线,我们可以拟定类似的策略:在团簇进入平台的3天内,如果最大度中心性大于4,则冻结中心节点的额度或者拉黑。
实际的阈值和观测指标都可以根据机构的实际情况而定,上图只是一个示例,仅供参考。
总结
千言万语可以凝聚成这张图:


相关文章
用户评论
所有评论
资讯排行
- 48h
- 7天
专题推荐
more
第四届中国零售金融发展峰会(共15篇)

《陆家嘴》交流会第6期(共14篇)

2022第一届中国数字科技投融资峰会(共43篇)

2019年数字信用与风控年会(共15篇)
-
首页
-
评论
-
回顶部
游客
自律公约