首页 > 调研

RealAI刘荔园:数据进入了下半场,模型方兴未艾 | 兵器谱访谈录

调研 阿是 零壹财经 2019-11-08 阅读:86087

关键词:大数据风控人工智能金融领域

清华院士领衔的团队如何在金融领域落地第三代人工智能?
Fintech正越来越深刻地改变着金融行业的生态,各家机构都在数字化转型中快速迈进。针对这一转型大潮,Fintech公司基于人工智能、大数据、云计算、区块链等技术,助力金融业务的数字化、智能化,创新产品和服务,这些产品和服务,正如一件件提升效率的“兵器”。

基于此,零壹财经推出零壹兵器谱项目,调研和报道那些走在创新前沿的Fintech公司。


华院士领衔的团队如何在金融领域落地第三代人工智能?

大数据风控在过去的5、6年间牢牢占据着金融科技赛道的中央,无论在融资金额还是融资笔数上都遥遥领先。但是近来发生的一些动向,或许会让这个行业伤筋动骨,当然,也或许是重获新生。

可以说,这个行业,成也大数据,若败,也在大数据。这不仅仅是在说近来由于爬虫引发的行业上下游动荡和蔓延在整个消费金融领域的数据安全焦虑;还有支撑起这个千亿级市场、由大数据驱动的深度学习技术。

无论是当前无人驾驶领域“撞见”的各式各样的“意外”,还是风靡一时的AI换脸技术延伸出的各种不合法应用,在一些从业者看来,由数据驱动的深度学习技术正面临着不尽如人意的现实和新一代技术的挑战。

依然以深度学习技术应用广泛的大数据风控为例。

大数据风控领域有个说法叫“垃圾进垃圾出”,意思是再厉害的模型,也没办法从垃圾数据里提炼有价值的结论。样本量不足、噪声高、标注差的数据都可以算作“垃圾数据”。而这样的数据在实际业务中是广泛存在的,这不仅仅意味着大量的数据标注工作,可能还意味着“失真”,因为你不可能把所有的情况都转化成标签跟样本,然后让系统去学习。

“不安全、不可靠、不可解释。”RealAI 联合创始人刘荔园向零壹财经指出目前深度学习技术存在的局限,“这是整个算法技术的结构性缺陷,所以它不是说我再多花多少人力,在这个领域上有更多投入,就能够解决或者是突破相应的问题。”

北京瑞莱智慧科技有限公司(RealAI)孵化于清华大学人工智能研究院,致力于研究和推广安全、可靠、可信的第三代人工智能。
 
有别于以知识跟符号驱动的第一代人工智能(例:IBM研发的Watson认知计算系统)和以足量表观数据驱动的第二代人工智能——深度学习(例:视觉识别、语音语义识别等),第三代人工智能是“知识驱动+数据驱动”,能够在样本量不足、数据噪音大、标注差甚至受攻击情况下依旧保证预测结果的可靠性,同时能够提供人类可理解的决策逻辑与决策依据。

目前,RealAI与国内多家大型工业制造企业、金融机构开展合作,提供工业智能诊断分析、金融资产智能提升和人工智能系统安全防护等服务,助力企业智能化升级。

RealAI由清华大学人工智能研究院院长、中国科学院院士张钹和清华大学人工智能研究院基础理论研究中心主任、MIT TR35“先锋者”朱军共同担任首席科学家,CEO田天为清华大学人工智能博士,曾获清华特等奖学金、西贝尔学者。

近日,零壹财经专访了RealAI联合创始人刘荔园,与她交流了RealAI第三代人工智能技术在金融领域的应用。

在金融领域,RealAI的产品和服务具有相当的针对性,开箱即用的建模平台RealBox 解决信贷全流程的快速建模问题,同时可以对数据进行端到端建模,提升数据价值。

刘荔园介绍,RealBox通过安全、可解释的第三代AI技术,帮助金融机构在精准营销、信贷风控、反欺诈等业务场景实现智慧化提升。在风控冷启动、拒绝客户回捞、模型无偏纠正、可解释推断等场景,RealAI也有落地案例。

在刘荔园看来,第一性原理是很重要的,解决问题的关键在于找到最底层决定它的支点。而在金融科技领域,最核心的问题有两个:一是数据孤岛,二是数据有偏。

画出借贷客户一整条“故事线”

“什么是真正的千人千面?”

“每个人的决定因子是不同的,为每个人打分的逻辑也应该有所差别。”


“可解释性”在金融领域十分重要。刘荔园认为,“如果完全依赖一个不可解释的东西,其实是非常恐怖的。”

从诞生之初起,大数据风控动辄成千上万的数据维度,却面临着传统风控“可解释性”的拷问,“弱金融数据”的大规模应用超出了人类逻辑理解的范畴,更像是一种“数字经验”,通过大量的标签数据,做到人以群分。

支持者认为这“做到了人做不到的事”,专家经验不再成为唯一的决策指标,更重要的是,在客户下沉的过程中,大数据风控成为覆盖“白户”(央行征信未覆盖的人群)的利器。

但忧虑者将这样的风控决策称之为“黑盒”,并指出当大数据风控成为金融领域的标配,市场上的金融风险就与这些没有跑过完整金融周期的模型连在了一起,一旦模型失效,带来的损失将是难以想象的。

“信贷领域的可解释性其实并没有那么复杂,有一个对标的东西可以去对比,那就是评分卡。”刘荔园介绍,RealBox 建模平台可以用机器学习的方法,输出一个端对端的建模结果,并且把中间的决策逻辑以评分卡的形式展示出来。

“这对于金融机构而言是一个非常大的突破。”刘荔园表示,过去的建模平台只能看到变量的重要性,却不知道具体意义,而RealBox可以明确变量在什么区间内对应怎样的结果,最后可以直接将各个变量的结果相加,得出这个客户好或者坏的概率。

在此基础上,RealBox的算法可以自动学习出每一个客户的决策依据是什么样的,并且可以把每个决策隐含的变量直接翻译成业务人员可理解的概念,金融机构就可以看到每一个客户全流程、一整套的决策逻辑。

刘荔园将之称为“故事线”。一个借贷客户一整套的故事线意味着贷前、贷中和贷后全流程的追踪与监控。当出现可能影响到其最终还款的影响因子时,这套千人千面的模型会发出预警,这时候,金融机构可以根据自己的风险偏好进行相应干预。

虽然千人千面的说法在业内流传已久,但本质上都在用同一套逻辑给不同的人打分,而刘荔园则认为真正的千人千面应该体现在“每个人的决定因子是不同的,为每个人打分的逻辑也应该有所差别。”

一对多数据自动建模

“什么是建模平台好用的核心?”

“解决业务问题,并且能够把70%的向量工程加工时间节省出来。”


在实际的风控业务中,对数据的反复淘洗周而复始。金融机构会监控入模变量的稳定性,受到市场环境、人们生活习惯、生活水平变化的影响,进入模型的变量也会出现变化,需要优化变量,所以建模人员每隔一定的周期会进行人工建模调优并进行二次部署。

建模平台几乎是第三方风控公司的标配产品,刘荔园认为建模平台本身是有价值的,目前市面上大多数建模平台仍然有很大的改善空间, “如果变量工程什么的都要自己去做的话,本质上,最后用建模平台跑模型就跟用开源包去跑毫无二致。”

以建模常用的信用卡交易流水为例,在以往的建模体系下,必须把这样一对多的数据处理成一对一,这就涉及到大量的数据整理、数据加工等繁琐的工作,但加工完毕后,却不一定能寻找到最适合的场景,或者最有指向性的变量。

刘荔园认为:“更多的是难在算法的突破上”。

RealBox的一个特点是支持一对多数据的自动建模,而这也是“千人千面”能够实现的技术基础。

由于产品相对的标准化,RealBox在落地部署上所花费的时间是1到2周, 主要是适配接口。而对客户的培训则可以完全线上化,“因为特别简单,直接远程给到账号,看一下视频就完全会了。”

数据有偏,模型失效?
   
“数据有偏的问题为什么重要?”

 “因为它可以导致我们做出来的模型统统失效。”


在过去几年的金融市场,各方参与者都围绕着打破数据孤岛进行了大量尝试。政府数据开放、建立百行征信,巨头们打造生态、对外输出各项能力,以及金融科技公司们,承担起了行业连接器的角色,让数据真正成为金融的血液。但对于数据有偏的问题,业内却少有探讨。

刘荔园认为这是因为解决数据孤岛的问题带来的价值已经足够可观,另一方面,解决数据有偏的技术门槛是相当高的,“如果一个领域没有相应的技术突破做支撑的话,其实大家也基本上很难去触碰(深层次的难点)。”

因而对金融科技下半场的观点,她认为,数据进入了下半场,模型方兴未艾。

她向零壹财经表示,业内一些相当靠前的甲方机构都面临着“模型失效”的问题,“模型上线跑了一段时间之后ks值持续下滑,迭代很多次依然越来越差,最后做无可做。” (注:ks值是检验模型区分度的数值,一般认为ks大于0.4可以获得较好的效果。)

刘荔园将此归咎于建模时的“数据有偏”,简单而言就是只用有标签的那部分人(的数据)建模,但一般而言,有标签的样本是通过层层筛选最终跑过整个借贷业务流程的,而大量被拒绝的样本特征则无法在模型中得到体现。

“其实是用了一个非常奇怪的样本做出来的一个模型,但是这个模型又会应用在全体样本上。”刘荔园举例,比如说用中国人做出来了一个模型,然后把它用到全世界,这听着没有问题,但你可能学出来的特征是皮肤越白越漂亮,这个在国外就未必适用了。而随着时间的推移,这种通过好样本学习出来的模型会越来越窄化。最终“做无可做”。

零壹财经向某四大行的风控总监求证,他表示有偏问题确实存在,但对于一些具备足量数据的大行而言,影响不是特别大。一位民营银行的风控经理则认为,“永远不知道被拒绝的人之后是好是坏,这是一直存在的,所以需要不断地回捞迭代。”或许模型没有失效到那么严重的地步,但依旧期待新技术带来的行业变化。

RealAI解决数据有偏的方式是:利用通过客群的X跟Y与拒绝群体的X去训练一个半监督的无偏模型。无偏模型目前的应用场景主要有优化贷前模型和风控回捞。刘荔园介绍RealAI在与某银行客户的合作中,通过风控回捞帮助行方实现了资产翻倍。

“在很多时候,我们看到的是一片红海。但如果拥有新的武器,往往是技术,蓝海的机会就出来了,甚至可以创造新的业务模式。”

新技术带来的新市场无可限量,“现在是推广第三代人工智能最好的时间点。”在接受零壹财经采访的时候,刘荔园正在赶往见下一个银行合作伙伴的路上。

关注金融科技&资产处置
加关注 消息
文章:51 粉丝:0 总阅读数:1780.8k


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

上一篇>刘耀儆:趣链的“区块链+供应链金融”独门心法

下一篇>众安科技李雪峰:立足保险,用区块链创新产业应用


所属专题


相关文章


用户评论

游客

自律公约

所有评论

点击阅读更多内容

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 160ms