上海财经大学韩景倜:征信是一个多维度问题

征信 零壹财经 零壹财经 2017-01-08
0

今日(1月8日),由大黄蜂征信主办,零壹财经联合主办的金融科技与大数据应用发展高峰论坛在上海举行,本次大会的主题是“金融科技与大数据应用发展”。

本次大会将围绕金融科技、大数据技术的应用与发展、互联网金融的发展趋势、互联网金融征信体系的建设与风险控制、金融服务的创新及效率提升等话题交流行业内最新进展及信息,探索创新模式发展、成果落地转化和未来合作可能性。上海财经大学金融学教授韩景倜参会并发表主题演讲。

演讲原文如下:

各位同仁,各位领导,大家上午好!

很高兴参加这个会议,这个论坛涉及到我们关注的几个问题,一个是金融科技,另外一个是大数据,还有一个滋生出来的信用问题,这些都是近期在学术界乃至业界大家都非常关注的问题,作为上海财经大学,我们在这一块也做了一些相关的工作,在这里我给大家做一个分享和汇报,如果有什么问题,接下来我们可以讨论。

上海财经大学作为财经类院校好像称作NO.1的,我们在这块有哪些特殊的贡献呢?我可以自信地说,我们的确做了一些其它院校或者专业没有的,我认为还比较原创的,征信体系的结构,我们改变不了,像美国、美国的一些征信体系,我们国家的,刚才熊总也讲了。我主要讲后面的,为什么征信突然热起来?跟这个有很大关系,一个是2016年P2P进入到一个严格的规制阶段的时候,才有了我们去探讨借我们钱的人能不能还,我把钱给了这个企业之后,它会不会把钱卷走?这是我们的客户关注的,作为企业也非常关注的问题,骗子我们能够一眼把他识别了是最好的,如果出现刚性兑付,出现问题的时候,也不是一眼能看得来的。所以就需要一些大数据,需要我们在座的做很多工作。

为什么用大数据?是因为我们不能直接看到,所以我们要按照互联网产生的一些数据来分析它,大数据的数据模式,一个是容量大,还有一个就是种类繁多,另外它的速度流转很快,可变性、真实性、复杂性,最最关键的是它容量大,这里面有用的数据,在这个属性范围内能不能提取,非常关键。它的数据复杂,这个复杂表现在它的结构化、非结构化、半结构化,这些数据搀杂在一块,你需要用计算机语言,也就是目前的机器学习、智能学习去把它挖掘出来,我们用神经网络方法来做比较成熟,但是问题是把声音以及图片、数字放在一个范畴内的时候,你怎么提取?最后怎么合成?这是一个算法问题,也就是说不是我们搞金融的人搞的,而应该是计算机领域的专家来做的,所以给计算机领域的专家提出了很多挑战。现在学界搞智能学习,AlphaGo深度学习火起来了,它不光是下棋,更多的是在金融领域里面怎么在场景可变的情况下,我发现有用的数据,这是大数据所要做的主要工作。

另外,从金融大数据来说,我们结构化的数据资料只占了15%,85%的数据是非结构化的,或者半结构化的,在信用数据里面做的比较好的像国有银行旗下的这些,这些如果能跟民间分享当然是最好的了,但是有些数据涉及到政策,或者说还有对民间的组织机构的信任问题,它也不能随便放,这玩意儿一旦放出去之后,有违法之嫌。就需要民间构建自己的信用数据,共享自己的数据,也就是说搞数据的人首先得讲信用,你把这个数据获取以后,你以廉价的方式获取了,你以廉价的方式卖出去了,最后使得数据属性或者干系人损失惨重,那是有可能的,而且也有先例。所以说在数据的获取方面,一旦能够获取了,你怎么去用它也是一个,对自身来说就是一个信用问题。

另外,需要更高的性价比的数据计算和存储方式,所以对云计算又是一个挑战,云计算在10年以前就说了,但是我们一般把它当故事讲,很多人说云计算不就是背后的存储吗?但是大数据出现以后,对云计算提出了很大的挑战,也就是说大数据过来以后得有分析和存储,从而才有了很多云计算企业的存活,他们现在也跟着大数据火爆起来了,这个都相关。因为你是BP级的乃至于DP级的数据,背后需要的服务器,需要的云资源,以及计算模式,还有一些计算工具也比较火爆,另外对数据的管理策略,让我们很多在线的智能学习平台也火起来了,这个是瞬息万变的。我们要通过一些工具来抓取它,而且能够在线给予它一些策略。有些超越企业现有的数据解决的能量,我们已经看到这个问题了,但是我们对它束手无策,这种情况也是存在的,我们感觉商机很多,这个问题可以产生数据,很多人说光卖数据就看到前景无限了,但是怎么从现有的数据上下功夫,这是非常关键的,需要我们共同探讨。

在这方面,我们是关注工具的,企业家关注什么?怎么能够变现,因为我不可能去培养一批大学生在我这儿玩了半天,培养一批企业家,它不是一个教育机构,也不是一个慈善机构,它需要在短期内能够把投入变成现金,玩金融也是一样的,看的是能够套利,能够获利才玩的,要不然玩半天都亏了,我要获取利润就有一些风险,包括市场风险、政策风险,一系列的风险。这里面有一个案例就是金融大数据,现在最大的金融机构就是银行,银行在这里面玩大数据已经做的相当好了,但是它没有达到民间需求的那个程度,它的数据不外流,它只对它的服务对象来服务的,按照它的零售到企业伙伴到增值服务,做的这一套,我们跟它也有一些合作,在这方面,比如说嵌入式的流程整合,通过自己对客户的360度的互动,通过它的数据结构的架构来完成自己大数据,这个都没有问题。那么民间的,也就是P2P企业最关注什么?风控怎么做,还要客户体验好,内部运营要完备,速度快,效率高,还不能用太多的人,你本身就是小型企业,结果去搞征信,派一堆人在那儿调查他的邻居,在他们单位调查他的工资收入等等,这些都是高成本的。最最主要的是我要在线获取它的一些东西,所以说对客户分析和营销,以及对我们自身形成的历史数据的存储和管理是我们最最要关注的,在这里我就不赘述了。

在互联网金融这个典型模式下,Fintech也是互联网金融,互联网金融在最初出现的时候,这种模式咱们不讲了,它依托于互联网,实际还是个金融,只是它是基于技术,互联网金融的典型模式,比如第三方支付的风险相对小,而且很成熟了,第三方牌照的发放,都属于互联网金融了。还有网络保险,以及其它相关的理财,包括我们国有银行的一些理财产品在网络上的发布,同属于互联网金融,包括ATM机你说不是互联网金融吗?它就是基于网络的,但是它的风险相对较低,除了人为的攻击。最大的就是P2P,基于互联网的,又带有风险,互联网本身就是到处都有陷阱的一个玩意儿,你发布一个假消息。可靠性比较,让人怀疑的一个网络里面,再加一个比较高风险的金融,就构造了对我们客户,对于我们企业运作的风险了。它的金融复杂性,我列出来了,就不说了。

我们选择互联网金融的结构复杂性作为切入点,然后对它进行分析,我们做了一些特殊的工作,怎么做的呢?我们按照节点、度分布、集聚系数、中心性、核数和平均路径长度,这个过于专业了,这个是统计物理和计算机的人最关注的。当然那个东西用到我们互联网金融大数据,那是非常管用的,怎么管用法?后面我们做了一个适度的分析,这是2016年5月份,我们做的一些关系模型,首先做的是竞争关系P2P的网络,然后又做了一个基于客户评论角度的P2P借贷的网络,我们发现我们国家的P2P被国人的确玩坏了,刚才有人说你不要叫P2P,实际上P2P是一个挺好的东西,结果被戴上了骗子公司的帽子,我觉得不对。尽管现在P2P公司跑路的以及风险还是比较高的,但是目前它在我们金融市场的作用发挥还是不可低估的,过去很多P2P公司在近期都把名字改了,实际上玩的还是P2P,不要这样怕,不要风一来就转向,坚持迎风而上,这是主要的,有做坏事的,但是你不要做坏事就可以了。

我们做了一个关系模型的构建,这个模型方块表达成P2P的企业,上面的点就是表达成P2P企业在自己平台上发放的一种产品,通过这种模式,我们可以生成一个二部图,这是属于复杂网络里面的,比如说六度分理论,就是从这儿产生的,在一个陌生的环境里面,中间隔五个人都能找到和自己相关的一个信息。也就是说你和它肯定是相关的,最多五个人。这是统计出来的,在一个完全陌生的环境里面,这叫小世界网络,还有蝴蝶效应,一只蝴蝶引起飓风。这些问题都是有解法的,我们对P2P问题用复杂网络来解决的时候,首先对它的度进行统计,也就是说P2P公司,本身人和人之间的关系,比如说韩老师的网络没有范冰冰认识的人多,范冰冰认识在座的只有一两个,但是大家都认识范冰冰,这就是复杂网络的特性,它符合密布分布。大部分节点的度集中在个别人身上,而大部分的个人节点的度很小度的分布是不均匀的,如果在一个同学网络里面,那度的分布基本上是均匀的,你的同学也是我的同学,可以划一个曲线。但是在复杂网络里面不符合这种规律,在这种情况下我们对P2P企业做度分布的时候,发现一个P2P的企业,也就是在互联网上,这是真正的大数据,我用一个月的时间把这些数据扒下来之后,它最小的客户也是225个,这不小啊,对于制造业来说有225个客户来给你供货或者你作为它的提供商,你的生意是非常火爆的。按照你的产品的最小额度去算的时候,我们不去分析产品的额度,我只分析度分布,是225个,这个网络平台有590个,这是度。度的区间最大差异在哪儿呢?也就是说比较均衡的在480-590这个区间内,大部分的平台网络大概在500个客户。在座的假如都是P2P企业的话,平台之间的竞争压力很大,最后拼什么呢?拼给客户的利息,这个就把自己玩坏了。

我们还做了一个分布,平均最短路径距离1.1,假如说我和熊总之间,我认识他,我们认识的距离是1,我们是同类的,我们就干一件事,那么这个距离如果大于1的时候,熊总认识的那个人,我把我认识的信息传递给熊总,熊总再传递给另外一个人的时候,我是同类企业的时候,说明我把我的贷款给他了,大于1不是好事,说明在操作上是有风险的。这样就存在一个利息叠加问题,利息的叠加肯定就类似于民间说的击鼓传花,最后使得总有一家把这个盘接来以后就坏事了。它的聚集度非常高,有些你的利息非常诱人的时候,大家纷纷去买。还有一个社团结构,分为三类,这三类背后,它们之间的联系很少,但是社团之间联系非常之紧密,也就是说按照平均最短距离1.1的说法,把P2P就玩坏了,背后有一个社团,社团支撑了很多同类企业,咱们自己玩自己,自己玩一圈玩得很热。

动态特性是做的产品,这是一个关系矩阵,我不说了。最小的度差达到了574个,这说明他们在竞争策略上还是非常激烈的。我们做了一个聚集系数,达到1.58,不是一般网络,就是按照最短平均距离的聚集系数比较高的这些,我们在分析的时候,这个问题更加严重了。这是2015年的情况,还有一个按照竞争关系的,我们也做了一个跟这个很相近的,我们的结论就是P2P发布的标底时间,大概是两三个月,这是比较受欢迎的,我们的借款人对它的信任度,时间过长的时间,还是缺少应有的信任的。第二个就是关于用户平的,跟它相类似,我们也是基于相关的网络爬虫信息,因为我们和网贷之家有一个合作,这里面有一些数据,像借贷的中心节点,我们按照上面的二元关系对它进行分组的时候,有这么多组,每个组的点都拎出来了,按照这个度分布理论来做的时候,平均的度就更高了,它的集聚系数比上一个结构稍微弱一些,但是也是比较高的。这是我们算出来的结果。

又做出来一个簇度分析,发现一个问题就是大家还是抱团取暖,这个还是有问题的,大家要差异化发展。做征信也是一样的,节点的重要性,按负面清单来做的时候,能找到有问题的企业。这是一个博士生测的一些企业,就有这种预兆,还是非常准确的。后面我不再说了,节点的重要性,你的度,风险的传播和控制,这是一个技术问题,像利率风险,这些都是自然的。这些常规性的风险,银行出现了,P2P肯定也出现,高利率肯定也有一些风险,市场风险都是一样的,正常的风险都存在。最关键的是信用风险,我们用一个度量的方法来说,现在对信用,比如说你打一个表,对一个个人或者对一个企业现在都可以打分,我们做数据共享的时候,可以跟银行共享部分数据,我们企业构建自己征信体系的时候,我们对它有一个打分,但是这个打分最最关键的,第一数据源的准确度,第二,你的属性是不是发生了变化。比如说这个人非常外向,开车的时候老压车,老被扣分,但是这个人是一个好企业家,他就是着急,但是他老违规,他企业做的很好,你说用那个数据来衡量一个征信企业的老总的时候,这个时候数据的属性发生了变化,你说他借钱不还吗?不可能的,你说他收入低吗?也是不可能的。他就是在开车的时候有可能出现违章的情况,目前上海对于违章,在2017年开始,谁违章谁去解决,黄牛不能做那个事了,都是自己来解决,实际上是在构建一个信任体系,这个信任体系将来会在金融领域里面被使用。

信用问题是一个多维度问题,比如说区块链将来的应用,实际上是一个分布式记帐,计算机领域的分布式计算的问题,分布式计算打分的时候有一个概率,服从的是高概率的,简单地说,比如我们是串联结构的时候,我们传递消息按一个队伍,我们都参加过军训或者队列,从第一个人传达一个信息到最后一个人的时候,用口语来传输的时候,失误率是最高的,到最后那个人肯定是发生变化了。这个做过N次实验,说明什么?点和点之间的信息,它的可靠度越长,如果是两个人,可靠度会打折扣,这里面就是一个信任数据的串联结构问题,比如说我的信任度是0.9,熊总的信任度也是0.9,我们串起来再传达的时候,就类似于我们看电影里面的地下组织,共产党的地下组织,单线联系,这中间一切断完了,这个信任找不着了。我们两个串联的时候,它是什么概念?我们俩的值是相乘的,0.9×0.9,变成了0.81了,这个就是信任度降低了。但是我们并的时候,我们同时给第三方做一件事,让第三方另外一个节点给我们做信任的时候,靠第三方机构,这是简单的第三方,实际上区块链就是多方记帐,来对它进行一个标记,他是0.01,我们的信任指数是什么呢?我们用1-0.01就变成了0.99,比我们单个提供的数据信息高出0.09,原来是0.90。这种标记对P2P来说,我们对所有的数据,让所有的企业对它进行标记的时候,这个人的信任数据就非常可信了。所以这里面有一些技术问题,我们后面再说。当你数据量足够大的时候,就是两个节点的问题,多节点,我们还要考虑这种节点分布。这里面是一个信用风险问题,信用本身也是有的,我们给它打这个分是不是符合这个规则,这个非常重要。

总而言之,所有的问题归结到一点,事成不成就是一个信用问题,也是一个可靠性问题,这实际上是一个概率问题,希望大家关注这方面的前沿,谢谢大家!
 

0

相关文章

我来评论

评论“上海财经大学韩景倜:征信是一个多维度问题”

取消 提交 请输入内容!

评论

  • 零壹财经新金融年会2017

    零壹财经新金融年会2017

  • 2016中国P2P网贷年度报告

    2016中国P2P网贷年度报告

  • 2016消费金融高峰论坛

    2016消费金融高峰论坛

耗时 71ms