宋晓冬:构建可靠负责任的数据经济
观点 宋晓冬 · 珠海市横琴新区智慧金融研究院 2021-05-08 阅读:206011
在这样背景下,横琴数链数字金融研究院、横琴智慧金融研究院、零壹财经•零壹智库等机构,于2021年3月26日-27日在横琴召开“琴澳数字金融:前沿、挑战与实践——横琴智慧金融论坛(2021年第一季度)暨琴澳数字金融春季峰会”,总结过去半年全球数字资产市场的发展,展望和研判行业发展趋势,吸引更多数字资产产业链企业到琴澳考察和落户,促进琴澳地区数字金融发展。
本文为加州大学伯克利分校教授宋晓冬在峰会上所作的演讲,发言主题为《构建可靠负责任的数据经济》。

大家下午好,我的研究方向是安全隐私保护、区块链和人工智能,今天分享的主题是“构建可靠负责任的数据经济”。
01 保护数据隐私所面临的挑战
数据是现代经济的关键驱动力,被称作“第五大生产要素”。每天有大量的数据被采集,其中很多数据属于敏感数据,尤其是个人数据。据欧盟统计,2020年个人数据产生的价值已经占据欧洲GDP总量的8%。那么如何使用这些敏感数据,对个人与机构来说是前所未有的挑战。
从个人角度来看,个人对自身数据的使用权已经失去控制。在数据交易过程中,用户无法从数据中获得足够的收益。从企业角度来看,企业同样无法百分之百保证隐私数据的安全性。即使在美国,仍有许多公司通过售卖数据创收。政府在陆续出台与数据保护相关的法律法规的同时,也加重了企业的负担。
比泄露隐私数据更为重要的问题是,有价值的数据未被高效使用,形成“数据孤岛”(Isolated Data Island),将进一步引发数据售卖和隐私方面的问题(the data selling and privacy concerns),且新技术的应用也会以牺牲隐私为代价扩大数据应用范围,例如执法部门对人脸识别软件的应用。
现如今我们面对的问题有两个:第一,如何使用数据? 第二,如何保护用户数据? 如果不能解决以上两个问题,社会的进步、人类的基本权利与价值,均会受到不同程度的破坏。因此,我们需要构建一个可靠负责任的数据经济框架,而且这是刻不容缓的。
02 “可靠负责任的数据经济”框架
“可靠负责任的数据经济”的框架的定义是复杂的,有两个原因。一方面,使用数据与保护数据隐私之间存在天然的对立性(natural conflict),因为使用数据意味着获得数据的效用(utility),与保护数据隐私存在一定程度的矛盾。另一方面,数据不是实物,其本身具有非竞争性,他人也能够持有拷贝的数据(non robbery),因此我们不应该简单地复制现代世界中的概念和方法,而是采用技术与非技术结合的解决方案。
“可靠负责任的数据经济”的框架分为技术、法律法规和经济激励三部分。
(一) 技术
首先,从技术角度来看,传统的技术解决方案只能对静止的数据或者在存储与传输过程中的数据进行加密保护,无法很好地保护处于使用过程中的数据。因为在传统解决方案中,数据要么未被使用,一经使用,就意味着数据已被复制。数据在被复制后,其使用权难以被控制,即使是匿名化数据,也不能百分之百保护数据隐私。所以我们需要新技术对正在使用的数据进行保护,并控制数据的使用,即“数据可用不可鉴”——在使用数据时,可以控制但不能复制原始数据。因此当数据被使用时仍然可控,从而达到保护数据结果输出、不泄露敏感信息的目的。
业界在技术层面已经有了突破,我将这些新技术统称为“负责任的数据技术”。它包含安全计算、差分隐私、联邦学习、区块链分布式账本四部分。
第一,安全计算,在计算过程当中确保数据不被泄露。这种技术可以由硬件和密码学两种方式实现。硬件方式是可信硬件,在可信计算中是强壮有力的基元块,性能较好,支持通用计算。这里引入可信安全硬件的概念,可以将其理解为一个根据硬件和软件结合的黑盒子,把数据、程序、代码依次放入,程序在黑盒子内部计算,黑盒子外部的所有应用无法看见黑盒子里面的计算过程,以此来保证数据不会被拷贝和转移,并对计算结果进行远程认证,从而保护数据的隐私以及计算过程的完整性,这对于建立安全隐私保护系统非常重要。各大硬件公司也已经提出对应的解决方法,但均是闭源的。伯克利开发了世界上唯一开源的可信硬件,也是唯一的安全运行环境,其基础是RISC-V,实验结果也显示其性能开销很低,有利于建立保护数据隐私的生态系。密码学的方式则包括安全多方计算、零知识证明、全同态加密。其他的这几种方法基于密码学它们的性能,通常只能支持一些特殊的应用场景。
第二,差分隐私,确保计算输出不会泄露个人敏感信息。最近,全新的神经网络“Deep Rain”的概念较为流行。虽然神经网络的容量很大,但它能否记住虚拟数据?攻击者是否仅通过查询学习模型就能提取在训练数据中的隐私信息?这也是我们跟谷歌合作研究的问题。以语言模型为例,当你给语言模型一串字,它就会预告提示下一个字。我们做过一个研究,训练数据天然地包含一些真实的社会用户的信用卡和社会安全号码,而在攻击者不知道训练模型内部的细节和参数的前提下,攻击者仅通过查询模型,就可以找出原来训练数据集当中用户真实的信用卡和社会安全号。这个研究说明语言模型可以记住训练数据中的敏感数据。在特定情况下,我们可以用差分隐私的方法,训练有隐私保护的机器学习模型。例如大家耳熟能详的GPT-2和GPT-3,我们也可以从这种语言模型中差分隐私,在差分过程中加一些噪音,提供算术的干预器,在执行的同时加强其对用户数据的隐私保护。我们最近的研究在这方面有所推进,正在美国和Uber合作进行落地的场景和实际应用。
第三,联邦学习,在数据不离开所有者的机器的前提下,以分布式方式进行训练、使用数据,共同建模。
第四,区块链分布式账本。区块链与分布式账本通过提供不可变日志(immutable log)来给数据提供一种确权的方式,保护并强制执行数据保护政策。将上述这几种技术结合,能够打造一种新的资产类型,称为数据资产,即把安全计算和区块链结合,提供数据资产化的的新范式。由于区块链可以对数据确权,使用户提供对数据使用的策略;安全计算可以在计算过程中保持数据隐秘性,未经允许不能被重复使用,因此将区块链和安全计算两种技术结合后,我们对数据及其使用策略进行封装,打造的数据资产便可以按其特定的准则和付费方式,用来交换价值。我们也打造了新的平台,对数据进行资产化,以便释放出新的负责任的数据经济的潜力,让个人和数据拥有方能更好地维护数据权利,并从数据资产中获取价值。例如,在个人最敏感的数据——基因数据中,由于用户对个人隐私的要求越来越强烈,用户采用(consumer adoption)一直在减弱,我们用一种全新的方式,让用户确权自己的基因数据,对自己基因数据进行授权,成为个人基因数据的拥有者。如果用户要求基因公司必须在安全计算的环境中使用用户的数据,基因公司便不能买卖用户的数据,这样就能够让用户对自己的基因数据确权、保护数据隐私的同时,从中获得价值。因此,随着技术的发展,数据资产会成为一种非常重要的、且能够帮助用户获得价值的资产。
(二) 法律法规
法律法规的不完善给数据的安全保护带来巨大的挑战。什么是数据权?谁在控制数据权?私有资产权是现代经济的基石,正是私有资产权的存在,才真正推动了现代经济数的增长。我们现在缺少的是适当的数据权框架,只有在以数据驱动、由技术指导的法律法规框架中建立数据权,才能使用户从个人数据中更好地获取价值并推动经济增长。
(三) 经济激励
最后,我们需要有更优良的激励模型用以确定和分配数据价值。我在伯克利的研究组曾做过很多相关研究,提出严密的数据基本框架,能够更好地分配数据的价值。比如,沙普利值(Sharpley Value)就可以为分配数据价值提供一个很好的模式。尤其是在当下疫情时期,与联系人追溯、诊断、药物开发、医疗资源预测相关的数据极其重要,其隐私性需要被保护。
在未来十年,我认为可靠的、负责任的数据分析会非常普及。尽管现在它的影响范围有限,但很多初创公司都在推动可靠的、负责任的数据分析,例如数据信托、数据共地这些新的建筑物将占主导地位,帮助数据拥有者托管其数据资产、创造远高于现在数据市场量级的数据价值;大型公司很可能在未来设定首席负责任数据官的职位,为用户提供管理、下载、删除自己数据的工具;今天司空见惯的行为可能在未来将从法律上被禁止,比如未经用户同意出售匿名数据的行为。总而言之,数据经济的潮流是指数性的增长,尽管今天我们面临很多挑战和瓶颈,但是为了互联网的明天,希望大家通过合作,引领可靠负责任数据经济的新潮流。
谢谢大家!
(原文来源:珠海市横琴新区智慧金融研究院; 原文整理:洪慧瑛 )
所属专题
相关文章
用户评论
所有评论
主编精选
more专题推荐
more
第四届中国零售金融发展峰会(共15篇)
资讯排行
- 48h
- 7天
-
首页
-
评论
-
回顶部
游客
自律公约