首页 > 观点

可信联邦学习进化:FATE开启新征程

观点 温泉 零壹财经 2022-06-16 阅读:5320

关键词:可信联邦学习FATE隐私计算星云Clustar

在安全-性能-效率的平衡方面,还有许多有效的方式。

来源 | 零壹财经
作者 | 温泉

2022年,对中国最大的开源联邦学习平台FATE来说是变革之年。

今年3月,在“机器之心”举办的“AI科技年会”上,联邦学习FATE开源社区技术指导委员会主席、加拿大工程院及加拿大皇家科学院两院院士杨强首次提出,联邦学习研究进入新阶段,下一个重点目标是如何实现“可信联邦学习”。

刚刚过去的5月25日,联邦学习安全效率与开源生态线上论坛召开。论坛云集产学研用各界代表,围绕联邦学习的技术与应用创新、可信联邦学习的特征及可用性、开源开放与数据交易、隐私计算标准化与合规性等热门议题展开了深入讨论。

2019年初,微众银行正式开源全球首个工业级联邦学习框架FATE(Federated Learning Enabler),并开始尝试将联邦学习应用于金融业务中。

FATE的开源,使得联邦学习的应用门槛大幅降低。据中国信通院、隐私计算联盟等单位联合发布的《隐私计算白皮书(2021年)》,在当前的国内隐私计算产品中,开源类和自研类分别占比55%和45%,尤其是FATE,2020年及之后出现的很多联邦学习类产品或多或少都吸收和借鉴了FATE的成果。

根据FATE社区官方披露,截至2021年末,已经有1000余家企业和300余家科研机构参与FATE开源生态共建。

日益发展壮大的FATE生态,正在开启新的征程。

可信联邦学习的进化

据杨强介绍,可信联邦学习是安全可信的联邦学习,是能够满足用户和监管等各方面需求的分布式机器学习范式。

在此范式中,隐私保护、模型性能、算法效率是核心的三角基石,并且与模型的决策可解释性和模型的可监管性两大支柱,共同构成了更加安全可信的联邦学习。数据安全可证明、模型性能可使用、机器学习效率可控、决策可解释、模型可监管和普惠是可信联邦学习的核心特征。

可信联邦学习概念的提出,是对以往业界对隐私计算技术误解的澄清,也是对联邦学习概念的新的发展。

过往有部分观点认为,安全多方计算(MPC)、同态加密(HE)、可信执行环境(TEE)、差分隐私(DP)、联邦学习(FL)等,各技术分支之间是“非此即彼”的关系。一种更极端片面的观点甚至认为,联邦学习技术是通过牺牲安全性来追求效率,并以此作为反对联邦学习的理由。

对此,杨强教授及团队提出了隐私与模型性能的"No-free-lunch安全-收益恒定"定律,从信息论的角度为隐私泄露和效用损失的权衡提供了一个通用的理论框架。

这一理论框架揭示了对于满足“贝叶斯隐私”的多方计算系统而言,都满足“|安全|+|效能|≤常数” 这一“安全-效益恒定定律”,表明天下没有免费的午餐,想同时不泄露隐私和不降低模型性能是不可能的,但可以找到均衡点。

杨强指出,利用该定律,可信联邦学习将安全-性能-效率三者形成有机整体,以实现更高质量的隐私保护,同时达到既不牺牲数据安全,也不致使模型性能和学习效率的大幅下降的效果。良好运用该定律,各方能够量化分析隐私计算各种技术保护方案的优劣,优化隐私保护算法设计。

与传统的联邦学习相比,可信联邦学习在三个方面进行了拓展:其一,致力于实现安全-性能-效率三者的平衡;其二,更好地保护模型的知识产权;其三,更大范围推进联邦学习的普惠,以进一步降低技术使用门槛。

与可信联邦学习的拓展思路相对应,FATE平台将主要在三个方面发生改变:

第一,通过算法的改进来实现安全-性能-效率的平衡。杨强向零壹财经表示,目前有办法设计对于攻击者成本极大、收益极小、并且效率极高的算法,这种算法在实际当中使用就可以解决安全、性能和效率三者有效的结合,既能保护隐私,实现反向激励。通俗地解释,如果有人在数据或者模型里面“下毒”,新设计的算法可以使得下毒的成本远远大于它得到的收益。

第二,通过给模型打“水印”的方式来保护模型的知识产权,从而建立联邦学习的激励机制。联邦学习可以实现“数据不动模型动”,因此未来的数字经济很有可能是模型流通的世界。所以,未来对模型的后期管理非常重要,其中模型的知识产权保护是一个关键点,因为它可以确定模型的归属,这是建立联邦学习激励机制的基础。

给模型打“水印”,意味着可以使模型在整个生命周期都受到保护和监管,其所带来的价值是多方面的。其一,可以使得模型不被盗用;其二,在事故发生后可以对相关责任方进行溯源;其三,模型的收益可以给到模型贡献者,从而激励模型的创造;其四,可以客观评价模型的贡献,因为联邦学习是多个模型一起起作用,通过水印可以分析各方的贡献大小。

值得注意的是,FATE打“水印”的方式,并不是运用区块链技术,而是应用杨强团队首创的方法——在模型参数中加入有特点的矢量,插入是保密的,但是却是可以被检测的。一个检测方拿到数据模型之后,可以探测这个模型的水印矢量到底来自于哪里。但是偷盗者不知道水印的操作细节,没办法改变水印。杨强团队已经在今年发表了该方法的相关论文。

第三,2022年FATE社区将大力推动互联互通的工作。目前,隐私计算的商业市场蓬勃发展,市场上出现了多种隐私计算解决方案,但是这些方案之间缺乏互通,形成了“数据群岛”。杨强认为,大部分的解决方案都能够无缝插入开源FATE,这样FATE的作用就类似一个“转换器”,可以帮助实现互通互联。“这也是我们今年给自己的一个任务。”杨强向零壹财经表示。

开放群岛探索互联互通

可信联邦学习的提出,更多是从技术角度提升联邦学习在真实业务场景中的表现。互联互通的推进,则对FATE平台在更大范围内落地应用至关重要。

开放群岛(Open Islands)开源社区的成立,是推进互联互通的关键一步。

今年5月27日,在深圳数据交易有限公司主办的“2021-2022深圳数据交易产业生态发展论坛”上,国内首个国际化自主可控隐私计算开源社区——开放群岛(Open Islands)开源社区正式宣布成立。开放群岛开源社区执行主席由杨强担任。

开放群岛开源社区是由深圳数据交易有限公司联合国家智库、国家单位、高校、大型金融机构、大型互联网公司等50家发起单位牵头成立。

作为国内首个国际化自主可控隐私计算开源社区,社区将坚持信创,推进国内隐私计算等数据要素流通关键技术自主可控;按照政企协同的发展思路,依托数据交易场景,开源开放的生产协作方式,打通数据、平台、机构之间的孤岛,实现跨地区、跨地域、跨平台互联互通。

开放群岛在进行社区雏形搭建的同时,也在开发建设定位为“全国首个工业级信创版隐私计算开源框架”的种子平台。通过构建互联互通的技术架构,实现与其他隐私计算框架的互联,打破“计算壁垒”,切实实现数据要素的点对点“网状”流通与应用;研究基于隐私计算的数据产品模型,形成基于隐私计算的数据产品和应用范式,并逐步形成数据要素流通技术生态。

上述种子平台将成为社区首个项目孵化样本,也为后续生态内互联互通提供基础。同时,由各发起单位牵头成立的27个SIG小组,将以共建、共治、共享的方式运行,或围绕种子平台进行个性化、创新化组件开发,或将研究项目独立开源,亦或跨SIG小组联动创新,形成多样、共赢的繁荣社区生态。而社区则将以“确保平台间互联互通、项目间协调联动”为目标,为SIG小组的良性发展提供多维度支持。

在开放群岛建立开源开放的生产协作方式、打通数据孤岛的进程中,深圳数据交易所是一个有力的支点。

深圳数据交易有限公司(简称“深数交”),于2021年12月1日正式注册成立。截至2022年4月30日,深数交首批数据商共70家,数据提供方64家,数据需求方154家,产品备案130个,首批数据交易登记备案215笔。其中,64家数据提供方分布在全国10多个主要省份和城市,主要以深圳、北京、上海居多,国内其它地区数据交易生态正逐渐有序扩大。

未来,深数交将坚持合规发展和市场驱动原则,以建设国家级数据交易所为发展目标,构建扎根粤港澳、服务中国、面向世界的大数据流通市场。

深圳数据交易有限公司副总经理王冠告诉零壹财经,为了建立这个市场,目前深数交正在着力推进三方面的重要工作:一是建立规范的评估、审核、公示、仲裁的数据合规审核机制,推动构建政府、企业、社会共同参与的协同监管机制;二是在平台的交易规则设置上,建立规范的评估、审核、公示、仲裁的数据要素市场准入审核机制,并完善数据交易分级分类标准等配套交易标准指引;三是在资产化方面,通过数据授信、数据信托等资产化探索,推动数据资源化到数据资产化的转变,促进数据价值实现。

王冠认为,开放群岛社区将在深数交数据生态构建中起到积极的推动作用。她向零壹财经表示,培育数据交易大市场需要汇聚数据提供方、数据参与方、数据商、第三方服务机构、技术厂商、监管机构等多方参与者,共同构建并参与数据要素生态体系。开放群岛开源社区将充分整合政、产、学、研等多方资源,依托数据交易场景,让技术需求方先行,探索数据要素流通过程中关键技术成果转化与落地应用。隐私计算是数据安全与隐私保护的关键支撑技术。通过开源协作,在技术层面,可以有效提升技术开发与迭代能力,降低开发门槛,集社会力量促进技术创新与融合。同时,面对实际应用中复杂多样的平台技术解决方案,开源协作有利于实现跨数据、跨平台、跨行业互联互通,满足数据交易多场景技术需求。开源有利于实现“阳光监管”,加强与监管机构互动与合作,推动建立多方协同监管机制,快速推动形成行业领域事实标准,帮助深数交推动更好的业务成果。一个有活力的开源社区与优秀人才之间可以相互成就,高质量的大数据人才、开源人才、技术人才通过贡献专业与技能参与社区建设,同时社区也可以帮助开发者、贡献者沉淀技术和积累经验,实现自我提升。

王冠同时也担任开放群岛开源社区委员会生态赋能工作组组长。在5月25日举行的“联邦学习安全效率与开源生态”线上论坛上,王冠表示,开源已经成为推动数据要素市场快速形成事实标准的“解题思路”。开源可以有效提高在统一规范约束下数据交易平台的互联互通性、数据流通共享效率以及数据增值能力,帮助中国自主可控开源技术得到更好的发展,促进实体经济跟数字经济的融合。同时,隐私计算作为数据要素流通的重要技术支撑,已有大部分厂商使用开源代码。因此,希望通过基于隐私计算技术的开源社区来撬动整个数据要素流通市场的构建。

推动人工智能进入新的转折点

未来,FATE的进化仍将持续。

在5月25日的论坛上,FATE开源社区开发专委会主席、VMware中国研发中心技术总监张海宁表示,开源是现代软件社区化的开发和协作模式,通过国际化的开源社区建设和治理,能够促使社区广泛参与和合作,推动技术迭代与产业发展。自2019年开源至今,FATE已经发布30余个版本,联邦算法组件达到30余个,实现了工业界主流场景算法全覆盖和工业界主流多方安全计算协议全覆盖。FATE开发专委会将在可信联邦学习、互联互通、异构计算、云原生等领域继续推进项目的发展。

在安全-性能-效率的平衡方面,还有许多有效的方式。

清华大学智能产业研究院副教授刘洋介绍,关于安全与效率的平衡,学界现有的框架中,会在在半诚实或者恶意的场景中先对安全做一些控制,然后在可控条件下进行效率的提升。目前,研究上会在两个象限上做类似于像AUC的曲线。未来可能会有更好的评估方法,这也是理论的一个前沿。

星云Clustar一直是FATE开源社区的算力担当。FATE开源社区TSC board成员、星云Clustar CTO张骏雪表示,效率问题一直是隐私计算行业的重中之重。要解决隐私计算的效率问题,还是需要结合具体企业、具体业务,进行具体分析,选择最适配的Building Block(技术模块)。隐私计算、可信联邦学习的未来是多技术、多方案融合并举的,要选择最能落地的来提升效率。目前,星云Clustar也通过参与FATE开源社区,推动互联互通及标准化建设,以实现可兼容不同类型的加速器促进隐私计算发展。

在接受媒体采访时,杨强指出,未来可信联邦学习的发展将推动人工智能的发展进入新的转折点。这个转折点的出现,是以以下三方面的变化为基础的:

第一,过去人工智能的发展是由深度学习驱动的,但是目前人们越来越发现,深度学习的数据来源未来是分散的,而不是集中在一个巨头手里的。在此前提下,人工智能的伦理问题、可解释性问题、普惠问题、隐私保护问题等都被提出来了,这些都是转折点的驱动力。

第二,过去算法都是基于单计算中心设计的,但是现在计算终端大大增加(比如,现在有上千万的手机、上百万级的无人车,每一个终端都是一个计算器),因此未来必须通过分布式的计算来训练人工智能模型。在这种情况下,如何能够安全高效地进行人工智能的模型训练,这是过去没有考虑过的问题,这是一个新的问题,也是一个深海。这又是一个转折点。

第三,未来更多的不是数据在网络当中传输,通过联邦学习的应用,数据不用传输,是模型在传输,所以未来的世界是一个充满模型的世界。在多模型世界下,模型的治理、管理、审计、合作、安全等问题就被提出来了,在深度学习驱动的人工智能里面没有解决这样一个模型驱动世界的难题。
END.
加关注 消息
文章:123 粉丝:17 总阅读数:1593.9k


零壹智库推出“金融毛细血管系列策划”,通过系列文章、系列视频、系列报告、系列研讨会和专著,系统呈现“金融毛细血管”的新状态、新功能、新价值、新定位。
 

上一篇>元宇宙计算:将发展新的计算形态,催生新的计算架构

下一篇>深度 | 从垂直场景切入,探索数据产业化和推动大数据交易所转型升级


所属专题


相关文章


用户评论

游客

自律公约

所有评论

点击阅读更多内容

主编精选

more

专题推荐

more

第四届中国零售金融发展峰会(共15篇)


资讯排行

  • 48h
  • 7天



耗时 202ms