打破数据孤岛：联邦学习技术实践探索_技术分享网

　　2019年7月20日,由微众银行、DataFun主办的主题为“打破数据孤岛:联邦学习技术实践探索”技术沙龙在深圳举行。微众银行人工智能部副总经理陈天健、高级研究员范涛、AI系统架构师曾纪策以及腾讯神盾沙箱产品技术负责人陈雄等四位专家,分别从联邦学习时代背景、新一代联邦学习技术、联邦学习开源平台FATE,以及数据合作与安全多方计算等几个方面,完整地阐述了联邦学习如何打破「数据孤岛」与「数据隐私保护」的两难困境。

　　人工智能经过漫长发展,近些年在算法、算力、数据上取得巨大突破,得以在行业应用中崭露头角,发挥着举足轻重的作用。不过随之而来是一系列的新问题——比如大多数行业中数据分散形成的「数据孤岛」,以及越来越受到关注的「数据隐私保护」问题。针对数据孤岛和数据隐私的两难困境,微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案,并在GitHub上开源工业级的联邦学习技术框架FATE,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的前提下,进行多方数据使用和联合建模。目前微众AI已经推动FATE在信贷风控、监管科技、零售、保险等领域的一系列应用落地。

　　联邦学习的时代背景

　　陈天健指出,深度学习是技术的选择,联邦学习是历史的选择。随着经济全球化的发展,互联网时代的到来,产生了海量的数据,深刻地影响着各行各业。但是伴随着国外GDPR(《通用数据保护条例》,General Data Protection Regulation)等一系列数据隐私保护法律法规出台,数据隐私保护与数据安全问题愈发受到关注。

　　国内数据监管法律体系研究

　　同时,国内数据监管法律体系也在不断完善中,并且体现出了两个特点:

　　●严格化:数据监管越来越严格,处罚手段越来越严厉;

　　●全面化:从个人信息数据的保护,到科学数据、医疗数据、电商数据等多种数据的保护。

　　在这种背景下,如何合理合法地运用大数据,让业务可以持续运行下去,就需要联邦学习技术。

　　微众银行 AI部门副总经理陈天健

　　陈天健表示,联邦学习是一种面向安全合规的大数据合作机器学习技术,和其他技术最本质的区别在于:联邦学习是大数据合作过程中权责和利益的调整工具,是顺应当前时代背景而产生的。联邦学习的应用场景也十分广泛,并没有特别的领域或者具体算法限制,微众银行已经在信贷风控、智慧城市管理、机器视觉、装备故障检测等各行各样的应用中和领域合作伙伴开展技术合作,推动联邦学习社区进一步发展。

　　无论是中国人工智能开源软件发展联盟(AIOSS)发布国内首个联邦学习标准,还是越来越多合作咨询纷至沓来,大量企业机构都已关注到了联邦学习。现已有多个行业机构与我们进一步探讨联邦学习的应用落地,解决数据隐私这一越来越严重且全世界人类都在关注的问题。联邦学习未来可期。

　　FATE:新一代联邦学习技术及应用实践

　　人工智能技术的应用和落地,现实和理想往往有很大差距:

　　理想:数据质量好、标签数据充足、数据集中;

　　现实:数据质量差、缺乏标签数据、数据分散隔离,80%以上的企业存在数据孤岛问题。

　　联邦学习的分类体系

　　范涛指出,联邦学习是解决上述问题的关键技术。其具有:数据隔离数据孤岛、无损、对等、共同获益等特点,根据使用场景的不同,联邦学习可以分为:纵向联邦学习、横向联邦学习以及联邦迁移学习。

　　微众银行高级研究员范涛

　　目前联邦学习已经赋能多个领域:

　　●银行+监管:联合反洗钱建模

　　●互联网+银行:联合信贷风控建模

　　●互联网+保险:联合权益定价建模

　　●互联网+零售:联合客户价值建模

　　遇见 FATE

　　最后,范涛为大家介绍了微众银行主导的联邦学习开源项目FATE(Federated AI Technology Enabler)。其核心功能有:

　　● FATE-Serving:联邦在线模型服务

　　● FATE-Flow &FATE-Board:联邦建模Pipeline和可视化

　　● FATE FederatedML:联邦学习算法各个功能组件

　　● EggRoll:分布式计算和存储抽象

　　● Federated Network:跨站点网络通信抽象

　　构建端到端的联邦学习Pipeline生产服务

　　联邦学习的优势在于能够保证参与各方在数据不出本地,保持数据独立性的情况下,多方共建模型,共同提升机器学习效果。联邦机制下,安全隐私有了优势,但技术上也会面临更多挑战。作为一个工业级的框架,端到端的联邦学习Pipeline致力于完成高弹性、高性能的联邦学习任务,主要包括建模、训练、模型管理、生产发布和在线推理几个方面。