加入收藏 | 设为首页 |

“联邦学习”引领者:微众银行AI团队如何推动国内人工智能+行业落地?

隐私 时间:2019-06-11 浏览:
当我们在谈论人工智能落地,我们在谈论什么? 很多时候我们都是基于一个丰满的理想化前提:这个项目拥有足够丰富干净的大数据。但现实往往很骨感,很多项目拿到的数据,都是行业里某个山头单项的“数据孤岛”,无法得到一份完整全面的“数据大陆”。 这跟传统垂

当我们在谈论人工智能落地,我们在谈论什么?

很多时候我们都是基于一个丰满的理想化前提:这个项目拥有足够丰富干净的大数据。但现实往往很骨感,很多项目拿到的数据,都是行业里某个山头单项的“数据孤岛”,无法得到一份完整全面的“数据大陆”。

这跟传统垂直企业的数据采集和数据管理方式有关,整体性调用受到商业机密、安全和管理因素的掣肘,互联互通面临很大的阻碍,严重影响了AI+行业落地的进度和质量。

5月24--5月25日,在中国计算机学会举办的年度盛会“2019 CCF青年精英大会(YEF 2019)”上,由微众银行AI团队提出的“联邦迁移学习”新方法和它打造的开源“联邦学习”框架FATE(Federated AI Technology Enabler)或引领AI+行业落地的下一个十年。

打破次元壁,盘活数据孤岛

虽然AI现在非常火爆,但我们以为的“大数据”时代并未真正来临。行业的实际状况是存在着大量的“数据孤岛”。这些“孤岛”大小不一,参差不齐,相互不连通,使得AI落地举步维艰。

以金融行业为例,它本身细分为银行、证券和保险等多个领域,每个领域积淀的数据方式、数据特点虽然有相同的部分,但差异更为明显。在此基础上,还有更细一层的数据割据,比如细分到一家银行下属的多个部门,都有自己的数据沉淀,但它们是没有打通的。

孤岛之内,再划分了N个孤岛,就像俄罗斯套娃一样,对处理数据的AI团队来说,困难重重。他们需要说服一家公司的领导调取多个部门的数据,面临着繁琐的审批流程;而想再进一步说服不同的公司拿出自己的数据,简直比登天还难。

面对这个问题,AI从业者一直在努力。微众银行AI团队倡导的“联邦学习”(Federated Learning)则提供了一种新的思路。

所谓“联邦学习”,顾名思义,就是搭建一个虚拟的“联邦国家”,把大大小小的“数据孤岛”联合统一进来。他们就像这个“联邦国家”里的一个州,既保持一定的独立自主(比如商业机密,用户隐私),又能在数据不共享出去的情况下,共同建模,提升AI模型效果。

本质上,它是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。这也是一种共赢的机器学习方式,它打破了山头林立的数据次元壁,盘活了大大小小的“数据孤岛”,连成一片共赢的AI大陆。

而将“迁移学习”和“联邦学习”结合起来,变成“联邦迁移学习”,则是CCF青年精英大会上,人工智能行业的领军人物、微众银行首席人工智能官(CAIO)杨强教授提到的最新研究成果。

在杨强教授看来,“迁移学习”是将大数据迁移到小数据,实现举一反三,而“联邦学习”则可以让多个参与方数据不出本地进行合作,“联邦迁移学习”将“迁移学习”和“联邦学习”结合起来,帮助不同机构打破隔阂,联合建立AI模型,同时各方数据不出本地,用户隐私得到最好保护。

“联邦迁移学习”作为一种新的处理数据方法和能力,它的实用价值和安全性说服了很多企业将数据共享出来,打破了数据孤岛壁垒,构建跨领域合作,实现多方共赢。

“联邦学习”的引领者

“联邦学习”是机器学习的一种新模式,其历史不过三四年,主要是为了解决“数据孤岛”和数据隐私保护的两难问题,目前已经得到业内主流机构和专家学者的一致认可。

谷歌在2016年提出了基于个人终端设备(C端)的“横向联邦学习”(Horizontal Federated Learning)算法框架。在国内,微众银行AI团队是最早的“联邦学习”倡导者,并基于自己的落地实践,提出了“联邦迁移学习”,主要为了解决B端机构间联合建模问题,让“联邦学习”更加通用化。

它已经不再是一个概念,而是人工智能+行业的浪潮中的一把利器。

据介绍,微众银行在不侵犯企业用户数据的情况下,用“联邦学习”技术,除央行征信数据、流水数据外,将能证明企业经营健康程度的发票数据等不同维度数据纳入风控建模,对小微企业经营状况和信用能够进行360度模型评估,对小微企业风控模型性能提升了7%,大大拓展了可贷企业的范围。

效果也非常明显,68%的小微信贷客户在获得授信时无任何企业类贷款记录;38%的授信小微信贷客户在获得授信时无任何个人经营性贷款记录。

除此之外,微众银行还在包括风险评估、差异定价、精准营销等多个金融场景进行成功实践,助推微众银行实现业务创新,使得其金融服务覆盖面不断提升,社会价值贡献得到进一步体现。

推动微众银行AI团队率先进行“联邦学习”研究并将其应用于业务中的,是微众银行首席人工智能官(CAIO)杨强教授。资料显示,杨强教授是最早研究“联邦学习”的国际人工智能专家之一,2013年当选国际人工智能协会(AAAI)院士,2017年被选为国际人工智能联合会理事会主席,其400多篇关于人工智能和数据挖掘方面的论文,曾被引用超过20000次。而微众银行AI团队的成员也多是在人工智能技术方面具有丰富的经验和深厚的积累的高端人才。

人工智能是一个靠强技术推动的行业,“得技术人才者得天下”,杨强教授领导下的微众银行AI团队,成了国内乃至国际“联邦学习”方面的引领者。

去年10月,微众银行AI团队向IEEE标准协会提交关于建立联邦学习标准的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(联邦学习基础架构与应用标准),并得到了批准。

今年,杨强教授作为AAAI 2019年会上的特邀嘉宾,发表了主题为“GDPR、数据短缺和人工智能”的特邀演讲(AAAI Invited Talk),全面讲述“联邦迁移学习”的安全的分布式建模原理和在数据合规上的意义,引发了国际AI圈的强烈关注。

不止金融,打造AI大数据生态

由于拥有相对完善的数据和强烈的场景需求,金融行业被认为是AI应用落地最成熟的领域之一。但微众银行AI团队的“联邦迁移学习”能力,并不仅仅停留在AI+金融行业。

“数据孤岛”问题,在其他领域,也同样大面积存在。

比如在法律行业,如果一个AI团队想得到一个非常好的样本,需要经历很长的链条。他们得经过相关部门审批、法官、律师的多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多。更困难的是,这些数据分散在各地的各级法院,需要一个个去收集,面临的监管和流程,烦不胜烦。

幸好,在金融领域得到充分实践的“联邦迁移学习”模式,复制到其他领域效果同样出众。对此,微众银行AI团队专门发布了一个联盟AI生态系统(Federated AI Ecosystem),通过开源联盟AI解决方案FATE(Federated AI Technology Enabler)的形式,吸引更多的从业者参与开发和推广数据安全和用户隐私保护下的AI技术及其应用。