代码
【直播预告】7月26日Trusted AI SIG分享例会——纵向联邦学习的基本概念与隐私攻防

【直播预告】7月26日Trusted AI SIG分享例会——纵向联邦学习的基本概念与隐私攻防

【直播预告】7月26日Trusted AI SIG分享例会——纵向联邦学习的基本概念与隐私攻防

联邦学习

联邦学习(Federated Learning)旨在建立一个基于分布数据集的机器学习模型,是一种多个参与方在各自原始数据不出私域的前提下,协作完成某项建模任务的机器学习模式。

其主要研究方向分为:横向联邦学习纵向联邦学习联邦迁移学习。本次技术分享会主要聚焦于纵向联邦学习领域。

那什么是纵向联邦学习呢?纵向联邦学习,英文全称Vertical Federated Learning(VFL)。它以数据的特征为核心,本质上是特征的联合,通常适用于样本重叠多,特征重叠少的应用场景。

那我们怎么去理解这段话呢?通过一个例子来解释一下VFL的工作原理。

假设有两家公司,公司A为某互联网企业,公司B为某电商集团,简称为A互联,B电商。假设以下是A互联和B电商的相同用户的不同特征信息表。

背景:假设B电商希望结合A互联的用户数据特征,基于其购物消费水平和购物频次,建立更符合用户的推荐模型和可能感兴趣的商品类型。

比如B电商可以做到:用户1和用户3,虽然月购物频次差不多,但是其消费水平却相差较大,那么系统推荐的产品价格就会不一样。

如果结合A互联的信息:用户3和用户4虽然平均每次的购物的消费水平基本持平,不过由于性别的关系,那么需要推荐的产品类型可能相差也很大。

总的来说,不管是互联A还是电商B,如果能够更多地掌握用户的信息特征,那么对于业务的精确推广往往是更有利的。只不过就是局限在于,因为各自业务侧重不一样,所以对于用户的信息特征也不尽相同。

因此样本重叠多,特征重叠少,说的就是两个公司有大量相同的用户,但是因为业务的不同,导致其建模存储的用户特征就不同。

而纵向联邦学习就是,在双方A互联与B电商都不直接共享原始数据的情况下,能够共享彼此的用户数据特征。

该场景的VFL实现过程:

第一步:样本对齐

无论是A互联还是B电商在不暴露自己的原始数据下联合建模,当然这个模型是根据双方的需求而设计的。

那么,首先就是把二者共有的用户(即重叠样本)进行对齐,也就是找出所有共有的用户后,建立类似上表所示的联合数据特征库。

不过,这在里通常使用的是一种基于加密的用户ID对齐技术(隐私集合求交)。

第二步:标签统一

在模型训练中,A互联与B电商会各自管控自己所需要的标签。比如:B电商会管控推荐的"商品用户是否会有点击的可能"的标签,然后根据训练结果不断调整模型。

第三步:加密训练

引入一个中间"协作者C",C的作用就是让A互联和B电商在不直接获得对方的数据下也能够完成联合模型的构建。

具体操作:首先"协助者C"会下发一个公钥给A和B。然后,A和B双方把计算的中间结果经过公钥加密互相发给彼此,各自计算各自的下降梯度,加密上传给"协作者C"。为了防止"协作者C"破译其上传的梯度信息,A互联和B电商会加一些随机数。

"协作者C"经过解密后,汇总双方的结果得到一个最终的梯度值,回传给A和B。二者接收到最终的梯度值减去一开始加的随机数即可得到最终真实的梯度值,通过该梯度值更新模型的参数。

第四步:训练结束,联合模型更新

步骤三重复循环,直到最终模型收敛训练完毕,最终A互联和B电商侧的模型参数都更新完毕,二者结合在一起就是一个联合模型。

不断地重复步骤三的过程,直到模型收敛,即训练完毕。此时,A互联和B电商的模型参数都已经更新完毕,二者的结合就是一个联合模型。

接下来,B电商的用户通过线上访问其应用软件时,如果该用户是A互联和B电商的重叠样本(即共有的用户),那么就会通过联合模型获取加密的数据,输出联合模型下用户产品的预测推荐。

当然,纵向联邦学习算法也不仅仅是这一种,如果你想了解更多的算法,那就在周二晚上走进我们的直播间 吧!

温馨提示

1. 如果你想获取更多有关联邦学习的相关技术支持,可通过:

2. 会议结束之后,会议视频会被上传至MindSpore的bilibili官方账号。

3. 如果你对AI安全领域感兴趣,如:对抗样本、联邦学习、差分隐私、安全多方计算、同态加密、模型可解释、deepfake、恶意机器学习防御、语音仿冒、视频伪造检测、闪避攻击防御、药饵攻击防御、后门攻击防御、窃取攻击防御......

热烈欢迎加入我们的微信交流群,期待与你相遇。我们也十分鼓励与欢迎您主动报名参与到我们的研讨分享会中!

会议详情

主持人

胡泽航

东北大学:机器人科学与工程学院21级硕士研究生

研究方向:基于知识图谱的推荐系统与联邦学习

会议时间:

2022.07.26(周二) 19:00—20:25

会议链接:

https://meeting.tencent.com/dm/d9UmiVKB6Loq

会议ID**:**

896327295

提示:

请提前准备好会议软件与安排好入会时间

会议议程

1、主题:《纵向联邦基本概念、分割学习基本流程与推荐网络的纵向联邦实现》

时间:19:00~19:30

分享人:Mr. Wu(昇思MindSpore联邦学习算法专家)

讨论时间:19:30~19:45

2、主题:《纵向联邦中的隐私攻防》

主要内容:特征重构与特征保护、标签窃取与标签保护以及综合防护方案的实现。

时间:19:45~20:15

分享人:Mr. Li (昇思MindSpore AI安全工程师)

谈论时间:20:15~20:30

MindSpore官方资料

官方QQ群 : 486831414

官网https://www.mindspore.cn/

Gitee : https : //gitee.com/mindspore/mindspore

GitHub : https://github.com/mindspore-ai/mindspore

论坛https://bbs.huaweicloud.com/forum/forum-1076-1.html