【LearningChain】WhenMachineLearningMeetsBlockchainADecentralizedPrivacy-preserving and SecureDesign

When Machine Learning Meets Blockchain: A Decentralized, Privacy-preserving and Secure Design主要贡献1、提出基于区块链的去中心化的联邦系统LearningChain，考虑了线性和非线性模型（传统FL对非线性模型的隐私问题关注较少），并理论分析其安全性和隐私性；2、提出一个拜占庭容错的聚合算法( l-nea

猪蹄花

11535人浏览 · 2021-12-23 16:41:01

猪蹄花 · 2021-12-23 16:41:01 发布

When Machine Learning Meets Blockchain: A Decentralized, Privacy-preserving and Secure Design

主要贡献

1、提出基于区块链的去中心化的联邦系统LearningChain，考虑了线性和非线性模型（传统FL对非线性模型的隐私问题关注较少），并理论分析其安全性和隐私性；
2、提出一个拜占庭容错的聚合算法( l-nearest aggression)来保证系统的安全性；
3、设计不同的隐私策略（DP）来保护数据持有者的隐私，线性或非线性模型中；
3、在Etheurum上实现LearningChain来验证系统的效率和有效性；

LearningChain问题定义

1、LearningChain的两个挑战

如何保护训练者的数据隐私 — DP（可通过敏感度要求计算满足此敏感度的噪声大小）或 LearningChainEx
如何保证系统对恶意节点攻击的弹性 — l-nearest aggression（余弦距离）；

2、LearningChain中的两种攻击

个人隐私威胁（身份隐私+数据隐私）
系统安全威胁（拜占庭数据持有者–发送任意梯度信息+拜占庭计算节点—模型聚合过程中作恶–比如故意算错）
（假设我们系统数据持有者大部分是诚实的，且拜占庭计算节点的总算力小于51%）

3、LearningChain中的两种角色（无严格界限）：

数据持有者（计算）
计算节点（矿工）

4、LearningChain的三个过程:

区块链初始化：两种节点，建立连接，建立P2P网络，设置初始模型；
本地梯度训练：数据持有者先创建伪身份，计算本地梯度并使用DP扰动本地梯度，与其他信息封装在一起广播到计算节点；
全局梯度聚合：PoW共识竞争leader，执行l-nearest算法聚合梯度并上链；
l-nearest聚合算法，因为系统假设数据持有者大多数是诚实的，所以梯度的加和就是正确的全局梯度下降的方向，然后根据余弦距离选取分值高的进行聚合；

实验验证

1、验证 LearningChain 在不同隐私级别下的性能和抗拜占庭攻击的级别；

区块链平台	~	Ethereum	~
数据集	syntheic	Wisconsin breast cancer	MNIST
节点数	30	10	100
隐私保护强度	~	0.1 ，0.3	~
性能评估指标	~	Test Error	~
拜占庭数据持有者	0	小于50%	大于50%
拜占庭数据持有者	发送从高斯分布中抽取的局部梯度	均值为0	标准差为200