When Machine Learning Meets Blockchain: A Decentralized, Privacy-preserving and Secure Design
主要贡献

1、提出基于区块链的去中心化的联邦系统LearningChain,考虑了线性和非线性模型(传统FL对非线性模型的隐私问题关注较少),并理论分析其安全性和隐私性;
2、提出一个拜占庭容错的聚合算法( l-nearest aggression)来保证系统的安全性;
3、设计不同的隐私策略(DP)来保护数据持有者的隐私,线性或非线性模型中;
3、在Etheurum上实现LearningChain来验证系统的效率和有效性;

LearningChain问题定义

1、LearningChain的两个挑战

  • 如何保护训练者的数据隐私 — DP(可通过敏感度要求计算满足此敏感度的噪声大小) 或 LearningChainEx
  • 如何保证系统对恶意节点攻击的弹性 — l-nearest aggression(余弦距离);

2、LearningChain中的两种攻击

  • 个人隐私威胁(身份隐私+数据隐私)
  • 系统安全威胁(拜占庭数据持有者–发送任意梯度信息+拜占庭计算节点—模型聚合过程中作恶–比如故意算错)
    (假设我们系统数据持有者大部分是诚实的,且拜占庭计算节点的总算力小于51%)

3、LearningChain中的两种角色(无严格界限):

  • 数据持有者(计算)
  • 计算节点(矿工)

4、LearningChain的三个过程:

  • 区块链初始化:两种节点,建立连接,建立P2P网络,设置初始模型;
  • 本地梯度训练:数据持有者先创建伪身份,计算本地梯度并使用DP扰动本地梯度,与其他信息封装在一起广播到计算节点;
  • 全局梯度聚合:PoW共识竞争leader,执行l-nearest算法聚合梯度并上链;
    l-nearest聚合算法,因为系统假设数据持有者大多数是诚实的,所以梯度的加和就是正确的全局梯度下降的方向,然后根据余弦距离选取分值高的进行聚合;
实验验证

1、验证 LearningChain 在不同隐私级别下的性能和抗拜占庭攻击的级别;

区块链平台 ~ Ethereum ~
数据集 syntheic Wisconsin breast cancer MNIST
节点数 30 10 100
隐私保护强度 ~ 0.1 ,0.3 ~
性能评估指标 ~ Test Error ~
拜占庭数据持有者 0 小于50% 大于50%
拜占庭数据持有者 发送从高斯分布中抽取的局部梯度 均值为0 标准差为200

2、比较 LearningChain 和 LearningChainEx 性能(拜占庭数据节点);

拜占庭数据持有者 发送从高斯分布中抽取的局部梯度 均值为0 标准差为200
MNIST 数据集 总节点100 ~ 恶意节点10,40,70

3、比较 l-nearest 聚合算法和其他的聚合算法抗拜占庭攻击的能力;

聚合算法 ~ Ethereum ~
聚合算法比较 multi-Krum vs l-nearest
MNIST 数据集 总节点100 ~ 恶意节点10,40,70
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐