到场仵冀颖 H4O

打破数据孤岛:联邦进修近期主要研讨希望

跟着挪动电话、可衣着配备和自助车辆等的推行和普及,分布式收集中的配备每天都会发生大宗数据。配备盘算才能不时晋升,使得配备当地存储数据并完毕盘算成为可以。与古板的基于数据会聚共享、汇合存储和汇合处理的板滞进修技能差别,应用联邦进修技能直叫“备当地端探究教练统计模子的分布式板滞进修处理框架受到越来越众的体恤。

联邦进修框架中,中心效劳器保管初始化可共享的全部数据。各个客户端(到场者、边沿配备)保管当地数据,并依据当地数据教练当地板滞进修模子。客户端依据必定的通信机制向中心效劳器传输模子参数等数据(不会传输完备的客户端原始数据),中心效劳器会聚各客户端上载数据后教练构修全部模子,各个客户端通通联邦进修机制中身份和位置相同。联邦进修有用办理了两方或众方数据运用实体(客户端)不奉献出数据的状况下的数据配合运用题目,办理了数据孤岛题目。另外,各个客户端数据特征对齐的条件下,联邦进修的全部模子可以取得与数据汇合式存储相同的修模效果。联邦进修关于隐私维护、大范围板滞进修方法和分布式优化等有着特别请求,由此衍生出了交叉学科的新研讨偏向,包罗板滞进修和系统架构计划等。


下图为联邦进修手机中输入的下一个词预测义务中的运用实例 [1]。为了维护文本数据的隐私性并淘汰对通信收集发生的压力,联邦进修以分布式的方法教练预测器,而不是将原始数据发送到中心效劳器汇合教练。此修立中,长途配备按期与中心效劳器通信以构修全部模子。每个通信回合中,所选手机终端的一个子集对其非独立同分布的用户数据施行当地教练,并将这些当地更械愧送到中心效劳器。会聚更新后,中心效劳器将新的全部模子发送回其它配备子集。这个迭代教练进程通通收集中继续,直到抵达收敛或满意某种终止标准。



经典的联邦进修题目基于存储数万万至数百万长途客户端装惫亓氖据进修全部模子。教练进程中,客户端配备需求周期性地与中心效劳器举行通信。目前,联邦进修面临的难点主要包罗四个方面:


  1. 昂扬的通信价钱。联邦进修题目中,原始数据保保管长途客户端配备当地,必需与中心效劳器不时交互才干完毕全部模子的构修。一般通通联邦进修收集可以包罗了大宗的配备,收集通信速率可以比当地盘算慢许众个数目级,这就变成昂扬的通信价钱成为了联邦进修的要害瓶颈。

  2. 系统异质性。因为客户端配备硬件条件(CPU、内存)、收集连接(3G、4G、5G、WiFi)和电源(电池电量)的改造,联邦进修收集中每个配备的存储、盘算和通信才能都有可以差别。收集和配备本身的限制可以导致某一时间仅有一部分配备处于运动形态。另外,配备还会呈现没电、收集无法接入等突发状况,导致瞬时无法连通。这种异质性的系统架构影响了联邦进修全体计谋的订定。

  3. 统计异质性。配备一般以差别分布方法收集上生成和搜罗数据,跨配备的数据数目、特征等可以有很大的改造,于是联邦进修收集中的数据为非独立同分布(Non-indepent and identically distributed, Non-IID)的。目前,主流板滞进修算法重假如基于 IID 数据的假设条件推导修立的。于是,异质性的 Non-IID 数据特征给修模、剖析和评估都带来了很大挑衅。

  4. 隐私题目。联邦进修共享客户端配备中的模子参数更新(比如梯度新闻)而不是原始数据,于是数据隐私维护方面优于其他的分布式进修方法。然而,教练进程中转达模子的更新新闻仍然保管向第三方或中心效劳器表露敏锐新闻的损害。隐私维护成为联邦进修需求要点思索的题目。


为理办理联邦进修板滞进修、系统计谋优化和通信范畴中保管的题目,前期的研讨中,研讨职员提出了许众方法。然而,这些方法一般并不行有用应对联邦收集的范围题目,更不必说办理系统和统计异构性的挑衅了。相似地,因为数据的统计改造以及配备当地的平安限制,联邦进修的隐私维护方法很难厉厉有用评估。


本文挑选 2019 年最新的四篇作品,区分从办理系统异质性、统计异质性、通信价钱和隐私维护四个角度精细议论了联邦进修的研讨希望。


  1. https://arxiv.org/abs/1804.08333,Client selection for federated learning with heterogeneous resources in mobile edge, 提出了一个用于板滞进修的挪动边沿盘算框架,它应用分布式客户端数据和盘算资源来教练高功用板滞进修模子,同时保管客户端隐私;

  2. https://arxiv.org/abs/1902.00146v1,Agnostic Federated Learning,办理之前联邦进修机制中会对某些客户端义务爆发倾斜的题目;

  3. https://arxiv.org/abs/1905.12022v1,Bayesian Nonparametric Federated Learning of Neural Networks. ICML 2019. 提出单样本/少样本探究式的进修方法来办理通信题目;

  4. https://arxiv.org/pdf/1812.00984.pdf,Protection Against Reconstruction and Its Applications in Private Federated Learning,提出了一种差别性隐私维护方法。


Client selection for federated learning with heterogeneous resources in mobile edge



联邦进修的系统异质性题目是指,构成联邦进修收集的各个客户端状况差别,盘算资源(盘算才能)以及无线信道条件等都保管较大的差别性,进而影响联邦进修的全体功用。本文提出了一个挪动边沿盘算框架(Mobile Edge Computing,MEC),可以维护客户端隐私的同时完毕客户端模子教练,同时有用办理实蜂窝收集中的系统异质性题目。本文提出的联邦进修框架(FedCS)可以依据客户端资源条件办理客户端配备,从而有用应对具有资源束缚的客户端挑选题目,它容许效劳器会合尽可以众的客户端更新新闻,并加速改良板滞进修模子的功用。


联邦进修先容

联邦进修由一个中心效劳器和 KxC 个随机客户端构成,此中 K 是客户端数目,C 为每轮所选到场更新的客户端比例的超参。中心效劳器和客户端之间转达要教练的全部模子的参数,包罗分发、更新和上载等方法。此中,所选客户端基于依鳌有据盘算模子的参数更新(更新),中心效劳器从客户端会合众个更新改良全部模子(上载),之后再将全部模子分发至各个客户端(分发)。为了却束更新和上载义务,联邦进修请求每个客户端都具备必定的盘算资源。实蜂窝收集中,因为客户端数据特征、盘算才能以及通信通道功用的差别,联邦进修客户端教练板滞模子时往往会碰到许众题目。系统异质性曾经成为联邦进修开展的一个瓶颈。


FedCS 先容

图 1. FedCS 框架概述. 图中实心黑线外示盘算进程,虚线外示无线通信进程.


图 1 给出了本文提出的 FedCS 的全体构造,此中 MEC 平台外示中心效劳器。与古板的随机挑选客户端的方法差别,本文提出了一种客户端挑选机制。起首,资源央求(Resource Request)方法请求随机挑选的客户端告诉 MEC 平台其资源新闻,比如无线信道形态、盘算才能以及与目今教练义务相关的数据资源的大小等。然后,客户端挑选(Client Selection)方法中援用此新闻,以估量分发(Distribution)、方案的更新和上载(Scheduled Update and Upload)等方法所需的时间,并确定由哪些客户端施行这些方法。分发(Distribution)方法中,通过基站(Base station,BS)的众播将全部模子分发给所选客户端。方案的更新和上载(Scheduled Update and Upload)方法中,选定的客户端并行施行更新模子,将新参数上载到中心效劳器。中心效劳器运用验证数据评估直接会合客户端更新的模子功用。模子满意请求或抵达施行时间请求之前,上述方法重复施行。


客户端挑选机制的目标是每轮更新进程中尽可以众的搜罗有用客户端更新。本文提出的机制思念根源于 [2] 中,即「期望到场优化的客户端数目庞大于每个客户端中的平均样本数」。依据这一标准,MEC 中心效劳器挑选能指定截止时间内完毕分发和方案更新上载义务的客户端,同时订定关于何时将模子的资源块(resource blocks,RBs)分派至选定的客户端的计谋,从而避免蜂窝收集呈现带宽堵塞的现象。本文假设各个客户端序次启动和完毕上载义务。


笔者看法:

文献 [2] 中首次提出「让教练数据分布挪动客户端配备中,通过会合当地盘算的更新来进修共享模子」的联邦进修看法。作家提出,区别于古板分布式优化题目,联邦进修有几个要害属性:1)客户端中 Non-IID 数据;2)各个客户端状况不屈衡;3)大范围分布;4)有限通信回合。关于第三点,本篇作品中作家了解为到场每一轮更新的客户端数目越众,就能越短时间内取得全部模子。于是每轮 MEC 中心效劳器都将通通能截止时间内完毕的客户端纳入到更新中。但终究上,本文后续实行中(外 1)发明,盲目添加每轮到场更新的客户端数目,会低沉模子收敛速率。到场每轮通信的客户端数目与全部模子优化速率之间的联系是否并非简单的板滞递增联系?


令 K={1,...,K} 外示 K 个客户端的索引,K』 为资源央求方法中随机挑选的 K 的子集。S 外示所挑选的客户端索引,本文目标是对这些索引举行优化。更新和上载方法中,客户机按 S 的序次依次上载其模子。假设 R_+为非负实数集,T_round 为每轮的截止时间,T_final 为着末截止时间,T_cs 和 T_agg 区分为客户端挑选和会合方法所需的时间。(t_s)^d 外示分发所需的时间,它取决于选定的客户端 S。(t_k)^UD 和 (t_k)^UL 区分外示第 k 个客户端更新和上载模子所花费的时间。通过最大化所选客户端的数目每轮承受尽可以众的客户端更新。从方案更新和上载方法开端到第 i 个客户端完毕更新和上载进程的估量运转时间定义如下:


客户端序次上载,(T_k)^UL 外示 (t_k)^UL 的总和。与之对应,也可以之前的客户端施行上载方法时更新模子。如许包管个体更新时间段内,(t_k)^UD 不会收敛到 (T_i)^UD。客户端挑选机制外示为下列最优化题目:

为完成上式优化,本文提出了一种基于贪默算法的启示式算法,精细流程如下:


将模子上载和更新操作所用时间起码的客户端迭代添加到 S,直到运转时间 t 抵达截止时间 T_round。通通算法中最要害的参数为 T_round,本文将 T_round 修立为较大值,从而可以包管更众的客户端到场到每轮上载和更新中。


实行验证

1)模拟状况:本文一个都会小区域的蜂窝收集上模拟了一个 MEC 状况,由一个边沿效劳器、一个 BS 和 K=1000 个客户端构成,同时包罗一个带有 GPU 的义务站。基站和效劳器位于小区中心,半径为 2km,客户端小区内平均分布。

2)板滞进修义务的实行修立:挑选 CIFAR-10、 MNIST 数据库。起首,随机确定每个客户端具有的图像数据的数目,范围为 100 到 1000。以两种方法将培训数据集分成客户机:IID 修立,此中每个客户端只从通通教练数据汇合随机抽取指定命量的图像;Non-IID 修立,此中每个客户端随机抽取图像,但来自教练数据的差别子集(随机挑选的 10 个种别中的 2 个种别)。

3)全部模子:本文要点并不是议论运用繁杂深度进修模子联邦进修中的有用性,于是挑选经典卷积神经收集举措两个义务的全部板滞进修模子。模子包罗 6 个 3x3 的卷积层(32, 32, 64,64, 128, 128 个通道,每一个都由 Relu 和批处理归一化,而且每一个都跟从 2x2 个最大池化层),然后是 3 个全连接层(382 和 192 个单位具有 Relu 激活,另外 10 个单位为 softmax 激活)。全部模子更新进程中,小批量大小为 50,每轮周期为 5 次,随机梯度下降更新初始进修率为 0.25,进修率衰减为 0.99。每个客户端的盘算才能由更新全部模子进程中其一秒钟内可以处理的样本数据来外示,随机确定每个客户端的平均才能,范围从 10 到 100。

4)评判目标:本文将 FedCS 与经典联邦进修方法(FedLim)举行比照。评判目标包罗抵达所需精度的时间(ToA@x)、着末限日后的准确度(Accuracy)。

5)实行结果:

a. IID 修立下的实行结果睹外 1。总体而言,就 ToA 而言,FedCS CIFAR-10 和 Fashion-MNIST 义务方面效果均优于 FedLim。另外着末限日之后,FedCS 比 FedLim CIFAR-10 中取得了更高的分类准确度。这些结果外明,教练阶段 FedCS 比 FedLim 的服从有所进步,启事是 FedCS 可以将更众的客户端纳入到每轮教练中。另外,该实行还标清楚模糊量和盘算才能的不确定性对 FedCS 的功用影响不大(由参数 r 外征)。


外 1. CIFAR-10 和 MNIST 的 IID 修立结果.


图 2. 差别截止时间 T_round 的比照实行结果.


图 2 中实行标明 T_round 的影响。上:精度弧线;左下:每轮挑选的客户端数;右下:挑选的客户端总数。暗影区域外示 10 次实行之间的功用标准差。由图 2 中实行可知,联邦进修中修立较长的截止时间 T_round 可以引入更众客户端,可是因为会合方法较少,可以带来的改良十分有限。相反的修立较短的截止时间 T_round,每轮有限的客户端数目会低沉分类准确度。较好的挑选 T_round 的方法是每轮动态的改造从而找到有用的客户端数目。这部分实质将是以后研讨的要点。


b. Non-IID 修立下的实行结果睹外 2 和图 3。 Non-IID 修立下,FedCS 仍然能取得较好的效果。当然,与之前作品 [2] 中的剖析同等,Non-IID 数据的联邦进修功用会受到影响。为了更好地处理 Non-IID 数据,我们需求添加每轮挑选的客户端数目或总轮数,但因为实行中施加的时间限制 T_round 和 T_final,这两种处理都很艰难。有用应对 Non-IID 数据的一个方法是模子压缩技能,这可以添加相同的束缚条件下可以挑选的客户端的数目。关于 Non-IID 数据的处理题目不是本文议论的要点,精细实质可睹文献 [3]。


外 2. CIFAR-10 和 MNIST 的 Non-IID 修立结果.


图 3. Non-IID 修立中对应差别截止时间的准确度弧线.


总结与剖析

本文提出了一个新的联邦进修框架 FedCS,其目标是一个异构客户端的 MEC 框架中高效地完毕联邦进修。本文验标明验中采用经典的深度神经收集修模,后续可以议论应用更众的数据教练更繁杂的模子。另外,未来义务的另一个可以的偏向是处理动态的运用场景,比如资源的平均数目以及更新和上传所需时间动态摆荡的状况下怎样改良联邦进修功用。


Agnostic Federated Learning



基于古板的教练和推理机制,经典联邦进修的全部模子教练结果可以会偏向于某些客户端上载的更新参数。本文针对这一题目提出了一种不可知的联邦进修框架 (Agnostic Federated Learning, AFL),该框架中,全部模子针对由各个客户端分布会合而成的任一目标分布举行优化。本文引入数据相关的 Rademacher 繁杂度用于模子的目标进修,从而满意义务不可知的联邦进修请求。另外,本文还提出了一种疾速随机优化算法,标清楚该算法假定凸耗损函数和假设集状况下的收敛性。


进修框架先容

1)耗损函数

假设 X 外示输入空间,Y 外示输出空间同时 Y 是有限类集,本文以众种别分类题目为例议论不可知联邦进修框架的构修,其剖析结果可直接推行到其他板滞进修题目中。h(x) 外示 x 属于某种另外概率分布,H 为 h 的分布汇合。题目耗损函数定义为:


L_D(h) 外示假设 h 相关于 X×Y 上分布 D 的希冀耗损。


思索如许一个板滞进修场景,进修者接纳到 p 个样本 S1,...,Sp,此中样本 Sk 为从特别区或分布 Dk 提取的 IID 数据,(D_k)^外示样本 Sk 相关的体验分布。经典联邦进修的教练是所有样本 Sk 的联合平均分布状况下举行的,即


而本文提出的不可知联邦进修 AFL 框架,其目标分布外征为分布 Dk 的未知混淆,此中各个混淆项的权重为 lambda。于是,AFL 中的不可知耗损函数为:


实行上,进修者只可通过有限的样本 Sk 来获取分布 Dk。于是,关于任何 lambda,上式中只可盘算体验分布的 lambda-混淆如下:


图 1: 未知混淆分布 D_lambda.


由此,AFL 中的不可知体验耗损函数定义为:

2)进修界线

本文基于加权 Rademacher 繁杂度盘算进修界线:

此中 Sk 外示大小为 m_k 的样本,sigma 为 Rademacher 变量汇合,这些变量均为 {-1,+1} 范围内的平均分布随机变量。假设耗损函数以 M>0 为界。关于任何大于 0 的 delta,样本 Sk~Dk.^(m_k) 中以最小(1-delta)的概率抽样,具有下列不等式:

由该定理可知,不可知耗损值具有上界:

关于取值范围为 {1,-1} 的耗损函数,下列加权 Rademacher 繁杂度的上界修立:


关于本文的耗损函数和不可知体验耗损函数,假设耗损函数以 M 为界,关于任何 epsilon>=0 和 delta>0,概率起码为 1-delta,下述不等式适用于所有的种别概率 h:


3)算法先容

由上面的数学剖析,本文提出的 AFL 算法外示为:

当耗损函数为凸函数,可以运用投影梯度下降或其它通用镜像下降算法来办理优化题目。优化进程主要涉及两组参数:假设概率分布 h 和混淆权重 lambda。将耗损函数定义为:

此中有

为了简化议论,本文运用 AFK 的非正则化版本,即由变量集 w 给出的以下题目:

上式将自然博弈论标明为两人博弈题目(minmax),此中全体目标为挑选最大化目标函数的 lambda,而进修者的目标是找到最小化耗损的 w,总体义务是找到这个题目的均衡点。办理 AFL 优化题目随机代码如下:



每一步中算法盘算一个关于 lambda 和 w 的随机梯度,并相应地更新模子。然后通过盘算凸极小化取得 Lambda 的值从而将 lambda 投影到 Lambda。重复盘算 T 次并返回权重的平均值。


实行剖析


1)成人数据库

应用 UCI 板滞进修库的生齿普查数据集构修成人数据库,共 32561 个教练样本。依据是否取得博士学位,将教练样本划分为两个域,此中博士域包罗 413 个样本,非博士域包罗 32148 个样本。基于种别特征和 Adagrad 优化器教练取得 Logistic 回归模子。外 1 列出了平均运转 50 次以上的模子功用。运用 u^教练取得的 D_lambda 代外经典联邦进修方法的结果,而运用 L_D_lambda 教练取得的 D_lambda 外示 AFL 效果。所有模子中,AFL 最差的域内取得最高的准确度 (71.5%)。AFL 模子的测试准确度各域上的平均值略低于经典的均衡化处理模子,但不可知论模子的偏向较小, D_lambda 上外现较好。本文实行的两个域中,博士域更难预测。关于这个范畴,范畴不可知模子的功用接近于仅基于博士域数据的模子,优于经典平均分布模子。


外 1. 教练模子差别域内的测试准确度.


2)MNIST

MNIST 数据库包罗 60000 个教练图像和 10000 个测试图像,以 28x28 个灰度像素强度阵列的方法存储,同时 10 个种别中平均分布。本文起首教练一个简单的逻辑回归分类器,察看到以下三个种另外分类功用最差:T 恤衫/上衣、套头衫和衬衫。接下来,提取了用这三个种别标记的数据子集,并将该子集分成三个域,每个域由一类业俐构成。然后,运用逻辑回归和 Adam 优化器教练针对这 3 个种另外分类器。实行结果睹外 2。因为各个域区分给定了标签,这个实行中,本文没有比照特定域上教练的模子。 3 个种别中,衬衫的分类难度最大。与基于平均分布 u^教练的经典模子比较,AFL 可以进步衬衫种另外全体识别准确度。另外,不可知进修方案不光改良了难度最大的域内的识别效果,而且具有更好的推行性,进步了平均测试准确度。AFL 模子任何目标分布 D_lambda 上抵达了约 74.5% 的准确度,而经典联邦进修的准确度约为 71.2%。


外 2. 教练模子差别装扮种别上的测试准确度.


3)言语模子

该数据库仅包罗两种言语数据:对话和文本。对话数据运用的是 Cornell 影戏数据库,此中包罗了 300000 条语句,平均长度为 8。文本数据运用 Penn TreeBank(PTB)数据库,包罗 50000 条语句,平均长度为 20。本文通过将上述两个对话和文本语料库举措域相联合构修了一个数据库。本文运用动量优化器(momentum optimizaer)教练了一个投影大小为 512 的双层 LSTM 模子。通过繁杂度来权衡模子的效果,即交叉熵耗损的指数,实行结果睹外 3。这两个域中,文本域的处理难度较大,AFL 的测试繁杂度接近于仅针对文本数据教练的模子,优于基于平均分布 u^教练的模子。


外 3. 差别域中教练模子的测试繁杂度.


总结与剖析

针对联邦进修的统计异质性题目,本文提出了一种不可知联邦进修框架 AFL,从而办理经典联邦进修中会对某些客户端义务爆发倾斜的题目。本文对该框架举行了充沛的表面剖析和论证,精细的数学标明可睹原文。另外,本文举行的实行结果标明,这种方法也可以实行题目运用中带来分明的改良。


Bayesian Nonparametric Federated Learning of Neural Networks



本文提出了一种贝叶斯非参数的神经收集联邦进修框架。每个客户端基于当地数据盘算神经收集参数构修当地模子,应用本文提出的联合概率神经立室(Probabilistic Federated Neural Matching,PFNM)完毕全部模子的构修。应用本文提出的推理方法,没有分外监控、数据池等新闻以及只施行一轮通信的状况下,可以生成效果更优的全部神经收集模子。


联合概率神经立室 PFNM

本文起首先容了怎样将贝叶斯非参数机制运用于运用神经收集的联邦进修框架中。贝叶斯非参数机制的目标是识别 J-当地模子中与其他当地模子中的神经元相立室的神经元子集。然后,将立室的神经元组合后变成全部模子。


假设教练 J -众层感知器(MLP)j=1,...,J,每个感知器有一个躲藏层。令 V.^(0) 和 v.^(0) 区分外示躲藏层的权重及偏移,V.^(1) 和 v.^(1) 外示 softmax 层的权重和偏移。D 为数据维度,Lj 外示隐层的神经元数目,K 为种别数目。简单的神经收集构造为:

给定权重和偏移的条件下进修全部神经收集。起首,神经收集中 MLP 隐层的神经元排列具备置换稳定性。于是,不行够将权重看成矩阵、偏向看成向量,而是要将它们区分看作向量和标量的无序汇合。第二,神经收集中的躲藏层一般被视为特征抽取器,每个 ((v_jl).^(0),(v-tilde_jl).^(0))参数化对应神经元的特征提取器。因为 J-MLP 基于相同的一般数据类型(不必定是同质的)教练,假设它们起码共享少许用于相同目标的特征抽取器。然而,因为前面议论的置换稳定性题目,由第 j 个 MLP 的 l 标注的特征提取器不太可以对应赴任别 MLP 的相同索引的特征抽取器。


由上述剖析,为了将联合概率神经立室方法运用于联邦进修,构修全部特征提取器(神经元)的进程中,必需对 MLP 汇合的特征抽取器举行分组和组合的进程修模。


1)单层神经立室

本文提出的联邦进修框架要害构成部分是引入了一个基于 Beta-Bernoulli 进程的 MLP 权重参数模子 [4]。起首,从一个 Beta 进程中提取一组全部原子(隐层神经元),此中包罗一个基本器量 h 和质料参数 gamma_0:

此中每个 theta_i 是由特征提取器权重偏向对与 softmax 回归的相应权重变成的级联向量。本文运用「batch」来外示数据的一个分区。接下来,关于每个 j=1,...,J,通过 Bernoulli 进程为 batch j 挑选全部原子的子集:

着末,假设观测到的部分原子是对应全部原子的有噪测量结果:


这个模子中,待推测的要害量是随机变量的汇合,这些随机变量任何一批(batch)中都将观测到的原子(神经元)与全部原子相立室。这些随机变量的汇合外示为 {B^j}。


对上述模子的全部原子举行 MAP 估量的算法目标函数如下:


依据「高斯分布是高斯分布的共轭」命题,上式可盘算为:

思索一种迭代优化方法,给定 B^j,找到相应的最优分派,然后随机采纳一个新的 j,直到收敛。本文对上式举行了数学盘算并用 Hungarian 算法举行求解。下图 1 中总结了通通单层推理进程。

图 1. 三个 MLPs 立室的单层概率联邦神经立室算法.


2)众层神经立室

剖析到目前为止,本文给出的模子可以处理恣意宽度的单层神经收集,从表面上讲,该单层收集可以模拟迫近任何目标函数。下一步,通过定义从输出到输入(自上而下)的深度神经收集权值生成模子,本文将单层神经收集立室扩展到对深度收集的立室中。


令 C 外示众层收集构造中的隐层数目,L^c 外示第 c 层的神经元数目,L^(C+1)=K 为标签数目,L^0=D 为输入维度。自上而下的方法中,全部原子不再是构成单个神经元隐层模子中的神经元的权重,而是来自神经元的输出权重的向量。
葱☆上层的躲藏层 c=C 开端,我们运用与单层状况中相似的模子生成每个层,基于各层结果生成一个全部原子汇合,并运用 Beta-Bernoulli 进程构制为每个批(batch)挑选一个子集。L 对应某层神经元的数目,它掌握对应层原子的尺寸。众层模子的生成进程如下:

此中 Tj^c 外示第 j 批 c 层运用的全部原子(神经元)集。着末,生成察看到的部分原子:

遵照自上而下的生成模子,本文采用贪婪推理进程,起首推测出顶层的立室,然后再向下举行收集层的立室。每个层的生成进程仅依赖于其上一层中的全部神经元的种别和数目,于是,一朝推测取得全部模子的 C+1 层,就可以将单层推理算法(如图 1 中的算法 1)运用到第 C 层。也便是说,只需求一轮通信,就可以生成全部模子。图 2 直观地阐清楚通通众层推理进程,算法 2 供应了精细新闻。


图 2. 显示三层 MLP 立室的概率联邦神经收集立室算法.


图 2 中的节点外示神经元,相同颜色的神经元外示互相立室。左侧图显示了此中一层的立室方法,精细为:运用下一个最高层的立室分派将每个 j 批中的神经元转换为援用全部上一层的权重向量。运用这些权重向量变成价钱矩阵,之后运用 Hungarian 算法举行立室。着末,对立室的神经元举行聚集恬静均,变成全部模子中新的一层。如图 2 中右图所示,众层修立中,生成的全部层用于立室下一个较低层等,直到抵达底部躲藏层。


3)附加通信回合的神经立室


上面的剖析中,本文提出的 PFNM 方法仅需一个通信回合就可构修全部模子。而经典的联邦进修基于当地数据需求颠末几个阶段的教练生资当地模子,之后通过当地模子和全部模子间的众轮通信构修最终的全部模子。鉴戒联邦进修的理念,通过引入分外的通信回合,可以有用扩展和晋升 PFNM 的功用。


起首运用全部模子的子集初始化当地模子,众轮通信回合中包管当地模子大小 Lj 稳定。当地模子更新后,再次运用 PFNM 方法立室生成新的全部模子。值妥当心的是,全部模子的尺寸差别的通信回合中是不时改造的,特别的,我们期望跟着当地模子的改良这个尺寸可以渐渐变小。


实行剖析

数据库:MNIST、CIFAR-10。对两个数据库都施行相同的操作,随机将数据库分成 j 批,分区方法有两种:(a)同质分区,此中每个批次中数据种别 K 个类中的比例大致相等;(b)异构分区,批次大小和数据类比例不屈衡。


实行目标:本文给出实行标明 PFNM 可以将众个独立于差别批次数据上教练的当地神经收集会合成一个高效的、中等范围的全部神经收集,且仅需施行一个通信回合。当容许分外的通信时,其功用还将晋升。


1)单轮通信进修功用比照

仅通过一轮通信进修生成全部模子,这与实运用场景是吻合的,实场景中,少许配备的数据可以不行继续保管,此时仅能基于之前教练取得的当地模子来生成全部模子。
比照算法:神经收集、会合算法、经典联邦进修 [2]、K-means 聚类。

图 3. 单通信联邦进修.


图 3 给出了差别批次的单隐层神经收集结果。异构分区的实行条件下,我们察看到部分 NNS 和 K-means 的功用分明下降,而 PFNM 可以保持其精良的功用。议论会合功用的题目上,PFNM 与当地模子和联邦进修方法比较,改良也很分明。可是它的功用略逊于会合方法,特别是针对 CIFAR-10 中较深的收集构造。另外我们也能看到,因为经典联邦进修方法的思道便是通过众轮通信构修全部模子,于是仅施行一轮通信回合,联邦进修方法的效果最差。

2)附加少量通信回合的进修功用比照

某些状况下,将通信限制一个回合内可以请求过高,于是本文也议论了实行中常常呈现的、容许有限通信回合的状况。

数据条件:同质分区时,25 个批次和 20 个通信回合;异构分区时,25 个批次,50 个通信回合。

比照算法:经典联邦进修、Downpour-SGD、会合方法。

图 4. 附加通信回合的联邦进修.


图 4 给出了一层和两层神经收集的结果。两种实行数据状况下,每层都运用 100 个神经元。包管足够通信回合的状况下,PFNM 的功用都优于会合算法。另外,所有的实行中,与联邦进修和 D-SGD 比较,PFNM 需求较少的通信回合就能抵达给定的功用程度。


总结与剖析

本文提出了一种应用单样本/少样本探究式进修的方法(PFNM),仅通过一次或少次通信回合构修全部模子,从而有用办理联邦进修中的通信题目。恰当的通信条件下,PFNM 效果优于运用神经收集的联邦进修的最新算法。未来的义务中,方案探究更繁杂的方法来组合当地收集,特别针对每个当地收集的教练样本都较少的状况提出有用办理方案。本文方法中运用的立室方法是完备无监视的,联合某种方式的监视可以有帮于进一步进步功用。着末,目今修模框架可以扩展到其他架构,如卷积神经收集(CNNS)和递归神经收集(RNNS)等,引入其他架构神经收集中的参数调解和修立将是以后义务的研讨偏向。


Protection Against Reconstruction and Its Applications in Private Federated Learning 


跟着大范围统计进修的开展,数据搜罗和修模技能渐渐从古板的中心化会聚及处理改动为外围装惫亓钡鼗处理及修模,比如电话、手外、健身手环等。伴跟着分布式存储的数据增加,怎样包管足足数据用于修模的同时维护数据隐私性,这一题目面临着庞大的挑衅。本文提出了「当地隐私看法」,即统计职员或进修者可以察看到数据之前,对这些数据举行差别化、模糊化处理,从而对私人数据供应有用维护。古板的用于当地隐私维护的方法实行运用中过于厉厉,特别是当代高维统计和板滞进修题目中往往无法适用。本文基于对手大约率事先可以掌握到的新闻有限的思索,为确保对手无法必定的偏向范围内重修数据,提出了一种有用的数据发布步伐,同时计划了一种针对差别隐私请求的统计进修题目的最小最大(minimax)差别性隐私机制。


隐私维护机制配景常识

联邦进修题目中,即使只客户端和中心效劳器之间传输模子的更新新闻而不传输客户端当地数据,仍然保管表露用户隐私的损害。本文提出了一种基于当地私有算法的隐私维护方法。给定客户端保持私有形态的数据 x∈X,随机机制 M:X→Z 是ε-当地差别性私有的,则关于所有 x,x'∈X 以及汇合 S,我们有:

满意上式外示即使对手晓得初始数据是 x 或 x'中的一个,也无法给定结果 Z 的状况下区分它们。本文思索的大范围板滞进修场景中,对手并不行掌握关于 X 的先验新闻,于是,本文提出的当地隐私维护方法仅需做到对手先验常识的某些假设系览止重构(x 的函数),即可分明改良模子拟合效果。


给定参数空间和耗损函数,目标是办理损害优化题目如下:

本文通过办理随机最小化题目的方法优化上式,同时供应当地隐私私人数据 Xi 并供应差别性隐私的牢靠包管,进而提出了一种当地数学隐私模子拟合方法。


模子剖析

1)隐私类型及扩展

分布式模子立室和联合进修场景中,主要思索两个潜的攻击者:一是观望者,他可以察看到模子的所有更新和单个配备的通信状况;第二种是外部对手,他可以察看到最终模子或其它关于可以到场数据搜罗和模子拟合的私人新闻。关于前者,重假如阻遏其成功的重修模子,关于后者则需求当地化或汇合式差别化私有计谋中运用较小的隐私参数。

起首先容隐私类型及其扩展。差别性隐私描画为:

差别性隐私的其他变体请求平均似然比接近 1,包罗汇合式和 Renyi 差别隐私权。分布 P 和 Q 之间的 Renyi alpha-散度为:

Renyi-差别隐私权为:

当思索隐私维护对象为没有收到可托维护的单个数据供应者,则运用于单个数据点 x 的机制 M 是当地私有的。


2)重修摧毁

本文所研讨的状况是用户或研讨到场方期望维护数据 X。通过少许处理将 X 转化为向量 W,这种转化可以只是简单的恒等式转换,也可以是 X 或其他推导结果的耗损梯度。通过随机映照 W→Z 对 W 举行私有化处理。观望者(或对手)期望可以基于私稀有据 X 估量函数 f(X)。可是,假如 X 或 f(X) 维度足够高,观望者(或对手)掌握的关于 X 的先验常识是有限的,于是 W→Z 的映照仅需包罗较少的混杂新闻就可以包管 X 的隐私平安。

观望者(或对手)具有先验常识 pi,已知随机映照机制 M:W→Z, W→Z=M(W)。f 为重修目标,L_Rec 为耗损函数。估量值 v.^供应一个针对 L_Rec 的 (alpha,p,f) 重修摧毁如下:

同时,假如关于任一估量 v.^则有:

上式适用于所有可以的机制 M 的察看值 z,于是需求对机制有少许厉厉的条件,不容许差别性隐私除外放宽隐私限制条件。


3)重修维护

接下来可认为重修供应维护。假如对手掌握了 f(X) 的扩散先验常识,因为该先验常识并不行用于重修 f(X),于是对手即使十分大的 epsilon 数据范围内,都不行够依据 X 的差别性私有视图重修 f(X)。本文给出了几个例子,供应了限制新闻以避免重修的最佳实行倡议,并对合理的先验新闻给出了少许有用的启示式盘算。包罗:扩散先验与线性函数的重构、希罕数据的重修维护等。


联邦进修运用

基于上文提到的损害优化目标函数,联邦进修的分布式进修进程(不思索隐私性)重复如下:

a. 中心效劳器的全部参数 theta 播送到一个包罗 b 个客户端的子汇合,客户端当地样本为 Xi,i=1,...b;
b. 每个客户端盘算模子参数更新;
c. 中心效劳器会聚更新的参数变成全部更新参数,并更新全部模子。

本文提出的思索隐私平安的架构中,第 2、3 步需求添加分外的平安维护步伐:客户端当地施行的方法 2 中,运用当地隐私维护机制维护当地数据 Xi(参照上文提到的重修摧毁维护);针对中心效劳器中施行的会聚方法 3,采用差别性隐私机制包管模子参数的通信进程是全部私有的。通通反应环道供应了有用的隐私维护,用户的当地数据不会传输到中心效劳器,而汇合式隐私维护可以包管进程和最终参数都不保管敏锐性披露的损害。

针对初始化当地参数 theta_0,当地运转模子盘算后取得更新后的参数 theta_i,则私有化处理当地差别:delta_i:=(1/eta)(theta_i-theta_0),delta_i 为随机梯度映照,此中的按步长的缩放完成同等的预期更新量。施行下面的处理:

M 为私有化处理机制,是关于 delta_i 的无偏(私有)视角估量。思索平均梯度映照:

此中的投影操作 proj 限制任何单个更新的奉献,向量 Z~N(0,sigma.^2)是高斯分布的且能供应汇合的隐私包管,精细外示为 sigma.^2。本文提出的隐私机制主要运用是最小最大化速率最优的私有(分布式)统计进修场景。关于当地私有模子拟合,梯度或影响函数的大小估量十分具有挑衅性,另外更新的范围也是至关主要的。通过私有化数据对 (U,R) 的方法传输随机映照 W:偏向为 U=W/||W||_2、大小为 R=||W||_2。令 Z_1=M_1(U) 以及 Z_2=M_2(R) 为 W 的私有化方式,睹图 1:

图 1. 数据 X 与私有对 (Z1,Z2) 之间的马尔可夫图形构造.


差分私有信道的基本构成特征包管了 M=(M1,M2) 是 (epsilon1+epsilon2)-当地差分私有的,这种机制包管差分私有算法的组隐私、后处理以及组合维护的好处,从而完成上面提到的重修维护。

影响联邦进修服从的一个要害目标是模子的更新 delta 的精度,一般该值为随机梯度 delta l(theta;x) 的盘算结果。本文特别思索了两种状况下更新准确度的状况,包罗:欧式间隔状况(对输入单位向量 u 举行重采样,从 L_2 暗影球形中平均挑选),以及高维估量优化题目中常睹的非欧氏间隔的状况(私有化向量到 L_Infinity)。欧氏间隔和高维的私有化进程区分睹算法 1 和算法 2。


本文对无偏向量释放处理机制的着末一个操作是将 r∈[0,r_max] 的状况释放扩展为 r<Infinity。本文精细先容了两种方法:一是均方偏向阶次最优标准的随机呼应机制,另一种是可以取得更好的相对偏向包管的机制。精细睹算法 3。


至此,本文提出的私有向量采样机制先容完毕。关于损害优化函数,本文提出一种随机梯度下降优化进程,起首应用独自的机制私有化每个随机梯度 delta l(theta,X),该方法是 epsilon-差分私有的。令 epsilon_1+epsilon_2=epsilon,此中 epsilon_1 外示偏向的私有化程度,epsilon_2 外示大小的私有化程度。针对 epsilon_1,运用算法 1 和算法 3 区分对 epsilon_1 和 epsilon_2 举行私有化处理,最终取得 epsilon-差分私有机制 w 如下:

令 Z(theta;x):=M(delta l(theta;x)),私有化随机梯度优化进程重复下式:


实行剖析

本文实行运用算法 1 和算法 3 中的私有化处理机制:

epsilon_2 修立为 10,如许相关于 PrivUnit2 中的采样偏向,epsilon_2 对最终偏向的奉献可以疏忽不计。

本文实行目标是验证采用隐私维护机制的联邦进修方法是否可以供应与经典联邦进修相似的进修效果。实行图中给出了目今模子参数与经典方法取得的模子最优参数的比照。

1)模拟逻辑回归实行

实行数据:应用下式生成模拟实行数据

实行参数:关于给定的隐私品级 epsilon,实行参数如下

实行结果:精细实行结果睹图 2 所示。此中左图给出私有随机梯度法的偏向,正如上文所剖析,私有随机梯度法对这个题目是(极大极小)最优的。跟着 epsilon 值变大,实行效果渐渐接近于非私有化处理的经典随机梯度估量方法。右图给出随机梯度方法和非私有最大似然估量的偏向方框图。

图 2. 逻辑回归模拟结果.


2)深度模子图像分类实行

【MNIST】模子:6 层卷积神经收集(TensorFlow,经典优化算子)。实行结果睹外 1。图 3(a)中给出 20 次实行的标准偏向图。

【CIFAR10】模子:6 层卷积神经收集(TensorFlow,Adam 优化算子)。实行结果睹外 1。图 3(b)中给出 20 次实行的标准偏向图。


 外 1. 随机初始化教练 6 层 CNNS 的实行参数.


图 3. 隐私维护联邦进修(由隐私参数ε1 索引)与非隐私维护模子更新的图像分类准确度比较.


3)预教练模子

ImageNet预教练 ResNet50v2 收集 [5]。 Flickr 语料库的子集上针对 100 个种另外分类义务,应用预教练的 ResNet 模子再次举行模子教练。图 4(a) 给出了联邦进修和本文方法 12 次实行中的标准过失之间的准确度差别。

【Wikipedia 新词预测】预教练 LSTM。 Reddit 网站上所有用户评论的语料库中援用颠末预教练的 LSTM,再次运用 NLTK 标记进程。图 4(b) 给出了联邦进修和本文方法 20 次实行中的标准过失之间的准确度差别。

Fig. 4. 隐私联邦进修方法(用相应的ε1 参数标记 SDP)和种种隐私参数ε以及分明模子更新的联邦进修(标记 clear)预教练准确度比较 

总结与剖析


本文针对大范围分布式模子拟合及联邦进修题目,提出了一种差别性隐私维护方法。本文剖析了对手的先验可托度和重修概率,从而标清楚较大 epsilon 取值状况下的隐私交况以及差别机制供应的隐私维护类型好坏常主要的。由本文的剖析和实行结果可知,进一步剖析隐私屏障以及差别层面上供应差别类型的维护手腕等,关于办理实行运用中的隐私维护题目好坏常有原理的。


本文提到的参考文献:

[1] Tian Li, et al.「Federated Learning: Challenges, Methods, and Future Directions,」https://arxiv.org/abs/1908.07873, 2019.
[2] H. B. McMahan, et al.「Communication-efficient learning of deep networks from decentralized data,」in Proc. of the International Conference on Artificial Intelligence and Statistics, 2017.
[3] J. Konecn´y, et al.「Federated learning: Strategies for improving communication efficiency,」NIPS 2016.
[4] Thibaux, R. and Jordan, M. I.「Hierarchical Beta processes and the Indian buffet process,」In Artificial Intelligence and Statistics , pp. 564–571, 2007.
[5] T. Lee. Tensornets. https://github.com/taehoonlee/tensornets, 2018.

作家先容:仵冀颖,工学博士,结业于北京交通大学,曾区分于香港中文大学和香港科技大学承当帮理研讨员和研讨帮理,现从事电子政务范畴新闻化新技能研讨义务。主要研讨偏向为方式识别、盘算机视觉,喜好科研,期望能保持进修、不时进步。

表面联邦进修
3
相关数据
最大似然估量技能

极大似然估量是统计学顶用来估量概率模子参数的一种方法

方式识别技能

方式识别(英语:Pattern recognition),便是通过盘算机用数学技能方法来研讨方式的主动处理和判读。 我们把状况与客体统称为“方式”。 跟着盘算机技能的开展,人类有可以研讨繁杂的新闻处理进程。 新闻处理进程的一个主要方式是生命体对状况及客体的识别。其看法与数据开掘、板滞进修相似。

最大池化技能

最大池化(max-pooling)即取部分承受域中值最大的点。

模子优化技能

像卷积神经收集(CNN)如许的深度进修模子具有大宗的参数;实行上,我们可以调用这些超参数,因为它们本来模子中并没有被优化。你可以网格搜寻这些超参数的最优值,但需求大宗硬件盘算和时间。改良模子的最佳方法之一是基于你的范畴举行过深化研讨的专家的计划和系统构造,他们一般具有强大的硬件可供运用。常睹的简单模子优化本领包罗迁移进修、dropout、进修率调解等

5G技能

第五代挪动通信系统(5th generation mobile networks),简称5G,是4G系统后的延迟。美国时间2018年6月13日,圣地牙哥3GPP集会订下第一个国际5G标准。因为物理波段的限制,5G 的收集也将会与其他通信技能并用,包罗长间隔的其他古板电信波段。

暂无评论
暂无评论~