系统模型假设
在模型中,我们有个IoT设备,设置时间跨度为并且分为步。对于每一个时间,设备需要处理队列中的一个任务,用元组。第一项表示任务的大小,第二项表示任务的CPU周期要求,第三项表示任务的最大延迟阈值。在任何时刻,设备都可以在本地进行任务或者将任务卸载到边缘或者cloud server
定义,这三个系数表示任务的执行决定。第一项表示若任务在本地执行则为1,否则为0;第二项表示任务是否卸载在边缘,第三项表示任务是否卸载到云中心。所以有
当设备决定卸载任务时,延迟和能耗将取决于信道条件、任务的大小以及设备传输其任务的功率;在本地计算的情况下,它们取决于计算资源的利用率。
如果设备决定卸载任务,它应该首先通过无线信道将其传送到支持MEC的基站。在时间,用户的数据传输速率表示为:
表示传送带宽,表示设备的传输功率,表示信道增益,表示接收器噪声
下图是当卸载任务时,设备的通信延迟和能量消耗
如果设备卸载到edge server,计算延迟表示为;如果卸载到cloud server,计算延迟表示为。分母表示为两种服务器的平均计算能力
当一个任务被卸载到任何一个服务器上时,处理该任务的能量消耗就是传输任务的能量,因此和都等于
如果设备选择在本地执行任务,本地计算的延迟和能耗将取决于在时间分配给处理任务的计算资源量,用表示。因此设备的本地延迟和能耗表示为 是常数,取决于设备芯片结构。
多目标问题陈述
在指定的时间范围内,以分散的方式联合最小化物联网设备的长期延迟和能耗。每个设备的长期预期成本(延迟和能耗的加权总和)分别表述如下:
黑体字母代表各个时间的向量。由于云服务器一般距离物联网设备较远,访问云的延迟通常比卸载到位于网络边缘的边缘服务器的延迟要大。在公式中表示访问云服务器的延迟,包括将任务从BS转移到云端所需的时间,路径中可能的路由,以及响应延迟。
问题建模如下:
如果设备在能源资源方面比计算资源更受限制,那么的值应该被设置为一个较大的数字。否则,应该是一个小数字。这个问题由于系数的加入是一个MINLP,无法在可接受的时间跨度内得到解决。
FEDERATED DDQN ALGORITHM
卸载决策优化: 由于每个物联网设备有三种选择来处理任务(即本地、边缘服务器或云服务器计算),在每个给定的时间步长中,几乎有种可能的卸载选择(从集中式控制器的角度来看)。随着设备数量的增加,这种复杂性也会呈指数级激增。为了解决这个问题,我们应用了一个多代理DDQN框架,其中每个物联网设备将使用他们的本地数据训练他们的本地DDQN模型。
计算和通信资源分配: 考虑到卸载决定,我们对设备的计算能力或发射功率进行优化,以使能源消耗和延迟的加权和最小化。我们使用优化理论来解决这部分问题,然后将结果作为直接成本函数输入DDQN框架。通过这种方式,我们为学习代理提供了一个真正意义上的所采用的卸载政策的质量,它反映了系统模型的许多重要方面(如每个设备的资源限制和他们的QoS需求)。在DDQN代理通过上述过程进行一轮训练后,我们应用联合学习框架,每个物联网设备将训练其DDQN模型,与集中式控制器共享其模型,并向中央聚合单元更新其模型。
用于卸载决策的DDQN
状态空间: 对于每一个设备代理的状态空间由以下几个部分组成,设备的任务队列长度,路径增益,当前正在处理任务的大小,CPU周期要求。因此有
动作空间: 用表示,包括处理任务在本地或者是卸载
代价: 式(8)表明一个代理的成本等于目标函数中给出的延迟和能耗的加权和。在卸载的情况下取决于的值,如果选择本地计算,则取决于的值。
当选择本地计算时,成本将通过解决下面的瞬时优化问题来计算:
在选择卸载的情况下:
- 本文链接:https://2bwant2b.github.io/2021/09/10/%E5%8D%9A%E5%AE%A2/%E6%AF%8F%E5%91%A8%E6%B1%87%E6%8A%A5/Federated%20Double%20Deep%20Q-learning/
- 版权声明:本博客所有文章除特别声明外,均默认采用 许可协议。