数字孪生赋能的同时学习与建模:面向存在窃听攻击的无人机辅助安全通信
大家读完觉得有帮助记得关注和点赞!!!
摘要
本文聚焦于无人机辅助无线网络中的安全通信问题,该网络由多个合法无人机和一个智能窃听无人机组成。智能窃听无人机能够观察合法无人机的传输策略,并自适应地调整其飞行轨迹以最大化信息截获。为应对这一威胁,我们提出了一种模式切换方案,使合法无人机能够在数据传输模式和干扰模式之间动态切换,从而在数据收集效率和通信安全性之间取得平衡。然而,获取用于合法无人机决策的全局网络状态信息会带来显著开销,因为网络状态是高度动态且时变的。为解决这一挑战,我们提出了一种数字孪生赋能的同时学习与建模框架,该框架允许合法无人机在数字孪生中高效学习策略,从而避免与真实环境的频繁交互。为捕捉窃听无人机与合法无人机之间的竞争关系,我们将它们的交互建模为一个多阶段斯塔克尔伯格博弈,并联合优化地面用户的传输控制、无人机的轨迹规划、模式选择和网络形成,以最大化整体安全吞吐量。考虑到数字孪生与真实环境之间可能存在的模型失配,我们提出了一种鲁棒近端策略优化算法,该算法鼓励合法无人机探索不确定性更高的服务区域。数值结果表明,所提出的数字孪生赋能的同时学习与建模框架能够有效支持学习过程。同时,与基准方法相比,鲁棒近端策略优化算法的收敛速度提高了约12%,安全吞吐量增加了8.6%。
引言
无人机已成为极具潜力的移动空中通信平台,可广泛应用于环境监测、应急通信、灾难救援和物联网网络[17]。通过动态调整自身位置,无人机能够有效缩短通信距离并改善信道条件。具备无人机间通信连接的多无人机网络可以扩大覆盖范围,并提升大规模分布式通信系统的性能[6]。然而,由于无线信道的广播特性和低空传输,无人机辅助的无线信道极易受到窃听攻击[18]。智能窃听无人机可以利用这一脆弱性,通过实时优化其飞行路径,以最大化截获合法无人机之间传输的机密信息。尽管加密方法可以在传输前对数据进行加密[1],但这通常需要大量的计算资源。这使得加密方法难以应用于对处理能力有限且数据流量突发的实时无人机辅助物联网应用中[23]。相比之下,物理层安全利用无人机的移动性,通过联合轨迹规划和传输控制来保障通信安全。除了被动应对,合法无人机还可以采用主动干扰,通过波束成形发射人工干扰信号来降低窃听者的信道质量,从而削弱窃听无人机解码传输信息的能力。
动机与挑战
现有的无人机辅助安全通信系统通常假设窃听者行为简单,例如静止或轨迹可预测[19, 27, 33]。然而,当窃听无人机能够自适应地调整其窃听策略时,这些假设会导致安全措施在实践中失效。同时,大多数现有工作为合法无人机分配固定角色,即一些无人机专门用于传输,另一些则设计为主动干扰机[13, 30]。这种静态配置在面对更智能的窃听无人机时也显得脆弱,后者可以欺骗合法无人机并调整其窃听策略。例如,窃听无人机可以远离干扰无人机,并跟随进行数据传输的无人机。这样一来,干扰无人机的干扰信号便失效,浪费了能量和频谱资源。因此,有必要为合法无人机开发一种自适应策略,使其能够根据窃听无人机的行为动态优化其模式选择、轨迹规划和资源分配。
此外,实际网络中地面用户的流量需求通常是高度动态的,这使得预定义的控制策略难以生效。尽管深度强化学习可以帮助合法无人机通过与网络环境的持续交互来学习最优策略,但由于在真实环境中进行成本高昂的动作探索,它通常存在收敛速度慢和样本效率低的问题。这一局限性可以通过创建数字孪生作为物理网络环境的高保真虚拟副本来缓解。通过在数字孪生中训练策略,学习效率可以显著提高[16]。近期研究已证明了在无线网络中使用数字孪生进行深度强化学习训练的有效性[8, 10, 7],揭示了通过持续从实际网络中收集更多真实数据可以减少数字孪生与现实之间的差异。然而,由于系统知识不完整、环境噪声、传输延迟或不确定的网络动态,数字孪生与现实环境之间的失配在实践中几乎不可避免。这些不准确性会随时间累积,导致数字孪生与现实环境之间的偏差增大,进而使合法无人机在轨迹规划和资源分配上做出次优决策。基于上述观察,本文旨在解决以下关键挑战:
-
窃听无人机的智能窃听:窃听无人机能够根据合法无人机的行为自适应地调整其窃听策略,这使得静态的、预定义的合法无人机配置变得非常脆弱。这要求合法无人机采用更具适应性和弹性的运行模式,以确保从地面用户安全地收集数据。
-
高度动态的网络环境:地面用户的流量需求未知且高度动态,使得直接部署策略难以生效。这需要一个数字孪生模型来实现高效的离线策略训练,并快速适应现实世界的动态变化。
-
数字孪生中的模型失配:数字孪生与现实环境之间不可避免的失配会降低学习策略的执行性能。因此,需要一种鲁棒机制来减轻这种差异在部署过程中的影响。
解决方案与贡献
本文聚焦于一个在智能窃听无人机威胁下运行的多无人机辅助无线网络。为了增强运行灵活性和传输安全性,每个合法无人机能够动态地在数据传输模式和主动干扰模式之间切换。这种自适应性使合法无人机能够更有效地对抗窃听无人机的窃听行为。例如,当窃听无人机接近一条数据通信链路时,正在传输的合法无人机可以切换到主动干扰模式,发射人工噪声以降低窃听无人机的信道质量。反之,当窃听无人机移出有效窃听范围且安全威胁减小时,合法无人机可以切换回数据传输模式以维持网络吞吐量。此外,那些能量充足但流量需求低的合法无人机可以被战略性地指派去主动追踪和持续干扰窃听无人机。这种合法无人机之间的协同控制能够在抵抗窃听攻击和保障整体网络吞吐量之间实现更高效的权衡。
为了捕捉合法无人机与窃听无人机之间的战略交互,我们将这种对抗性交互建模为一个多阶段斯塔克尔伯格博弈,其中合法无人机作为领导者,窃听无人机作为跟随者。通过联合优化地面用户的传输控制、无人机轨迹规划、模式选择和网络形成,提升了安全通信性能。该优化问题涉及耦合的离散和连续决策变量,需要协同的多智能体控制,并且必须适应地面用户不确定的流量需求和敌对窃听无人机带来的动态威胁。深度强化学习提供了一种有前景的无模型解决方案,它使合法无人机能够通过与环境的直接交互来学习有效策略,而无需先验知识。然而,传统的深度强化学习由于需要在真实网络中进行大量的试错探索,收敛速度较慢。在学习阶段,次优的动作可能会使通信链路暴露于重大安全风险之下,使得在现实世界中进行动作探索变得不切实际且代价高昂。
为了在最小化运行风险的同时加速训练,我们提出了一个数字孪生赋能的同时学习与建模框架。在该框架中,数字孪生为深度强化学习智能体提供了一个安全且高保真的虚拟环境,用于高效训练。同时,在真实网络中执行学习到的策略会产生有价值的反馈数据,这些数据被用来优化和更新数字孪生模型,从而形成深度强化学习与数字孪生建模之间的闭环协同演化。具体而言,数字孪生赋能的同时学习与建模框架利用合法无人机的历史传感数据构建一个动态数字孪生模型,该模型刻画了地面用户流量需求和窃听无人机窃听行为的时空分布。这为加速策略训练提供了一个高保真的虚拟环境。随着合法无人机在真实网络中执行策略,其实时观测和网络反馈被持续整合到数字孪生模型中,使其能够与实际网络和智能体的学习进程同步适应和演化。通过在数字孪生中进行快速的深度强化学习训练,并将收敛后的策略部署到真实环境中,数字孪生赋能的同时学习与建模框架显著降低了学习成本和运行安全风险。
我们设计了一种鲁棒近端策略优化算法,用于在数字孪生中进行策略学习。我们制定了两个在不同时间尺度上运行的异步过程:一是在数字孪生内部学习安全传输策略,二是根据真实网络动态更新数字孪生模型。为了实现轻量级的数字孪生,我们采用高斯过程回归来预测深度强化学习智能体训练所需的关键网络状态。高斯过程回归还能估计数字孪生与现实环境之间的模型失配,这指导合法无人机去探索信息稀少的区域,从而实现更精确的数字孪生重建。具体而言,本文的主要贡献总结如下:
-
面向安全多无人机通信的博弈建模:合法无人机能够根据实时网络状况在干扰模式和数传模式之间动态切换。窃听无人机可以自适应地调整其窃听策略以最大化拦截性能。我们将合法无人机与窃听无人机之间的这种动态交互建模为一个多阶段斯塔克尔伯格博弈。通过联合优化地面用户的传输控制、无人机的轨迹规划、模式选择和网络形成策略,最大化安全吞吐量。
-
用于快速学习的数字孪生赋能的同时学习与建模框架:该框架在一个动态演化的系统中集成了深度强化学习与数字孪生建模。它首先提供数字孪生,用于合法无人机安全传输策略的快速、安全的深度强化学习训练。它还允许通过在实际环境中执行合法无人机的行动,并同时收集真实世界的网络反馈,来持续更新数字孪生模型。它们在数字孪生赋能的同时学习与建模框架中的闭环集成加速了收敛,并在不确定和动态的网络中实现了自适应、鲁棒的决策。
-
应对数字孪生模型失配的鲁棒学习:我们提出了鲁棒近端策略优化算法,以提高数字孪生的保真度和学习策略的性能。我们利用高斯过程回归来估计数字孪生与现实环境之间的差异,并为近端策略优化智能体设计了一个不确定性感知的奖励函数。这使得学习到的策略能够更好地探索真实环境。实验结果表明,鲁棒近端策略优化算法有效提高了数字孪生的准确性,并增强了在真实环境中的安全传输性能。
初步结果已部分在会议版本[31]中呈现。本文对其进行了扩展,研究了在窃听无人机更复杂的窃听攻击下合法无人机的安全传输策略,其中窃听无人机可以动态调整其轨迹和窃听策略。我们提出了一种模式切换方案,使每个合法无人机能够自适应地在主动干扰和数据收集之间交替,以提高整体保密性能。此外,我们开发了数字孪生赋能的同时学习与建模框架,以在一个动态演化的系统中联合集成数字孪生建模和深度强化学习。该框架具有通用性,可适用于动态无线网络中各种基于深度强化学习的控制问题。本文的其余部分组织如下。第二节回顾相关工作。第三节介绍系统模型。第四节阐述了多阶段斯塔克尔伯格博弈的构建。第五节介绍了数字孪生赋能的同时学习与建模框架,并详细介绍了用于快速鲁棒控制的深度强化学习算法。第六节展示了数值结果,第七节总结全文。
相关工作
无人机辅助网络中的安全通信
由于无线信号的广播特性,无人机辅助通信本质上容易受到潜在对手的窃听。一个有前景的对策是物理层安全。在[5]中,作者通过联合优化地面用户的通信调度、传输功率和数据卸载策略,以及无人机的轨迹规划,解决了无人机辅助移动边缘计算系统中的主动空中窃听问题,以确保任务执行安全。在[21]中,作者利用可重构智能表面通过调整信道环境来增强安全性。他们联合优化了地面用户的传输功率、可重构智能表面的相移和无人机的轨迹,以加强合法通信链路,同时抑制窃听者和干扰者链路。此外,无人机还可以通过发射干扰信号来增加窃听者的噪声水平,从而破坏窃听[14, 26, 12]。大多数现有工作假设窃听者是静止的或轨迹可预测的。然而,在现实环境中,窃听无人机可以更智能地通过动态调整其位置来优化窃听性能,从而构成重大的安全挑战。在[28]中,作者展示了窃听无人机通过智能调整轨迹来提高窃听率,而合法无人机则通过规避机动和传输功率调整来应对这一威胁。在[26]中,作者研究了地面干扰机和传输基站协同对抗窃听无人机的合作模式,通过在窃听无人机与合法用户之间生成特定的干扰屏障来保护通信。他们假设数据传输和干扰设备独立运行,但这在面对能够规避干扰机并接近发射机的自适应窃听者时效果不佳。为了增强合法无人机对抗智能窃听无人机的韧性,本文引入了一种模式切换方案,使合法无人机能够在干扰和数据传输模式之间动态切换,以实现高效的安全通信。
用于安全传输的深度强化学习
无人机辅助无线通信网络高度动态且不确定,这使得传统的基于模型的优化方法难以在线高效求解[15]。深度强化学习非常适合解决此类网络中的安全传输挑战。在[34]中,作者采用双延迟深度确定性策略梯度算法来优化随机窃听者存在下无人机辅助安全视频卸载系统中的无人机控制策略。在[32]中,多智能体深度确定性策略梯度算法被用于联合优化干扰无人机和传输无人机的轨迹与传输功率,从而防御地面窃听者并最大化安全通信容量。此外,深度强化学习可以通过动态观察智能窃听者的策略并相应调整自身策略,有效应对智能窃听者的安全通信问题。在[11]中,作者在无人机辅助移动边缘计算中利用多智能体近端策略优化处理窃听无人机问题,通过交替优化合法无人机和窃听无人机的策略,直到达到动态均衡。在[3]中,作者将存在恶意干扰的综合感知与通信系统建模为斯塔克尔伯格博弈。他们采用博弈引导的深度强化学习策略,其中博弈论指导信道选择,深度强化学习优化功率控制,以最大化系统性能。尽管深度强化学习能有效解决复杂的优化问题,但其在现实环境中进行训练需要与环境进行大量交互,导致通信资源、能量和时间的显著消耗。为解决这一挑战,我们提出了数字孪生赋能的同时学习与建模框架,以实现低成本、轻量级的深度强化学习训练。
无人机辅助网络中数字孪生赋能的快速学习
无人机辅助网络中的数字孪生创建了物理系统的虚拟副本,使得优化网络操作和资源管理成为可能,而无需与真实环境交互。例如,在无人机辅助移动边缘计算中,数字孪生可以部署在基站上,实现双向数据交换,从而优化任务卸载并显著降低通信开销[10]。对于高密度无人机场景,数字孪生边缘网络减少了物理交互需求,同时提高了服务质量[7]。作者在[29]中探索了数字孪生技术在无人机网络中的实现,利用射频技术处理3D毫米波雷达成像,并在数字孪生环境中构建信道模型,以支持后续的资源调度任务。在[24]中,作者解决了因传输大量传感器数据导致的数字孪生同步延迟问题。他们提出在无人机和边缘服务器上部署深度神经网络,以提取传输信息的语义,从而增强系统的实时性能。作者在[35]中提出了一种双尺度空间数字孪生映射方法,构建大规模数字孪生以监控全局变化,并建立小尺度模型为无人机提供实时定制服务。这种方法不仅降低了数字孪生的延迟,还增强了其在各种场景下的鲁棒性。近期研究通常构建一个固定的数字孪生,这导致随着网络动态演化,数字孪生与现实环境之间的失配逐渐加剧[22]。为解决虚拟-物理环境失配这一关键挑战,作者在[9]中将估计误差纳入优化约束,使深度强化学习能够在数字孪生构建过程中调整参数。作者在[2]中使用扩展卡尔曼滤波进行云计算环境下的数字孪生构建,并根据估计误差动态更新数字孪生,以更好地拟合真实环境。为提高数字孪生保真度,我们开发了一种不确定性感知的鲁棒近端策略优化算法,该算法利用数字孪生环境中的不确定性来激励近端策略优化智能体探索真实环境。如此,近端策略优化智能体在数字孪生中学习到更精确的控制策略,从而在部署到现实世界时获得更好的性能。

(图1说明)
多无人机辅助安全通信。
系统模型
如图1所示,我们考虑一个多无人机辅助的安全感知网络,包括两组地面用户和合法无人机,分别记为 𝒬 = {1, 2, …, Q} 和 𝒵 = {1, 2, …, Z}。地面用户和合法无人机均配备单天线。所有合法无人机协同从地面用户收集数据,并通过其他合法无人机进行单跳或多跳中继转发到基站。合法无人机之间的无人机间连接可以被视为一种网络形成策略,该策略可根据合法无人机的轨迹进行自适应重构,以提高感知覆盖和传输效率[6]。此外,一架窃听无人机在同一服务区域内运行,试图截获来自地面用户或合法无人机的数据传输。因此,合法无人机的目标是提高安全感知性能,同时抑制窃听无人机的窃听能力。
时隙飞行、感知与转发
我们采用时隙帧结构,时间槽集合记为 𝒯 ≜ {1, 2, …, T}。合法无人机的每个时隙 t 被划分为三个子时隙:飞行子时隙 t_f^l、数据收集子时隙 t_c^l 和数据转发子时隙 t_r^l。在每个时隙 t 内,每架合法无人机首先在 t_f^l 中飞往指定位置,然后在 t_c^l 中从地面用户收集感知数据,最后在 t_r^l 中将收集到的数据转发给基站。数据收集子时隙 t_c^l 中的无人机-地面用户关联由一个二元矩阵 X(t) = [x_{q,z}(t)]{q∈𝒬, z∈𝒵} 表示,其中 x{q,z}(t) = 1 表示地面用户 q 被调度向合法无人机 z 传输数据。在数据转发子时隙中,每架合法无人机可以选择直接向基站传输数据,或通过其他合法无人机中继数据。这种协同中继由一个动态网络形成策略决定。为统一符号,我们将基站索引为合法无人机 0,其固定位置为 ℓ₀。定义扩展节点集 ℱ = 𝒵 ∪ {0},包括所有合法无人机和基站。t_r^l 期间的网络拓扑由一个二元邻接矩阵 Φ(t) = {φ_{z,f}(t)}{z∈𝒵, f∈ℱ} 描述。对于任意 z ≠ f,如果 φ{z,f}(t) = 1,则表示在子时隙 t_r^l 中,合法无人机 z 和 f 之间存在一条活跃通信链路。为简化,我们假设每个地面用户最多向一架合法无人机传输数据,且每架合法无人机仅将其数据转发至最多一个下一跳节点,这意味着以下调度和网络形成约束:

假设窃听无人机也以时隙方式运行。每个运行时隙包括一个飞行子时隙 t_f^e 和一个窃听子时隙 t_m^e。窃听无人机首先在 t_f^e 中飞往一个窃听位置,然后在子时隙 t_m^e 中拦截来自地面用户或合法无人机的潜在数据传输。为简化,我们假设窃听无人机的时隙操作与合法无人机同步。具体而言,我们设 t_f = t_f^l = t_f^e,这意味着窃听无人机正是在地面用户或合法无人机积极传输感知数据时开始其窃听活动。
针对移动窃听的主动干扰
合法无人机在第一个子时隙 t_f^l 中的轨迹规划不仅要确保避免碰撞,还要旨在最大化对所有地面用户的服务能力。为方便标记,我们将第 z 架合法无人机称为无人机 z,z ∈ 𝒵,并将窃听无人机称为无人机 e。对于所有 i ∈ 𝒵 ∪ {e},无人机 i 的轨迹定义为不同时隙中位置的序列 ℒ_i = {ℓ_i(1), …, ℓ_i(t)}。不失一般性,我们假设所有无人机保持相同高度 H。地面用户 q 的位置由 𝒌_q 给出。为确保安全运行,所有无人机的轨迹需满足以下约束以避免碰撞并符合最大速度限制:

其中 d_m 表示无人机之间的最小距离,v_m 表示无人机的最大速度。
窃听无人机的目标是窃听从地面用户或合法无人机的传输。为了增强安全传输性能,我们允许合法无人机动态切换到主动干扰模式,在此模式下它们向窃听无人机波束成形人工噪声,以破坏其接收。主动干扰与轨迹规划的联合设计显著提高了系统对抗窃听攻击的鲁棒性。令二元矩阵 Ψ(t) = {ψ_z(t)}_{z∈𝒵} 表示每个合法无人机在数据传输或干扰模式下的运行状态。当 ψ_z(t) = 1 时,无人机 z 发射人工噪声以降低窃听无人机的窃听能力。当 ψ_z(t) = 0 时,无人机 z 参与合法数据转发。具体而言,模式选择可受如下约束:

通过动态切换合法无人机在干扰和数据传输模式之间的角色,系统利用多无人机协同控制,根据瞬时信道条件、流量需求和资源可用性,增强保密速率性能。
窃听无人机的窃听速率
窃听地面用户的传输
令 d_{q,i}(t) = ‖ℓ_i(t) – 𝒌_q‖ 表示时隙 t 无人机 i 与地面用户 q 之间的距离。它们之间的 G2U 信道建模为 h_{q,i}(t) = β_{q,i} tilde{h}{q,i}(t),其中 β{q,i} = ω₀ (d_{q,i}(t))^{-α} 代表大尺度衰落,tilde{h}{q,i}(t) = √(K/(1+K)) h{q,i}^{LoS} + √(1/(1+K)) h_{q,i}^{NLoS} 建模包含视距和非视距分量的小尺度衰落。莱斯因子 K 决定了视距和非视距分量的相对权重。因此,从地面用户 q 到合法无人机 z 的传输速率 R_{q,z}(t) 建模如下:

其中 σ_q² 是噪声功率,p_o 表示地面用户 q 的恒定发射功率。项 I_{q,z}(t) 表示从其他地面用户接收到的干扰功率,因此由下式给出:

注意,合法无人机的主动干扰信号也可能对无人机 z 的信号接收引入干扰功率。在本文中,我们假设合法无人机的干扰信号对所有合法无人机都是已知的,因此可以在 (4) 中消除。无人机 e 从地面用户 q 的数据传输中获得的窃听速率表示如下:

其中 I_{q,e}(t) 是地面用户的干扰功率,其定义与 (5) 类似,额外项 G_{q,e}(t) 表示由合法无人机主动干扰信号引起的干扰功率,表示如下:

其中 p_j 是干扰功率。注意,合法无人机的目标是尽可能多地从地面用户收集感知数据,并可能靠近它们以提高传输速率 R_{q,z}(t)。然而,窃听无人机可能同时移近合法无人机,从而增加其窃听速率 R_{q,e}(t)。这促使合法无人机动态切换到干扰模式以抑制窃听。
窃听合法无人机的传输
在数据转发子时隙 t_r^l 中,从无人机 z 到无人机 f 的数据速率如下:

其中 p_z 是无人机 z 的发射功率,I_{z,f}(t) = ∑{z'≠z, z'∈𝒵} φ{z',f}(t) p_{z'} |h_{z',f}(t)|² 是来自其他同时传输的无人机的信道干扰。与 (4) 类似,我们假设合法无人机的干扰信号对无人机 f 是已知的,因此可以在 (8) 中消除。类似地,窃听无人机可能窃听合法无人机的转发数据传输。从无人机 z 的数据传输中获得的窃听速率可评估如下:

其中 I_{z,e}(t) 是窃听无人机处的合法无人机干扰,G_{z,e}(t) 表示由合法无人机主动干扰信号引起的干扰功率,类似于 (7)。为简洁起见,此处省略详细表达式。因此,结合 (6) 和 (9),无人机 e 在第 t 个时隙的总窃听速率可表示如下:

窃听速率 ℰ(t) 衡量了在地面用户和合法无人机的数据传输过程中发生的数据泄露量。
合法无人机的保密速率性能
令 W_q(t) 表示地面用户 q 的数据队列,随着合法无人机的数据收集而减少,并在每个时隙随机增加 d_q。因此,地面用户 q 的数据队列演化如下:

其中 [X]⁺ = max{0, X} 表示最大值操作。在第 t 个时隙,无人机 z 从地面用户接收的数据量为 ∑{q∈𝒬} t_c^l R{q,z}(t)。因此,无人机 z 的数据缓冲区 D_z(t) 将如下演化:

数据缓冲区 D_z(t) 受限于合法无人机的最大缓冲区容量 D_x。如果数据大小 D_z(t) ≥ D_x,合法无人机将丢弃多余数据。基站在第 t 个时隙接收的总吞吐量评估如下:

考虑到窃听无人机的窃听风险,我们旨在最大化合法无人机的总吞吐量,同时最小化窃听无人机的窃听速率。为此,我们将系统在第 t 个时隙的安全吞吐量定义如下:

其中 λ 是一个权重参数,用于平衡合法无人机的传输能力与其窃听风险。λ 值越高,表示系统对窃听攻击越敏感。
面向安全吞吐量最大化的斯塔克尔伯格博弈
合法无人机与窃听无人机之间的交互可以建模为一个多阶段斯塔克尔伯格博弈。如图1所示,斯塔克尔伯格博弈的构建涉及两个智能体,通常是领导者和跟随者,它们基于对方的策略和当前的动态网络条件依次做出最佳响应决策。特别是,合法无人机作为领导者,首先确定一个安全传输策略,以从地面用户收集感知数据,同时防御窃听无人机的窃听攻击。作为响应,窃听无人机作为跟随者,通过优化其飞行轨迹来调整其窃听策略,以最大化窃听吞吐量。在下一步,合法无人机通过考虑地面用户当前的流量需求和窃听无人机最新的窃听行为来重新优化其策略。
领导者和跟随者的速率最大化
作为领导者,在给定窃听无人机的窃听策略下,合法无人机专注于通过优化地面用户的传输控制 X(t) ≜ {x_{q,z}(t)}{z∈𝒵, q∈𝒬}、合法无人机的轨迹规划 L(t) ≜ {ℓ_z(t)}{z∈𝒵}、网络形成 Φ(t) ≜ {φ_{z,f}(t)}{z∈𝒵, f∈ℱ} 以及模式选择 Ψ(t) ≜ {ψ_z(t)}{z∈𝒵} 来最大化整体安全吞吐量 𝒰(t),可表述如下:

合法无人机在第 t 个时隙的感知吞吐量 u(t) 取决于数据收集和数据转发阶段的传输速率 (R_{q,z}(t), S_{z,f}(t))。地面用户的传输速率 R_{q,z}(t) 决定了每架合法无人机可以收集多少数据,这反过来又限制了每架合法无人机可以转发到基站的最大数据量 S_{z,0}(t)。为避免窃听攻击并降低 ℰ(t),合法无人机还可以动态规划其感知轨迹以远离窃听无人机,或智能地切换到干扰模式以抑制其窃听。因此,(15) 中的合法无人机保密速率最大化问题联合优化了地面用户调度 X(t)、无人机轨迹规划 L(t)、网络形成 Φ(t) 和模式选择 Ψ(t)。注意,问题 (15) 是一个非线性混合整数规划问题,难以高效求解。
一旦合法无人机通过求解问题 (15) 找到其最优策略,窃听无人机可以观察合法无人机的策略更新,并通过求解以下速率最大化问题迅速调整其飞行轨迹 ℓ_e(t) 以增强窃听吞吐量:

这里,我们假设窃听无人机是一个强大的窃听者,能够在其轨迹上同时拦截来自地面用户和合法无人机的所有数据传输。
在斯塔克尔伯格博弈模型中,我们采用不同的效用函数来量化博弈参与者在各自策略下的奖励。为简化符号,令 π_u 表示合法无人机的安全传输策略,π_e 表示窃听无人机的窃听策略。根据 (15) 和 (16) 中的各自最大化问题,合法无人机在整个任务期间的效用函数可以定义为 U_u(π_u | π_e) = 𝔼[𝒰(t)],而窃听无人机的效用函数为 U_e(π_e | π_u) = 𝔼[ℰ(t)]。因此,我们可以将无人机辅助安全传输博弈表示为 𝔾 = ⟨{𝒵, {e}}, {π_u, π_e}, {U_u, U_e}⟩,包括两组参与者 {𝒵, {e}},各自的个体控制策略 {π_u, π_e} 和效用函数 {U_u, U_e}。两个参与者(即合法无人机和窃听无人机)交替地单独更新其策略以最大化自身效用。具体来说,给定对手的策略,每个参与者通过求解 (15) 或 (16) 中的速率最大化问题来选择其最佳响应以改进效用。
用于速率最大化的通用深度强化学习方法
无模型深度强化学习非常适合复杂的网络环境,因为它不需要环境模型或先验知识。它通过仅使用观察到的状态,以试错的方式学习最优策略。因此,我们首先将问题 (15) 和 (16) 重构为马尔可夫决策过程,为序贯决策提供数学建模。马尔可夫决策过程由三元组 <𝒮, 𝒜, ℛ> 定义,分别表示状态、动作和奖励空间。
对于合法无人机的保密速率最大化问题 (15),第 t 个时隙的状态由所有无人机的信息 𝐬_l(t) = {L(t), R(t), S(t), D(t)} 组成,包括所有无人机的位置 L(t) = {ℓ_i(t)}{i∈ℐ}、合法无人机的数据缓冲区 D(t) = {D_z(t)}{z∈𝒵},以及数据感知和转发阶段无人机的传输速率 R(t) = {R_{q,z}(t)}{q∈𝒬, z∈𝒵} 和 S(t) = {S{z,f}(t)}_{z∈𝒵, f∈ℱ}。合法无人机的动作 𝐚_l(t) 包括所有合法无人机的轨迹规划 L(t)、无人机-地面用户调度策略 X(t)、网络形成 Φ(t) 和模式选择 Ψ(t)。奖励取决于状态和合法无人机的动作,与优化目标中的安全吞吐量奖励 𝒰(t) 相关,定义如下:

其中 μ₁ 和 μ₂ 是结合奖励中两个惩罚项的权重系数。第二项 r_f(t) = ∑{z,z'∈𝒵} 𝐈(‖ℓ_z(t)-ℓ_z'(t)‖ ≤ d_min) 强制执行无人机之间的最小安全距离,其中 𝐈(·) 是指示函数,在满足约束时返回 1,否则返回 0。当无人机违反安全阈值时,惩罚项施加负值。第三项 r_v(t) = ∑{z∈𝒵} 𝐈(‖ℓ_z(t+1)-ℓ_z(t)‖ ≥ t_f v_m) 限制合法无人机的速度低于最大速度 v_m。
对于窃听无人机的速率最大化问题 (16),第 t 个时隙的状态 𝐬_e(t) 包括所有无人机的位置 L(t)、从地面用户到窃听无人机的窃听速率 𝐑_e(t) = {R_{q,e}}{q∈𝒬}、从合法无人机到窃听无人机的窃听速率 𝐒_e(t) = {S{z,e}}_{z∈𝒵}。动作 𝐚_e(t) 由窃听无人机的轨迹规划 ℓ_e(t) 组成。窃听无人机的奖励可表示如下:

其中 μ_e 是结合窃听速率 ℰ(t) 和确保运行安全的惩罚项的权重系数,如下所示:

一旦构建为马尔可夫决策过程问题,合法无人机和窃听无人机的速率最大化问题就可以通过使用深度强化学习方法与环境交互来解决。例如,由于近端策略优化算法通过裁剪概率比率来约束策略更新,具有训练稳定性,我们可以直接采用它[20]。
模型失配下用于快速学习的数字孪生赋能的同时学习与建模框架
尽管问题 (15) 和 (16) 已完全构建,并且原则上可以通过深度强化学习求解,但在真实环境中直接训练无人机引发了以下担忧:
-
高交互开销:深度强化学习需要频繁与真实环境交互以收集反馈观测值并更新策略。在无人机辅助通信网络中,此类交互涉及大量信息交换,消耗大量频谱和能源资源。由于无人机辅助网络中的这两种资源本就有限,当网络规模较大时,这一要求构成了显著的实际挑战。
-
在未知环境中探索效率低下:深度强化学习依赖于持续的试错探索来发现有效策略,当环境动态未知或高度动态时,这一点尤其具有挑战性。在我们的场景中,窃听无人机不可预测的行为和地面用户时变的流量需求,使得合法无人机难以高效探索状态-动作空间,导致实际训练性能不稳定。
为了开发一种能够在现实环境中高效训练且可靠执行的实用深度强化学习算法,我们提出了数字孪生赋能的同时学习与建模框架来解决上述局限性。通过允许深度强化学习智能体在数字孪生而非真实环境中进行训练,所提出的框架显著减少了与现实世界的交互,加速了策略学习,并确保了安全探索,而不会干扰正常的网络操作。为了缓解数字孪生与现实环境之间可能存在的失配,我们进一步引入了鲁棒近端策略优化算法,该算法不仅提高了学习效率,还积极使数字孪生与现实环境对齐,从而确保在实际约束下进行鲁棒且自适应的策略学习。

(图2说明)
采用鲁棒近端策略优化算法的数字孪生赋能的同时学习与建模框架。
数字孪生技术提供了真实世界环境的轻量级虚拟副本。这种虚拟代理使得能够模拟交互,取代代价高昂的现实世界试验,从而加速深度强化学习收敛。如图2所示,数字孪生赋能的同时学习与建模框架由孪生间学习和孪生内更新循环组成。在孪生间学习循环中部署一个深度强化学习智能体,以优化其策略,而无需直接与真实环境交互。孪生内循环基于合法无人机定期采样的观测值更新数字孪生模型。具体而言,给定一个最新的真实网络数字孪生模型,我们将无人机控制问题重构为数字孪生增强的马尔可夫决策过程。深度强化学习智能体在此虚拟环境中进行训练,其中丰富且低成本的观测值促进了快速策略学习。一旦收敛,学习到的策略将部署到真实网络中,显著减少了原本用于真实环境交互的时间和资源。此外,无人机在真实网络环境中执行动作会生成新的感知数据,捕捉动态的用户流量需求、时变的信道状态,甚至包括窃听无人机窃听等对抗性行为。这些真实世界的数据随后被反馈以优化和更新数字孪生模型,确保其与网络环境的真实动态保持同步对齐。
孪生间快速学习
从初始数字孪生开始,无人机控制问题被构建为马尔可夫决策过程,并在虚拟环境中使用深度强化学习算法求解,从而在不产生现实世界部署成本的情况下实现快速收敛。在孪生间学习循环中,深度强化学习智能体持续与数字孪生交互,以优化安全传输吞吐量并探索高价值感知区域。通过精确建模和跟踪系统动态,数字孪生模拟了物理网络的关键方面,包括时变的信道和能量状态、地面用户和无人机的缓冲区状态、地面用户流量需求的演变以及无人机的移动模式。这使得数字孪生能够随着深度强化学习智能体在虚拟环境中执行动作来预测未来的网络状态转换。这种孪生间学习循环可以非常快,无需实际时间开销来观察实际系统转换,也无需在试错过程中低效消耗资源。
孪生内建模更新
一个精确的数字孪生对于孪生间深度强化学习智能体学习能够良好泛化到真实网络的策略至关重要。然而,在实践中,获取构建数字孪生模型所需的完整且精确的网络信息通常是不可行的或代价高昂的,尤其是在以随机信道波动和时变流量需求为特征的动态无线环境中。这些固有的不确定性要求数字孪生模型能够利用从现实世界收集的实时观测和数据样本进行持续优化。这一需求催生了如图2所示的孪生内建模更新循环。在孪生间深度强化学习训练之后,收敛的策略被部署到真实网络中以累积安全吞吐量性能。在此执行阶段,无人机积极探索环境,同时收集新的数据样本,如信道测量、流量模式和移动轨迹,这些数据随后被反馈到孪生内学习循环中。
基于这些新获取的现实世界样本,数字孪生模型可以通过多种方法增强,包括数据驱动的概率估计或无模型学习技术。具体而言,一种无模型的孪生内学习方法可以利用深度神经网络[25]来逼近底层的状态-转换动态。深度强化学习策略执行期间收集的数据提供了额外的标记转换样本,从而为后续的孪生间训练迭代改进了学习到的动态模型的保真度。或者,一种更轻量级的方法是采用贝叶斯推理进行概率建模。例如,为了估计地面用户的流量需求空间分布,我们可以基于历史感知数据,维护一个关于可能需求模式的后验分布。随着合法无人机从地面用户收集新的流量观测值,这个后验分布会实时更新,产生一个越来越精确的地面用户流量需求分布表示,这对于在数字孪生环境中进行策略学习已经足够。
捕获模型失配
孪生间深度强化学习智能体旨在通过策略性的动作选择和环境探索来最大化长期安全吞吐量。在真实网络中执行动作也会产生有价值的数据,这些数据通过孪生内更新循环增强了数字孪生的准确性。这在策略学习和模型优化之间建立了紧密的耦合,即深度强化学习智能体不仅寻求最优控制决策,还通过在执行期间收集信息丰富的样本来在优化数字孪生中扮演积极角色。为了明确地处理这种权衡,我们提出量化数字孪生的模型失配,即数字孪生预测的动态与实际系统行为之间的差异,并将此指标作为惩罚项纳入深度强化学习智能体的奖励函数。因此,智能体不仅被激励去实现高吞吐量性能,还被激励通过动作探索来减少模型失配,从而加速深度强化学习智能体策略与数字孪生模型的协同演化。
孪生内建模更新
在这一部分,我们提出一个轻量级的实现方法,利用从现实世界网络交互中新收集的采样数据来更新数字孪生模型。我们的方法不致力于维护一个完全精确、能够复制整个物理环境的数字孪生,而是专注于捕捉直接影响合法无人机感知和传输性能的关键网络因素的时变动态。这些因素包括地面用户的信道条件 𝐡(t) = {h_{q,z}(t)}_{q∈𝒬, z∈𝒵} 和窃听无人机的轨迹点 ℓ_e(t)。因此,我们的轻量级数字孪生利用数据驱动的预测和概率代理模型来捕捉这些网络因素的变化。高斯过程回归是一种非参数贝叶斯方法,用于在数据驱动建模中进行精确预测和不确定性量化。它将底层动态视为一个随机过程,估计一个与观测数据一致的完整后验分布。由于高斯过程回归不需要预定义的模型结构,它可以无缝应用于时变的多无人机网络,而无需环境动态的先验知识。此外,高斯过程回归提供的不确定性估计有助于我们设计鲁棒近端策略优化,以促进更精确的数字孪生建模。
如图2所示,高斯过程回归在基站处部署,以根据合法无人机报告的局部观测值重建环境状态的完整表示。基于当前网络观测,每架合法无人机利用先验知识来细化其对地面用户信道条件和窃听无人机位置的估计。这些更新的网络状态随后被整合到数字孪生中,并在合法无人机之间共享,作为孪生间协同学习的信息输入。令 𝜼(t) = {𝐡(t), ℓ_e(t)} 表示合法无人机在第 t 个时隙与网络环境的交互观测值。每架合法无人机定期向基站报告 𝜼(t),从而能够构建一个捕捉 𝜼(t) 底层动态的概率模型。到第 t 个时隙,累积的历史信息记为 ℳ_t = {𝜼(t)}_{t∈ℋ_t},其中 ℋ_t 表示保留最近合法无人机与真实环境交互的时间窗口。这个内存缓冲区 ℳ_t 捕捉了近期网络环境的时变演化。利用 ℳ_t,数字孪生可以更新服务区域内所有位置的网络状态。这种数据驱动的估计使我们能够理解网络在近期将如何演化。因此,它实现了一个轻量级的数字孪生环境,能够准确反映与性能优化问题和孪生间深度强化学习策略学习密切相关的网络状态预期变化,而无需进行全尺寸模拟或详尽的感知。
动作执行期间准备数据样本
当深度强化学习智能体在真实网络环境中执行其动作并因此获得用于更新数字孪生模型的新数据样本时,历史数据 ℳ_t 可以每次更新。具体而言,在执行动作期间,每架合法无人机可以移动到下一个轨迹点,并从地面用户接收新的感知数据。在每个位置接收到的感知数据量有助于估计地面用户流量的地理分布。考虑到无人机辅助无线环境的动态性,每架合法无人机可能会多次访问同一位置或服务同一组地面用户。不同的合法无人机也可能在其轨迹的不同时隙访问同一位置。随着网络快速变化,合法无人机在同一位置的观测值可能彼此差异很大。这要求我们设计一种数据融合机制,以避免矛盾的数据样本,并为通过高斯过程回归方法更新数字孪生模型准备采样数据。
数据融合机制的一个简单实现是确保在不同时隙收集的数据样本的一致性,即如果新数据样本在先前数据集 ℳ_{t-1} 中不存在,我们只需将其追加到历史数据集 ℳ_t 中;否则,我们用新的采样数据替换过时的观测值。具体而言,对于任何 z ∈ 𝒵,令 δ_z(ℳ_{t-1}) 表示 ℳ_{t-1} 中相对于合法无人机 z 当前位置 ℓ_z(t) 在短距离 δ_min 内收集的数据样本集,如下所示:

其中 𝐬_j 表示 ℳ_{t-1} 中的第 j 个数据样本,ℓ_{z,j} 表示当 𝐬_j 被收集时合法无人机 z 的位置。当两架合法无人机彼此靠近时,我们假设它们对网络状况有相同的观测。当 δ_z(ℳ_{t-1}) = ∅ 时,表明合法无人机 z 的新采样数据是在不同位置收集的。因此,我们可以简单地将新观测值 𝜼(t) 追加到历史数据中,即 ℳ_t = ℳ_{t-1} ∪ {𝜼(t)}。否则,我们将 δ_z(ℳ_{t-1}) 中的过时观测值替换为新观测值 𝜼(t)。如此,对于任何合法无人机 z 与真实网络的交互,我们可以用紧凑形式表述启发式数据融合如下:

融合机制 (20) 表示 ℳ_t 中可能过时且可能与当前观测值 𝜼(t) 矛盾的旧观测值 δ_z(ℳ_{t-1}) 应从历史数据集 ℳ_t 中移除,以确保数据一致性。
通过高斯过程回归更新数字孪生模型
每个网络状态在数字孪生模型中并行更新。令 𝐱(t) ∈ 𝜼(t) 表示来自真实环境的特定网络变量的最新观测值。数字孪生中的网络状态 𝐱̂(t) 预测如下:

其中 ϵ ∼ 𝒩(𝟎, σ₁² 𝐈) 表示方差为 σ₁² 的独立高斯噪声。函数 f_t(·) 表示一个基于历史观测 ℳ_t 学习的高斯过程回归转移函数,它预测下一个时隙的地面用户信道条件和窃听无人机位置。具体而言,函数 f_t(·) 被建模为一个高斯过程,如下所示:

其中 m(𝐱) 是均值函数,k(𝐱, 𝐱′) 是量化两个网络状态之间相关性的核函数。核函数中的输入 𝐱 和 𝐱′ 代表从历史观测集 ℳ_t 中抽取的不同状态样本。遵循高斯过程建模的常见做法,我们采用零均值先验,即 m(𝐱) = 0,类似于[4]中的方法。核函数采用平方指数核,即 k(𝐱, 𝐱′) = α_t² exp(-‖𝐱 – 𝐱′‖² / (2 l_t²)),其中 α_t 控制预测网络状态的整体方差,l_t 是决定学习函数对输入状态变化敏感度的长度尺度参数。因此,α_t 和 l_t 塑造了转移函数 f_t(·) 的平滑度和灵活性。为确保 f_t(·) 准确反映 ℳ_t 中观测到的动态,我们通过最大化历史数据的边际似然来优化超参数 α_t 和 l_t,如下所示:

其中 𝐗 和 𝐘 表示从观测集 ℳ_t 中提取的历史输入状态矩阵和相应的输出标签矩阵。函数 p(·) 是从高斯过程先验推导出的边际似然。因此,数字孪生预测网络状态 𝐱̂(t) 如下:

其中 σ₂² 表示观测噪声的方差。详细推导遵循[4]中的方法,为简洁起见,此处省略。
模型失配下的孪生间快速学习
在数字孪生赋能的同时学习与建模框架中,无人机在数字孪生模型中进行训练。我们期望在数字孪生中学习到的无人机策略可以直接部署到真实环境中。然而,如果数字孪生与实际网络动态存在显著差异,由此产生的策略在实际应用时可能会表现出性能下降。因此,深度强化学习在数字孪生中的应用不仅要优化目标吞吐量性能,还要通过确保准确建模时变网络动态,积极促进数字孪生与现实世界环境之间的保真度。
除了状态预测,高斯过程回归还以预测方差的形式固有地提供不确定性量化。这种不确定性估计反映了数字孪生对环境的重建置信度,特别是在合法无人机观测稀疏的区域。因此,通过将此不确定性纳入深度强化学习奖励函数,智能体可以提高其采样效率,并在部署到现实世界时加速适应。通过高斯过程回归,可以如下计算数字孪生中的网络状态 𝐱̂(t) 与真实环境中的实际网络状态 𝐱(t) 之间的不确定性:

其中 c(𝐱̂(t) | f_t) 表示在估计网络状态 𝐱̂(t) 处数字孪生的预测方差。c(𝐱̂(t) | f_t) 值越大,表明预测的数字孪生状态与真实环境中的真实状态之间的失配越大。直观地说,高预测方差意味着数字孪生在状态空间的相应区域中拥有有限或稀疏的观测数据。这表明合法无人机应优先从这些不确定区域收集额外的真实世界样本,以优化数字孪生并更好地捕捉底层网络动态。为了利用这一洞察,我们提出了鲁棒近端策略优化算法,该算法将预测不确定性 c(𝐱̂(t) | f_t) 明确纳入深度强化学习奖励函数的设计中。鲁棒近端策略优化有两个目的。首先,它指导合法无人机在数字孪生中学习高效且安全的数据收集策略。其次,它鼓励合法无人机在现实世界部署期间探索不确定区域,从而促进更精确的数字孪生建模。
具体而言,我们采用近端策略优化作为深度强化学习算法,在数字孪生中学习无人机控制策略。无人机与数字孪生之间的交互被建模为马尔可夫决策过程,由元组 ⟨𝒪̂, 𝒜̂, ℛ̂⟩ 定义,其中 𝒪̂ 表示由通过高斯过程回归获得的数字孪生预测网络状态组成的观测空间。𝒜̂ 表示合法无人机的联合动作空间,ℛ̂ 是指导策略学习的奖励函数。为简洁起见,我们在以下数字孪生公式中省略了时间索引。动作 a ∈ 𝒜̂ 定义为 {ψ_z, ℓ_z, x_{q,z}, φ_z}_{z∈𝒵}。奖励函数 r ∈ ℛ̂ 定义如下:

其中 r_c 由 (26) 定义,用于捕捉安全吞吐量性能,非负权重 κ ≥ 0 平衡任务性能与探索行为之间的权衡。奖励 (26) 表明合法无人机不仅旨在提高数字孪生中的传输效率,还被鼓励去探索数字孪生模型表现出高不确定性的区域。当部署到现实世界环境中时,这种探索驱动合法无人机从未充分探索的区域收集信息丰富的观测值,从而在下一次更新轮次中实现更精确的数字孪生建模。
采用鲁棒近端策略优化的数字孪生赋能的同时学习与建模框架总结于算法1中,该算法包含两个嵌套循环。在外循环中,高斯过程回归模型参数被初始化,并使用新获得的真实世界信道观测值定期更新,以确保数字孪生与真实环境对齐。在数字孪生内部,内循环执行所提出的鲁棒近端策略优化以优化无人机的控制策略。策略定期更新并部署到合法无人机上,这些无人机与环境的交互产生的新鲜数据进一步优化数字孪生。此迭代过程持续进行,直到最终为在真实环境中运行的所有合法无人机获得稳定的策略。
算法 1 用于无人机传输控制的数字孪生赋能鲁棒近端策略优化
1: 初始化所有无人机的高斯过程回归和深度神经网络参数。
2: for t = 1, 2, …, T do
3: % 在真实环境中执行无人机策略
4: 无人机执行由近端策略优化适配的动作
5: 记录收集的数据 δ₂
6: 返回历史数据集 ℳ_t
7: % 同步数字孪生与真实环境
8: 训练环境高斯过程回归估计器 f_t(𝐱)
9: 评估模型失配 c(𝐱̂(t) | f_t)
10: 通过高斯过程回归更新数字孪生
11: % 在数字孪生中优化无人机策略
12: 获取数字孪生的当前状态 𝐱̂(t)
13: 根据近端策略优化执行动作 a
14: 转换到下一状态并返回奖励 r
15: 更新行动者-评论家网络参数
16: end for
数值结果
表 I:仿真中的参数设置。
| 参数 | 设置 |
|---|---|
| 地面用户发射功率 p_q | 26 dBm |
| 无人机飞行高度 H | 100 m |
| 背景噪声功率 σ² | -90 dBm |
| 无人机最大速度 v_m | 20 m/s |
| 无人机安全距离 d_m | 5 m |
| 行动者学习率 | 10⁻⁴ |
| 评论家学习率 | 10⁻³ |
| 奖励折扣因子 | 0.95 |
| 经验回放池大小 | 1500 |
| 小批量大小 | 150 |
| ε-贪婪系数 | 0.1 |
本节呈现数值结果,以评估所提出的鲁棒近端策略优化算法和无人机模式切换干扰策略在多无人机安全通信网络中的性能。我们考虑一个场景,其中有 M = 3 架无人机在一个 2000×2000 m² 区域内随机分布的 K = 30 个地面用户处收集数据。无人机-地面用户链路遵循莱斯衰落模型,而无人机-无人机通信假设以视距传播为主。其他仿真参数总结于表 I。
鲁棒近端策略优化的收敛性能
(图3说明)

(a) 不同交互频率下的安全吞吐量。

(b) 鲁棒近端策略优化算法的收敛性能。
图3评估了数字孪生赋能鲁棒近端策略优化框架的学习性能。在该框架中,数字孪生模型作为智能体训练的代理环境,使得无需与物理系统直接交互即可高效开发策略。我们将数字孪生赋能鲁棒近端策略优化与两种方案进行比较:完全了解地面用户流量并与真实环境直接交互的标准近端策略优化算法(称为理想近端策略优化)以及在数字孪生赋能的同时学习与建模框架内训练但未进行显式不确定性建模的近端策略优化(称为数字孪生-近端策略优化)。
我们首先研究了随着无人机与真实环境交互频率的变化,安全吞吐量的变化情况,如图3(a)所示。x轴表示无人机与真实环境的交互次数,每次无人机收集信息计为一次交互。y轴表示实现的安全吞吐量,反映了学习策略在真实环境中的有效性。初始阶段,两种基于数字孪生的方法都表现出比理想近端策略优化更快的性能提升,展示了在模拟环境中训练的高效性。数字孪生-近端策略优化和鲁棒近端策略优化曲线在大约4000次交互时收敛,而理想近端策略优化需要大约5000次交互,表明使用数字孪生使收敛时间减少了20%。最终,鲁棒近端策略优化达到了与理想近端策略优化相当的性能,表明数字孪生准确地捕捉了真实环境的动态。相比之下,在训练过程中,数字孪生-近端策略优化与鲁棒近端策略优化之间不断扩大的性能差距揭示了在缺乏不确定性感知的情况下建模误差的累积,从而突显了在基于仿真的学习中管理不确定性的至关重要性。
图3(b)展示了在多阶段斯塔克尔伯格博弈下合法无人机和窃听无人机的训练过程。训练过程交替优化合法无人机的安全通信策略和更新窃听无人机的窃听策略以提高拦截性能。红色曲线代表窃听无人机的训练进度,所有情况下都使用相同的近端策略优化算法进行学习。在合法无人机训练期间,轨迹规划、模式选择和干扰协调的改进增加了整体奖励。当窃听无人机训练时,它增强了窃听性能,暂时降低了整体奖励。这种交替持续到奖励稳定,表明收敛到斯塔克尔伯格均衡。与理想近端策略优化相比,鲁棒近端策略优化实现了更快的收敛和更平滑、更稳定的奖励曲线。数字孪生使得用更少的真实世界交互进行高效探索成为可能,提高了训练稳定性。在窃听无人机再训练期间奖励下降幅度较小表明,鲁棒近端策略优化训练的合法无人机对窃听更具鲁棒性,因为数字孪生隐式建模了对抗性行为,使主动防御学习成为可能。相比之下,数字孪生-近端策略优化表现出明显的振荡。有限的真实环境反馈导致探索不足,导致合法无人机轨迹重叠次优。这导致基于高斯过程回归的数字孪生模型产生更大的拟合误差,增加了模拟与现实的差距,导致在实际部署中安全吞吐量降低。

(图4说明)
不同干扰策略下的奖励性能。
图4比较了在不同无人机干扰策略下,数字孪生赋能鲁棒近端策略优化算法实现的累积平均奖励。第一种策略称为模式切换,对应于所提出的机制,其中每架无人机动态选择充当数据中继或干扰机以破坏窃听者。第二种策略称为固定干扰,将一架无人机专门分配给干扰,而其他无人机则专用于转发来自地面用户的数据。第三种情况是无干扰,完全禁用主动干扰,无人机仅通过轨迹调整和调度来尝试避免窃听。可以观察到,基于干扰的方案的累积平均奖励首先增加,然后收敛到一个稳定值。这表明鲁棒近端策略优化算法能够为合法无人机获得稳定的数据收集和轨迹策略。无干扰方案最初实现了高奖励。然而,由于没有针对窃听无人机的干扰,窃听随时间加剧,最终降低了整体奖励。还可以观察到,固定干扰和无干扰方案实现了可比的性能。这是因为固定干扰分配不加选择地干扰双方。相比之下,模式切换方案使合法无人机能够根据实时威胁状况智能、灵活地分配其角色。因此,模式切换方案突显了其在提高安全吞吐量方面的卓越有效性。
我们进一步检查了模式切换和无干扰方案下合法无人机和窃听无人机的累积平均吞吐量,如图5所示。为清晰起见,我们将第 i 架合法无人机记为无人机 i。在模式切换方案下,窃听无人机的吞吐量稳定在约 2,低于无干扰方案下的 3。尽管由于花费在干扰模式上的时间,合法无人机的吞吐量略有下降,但这种权衡有效地抑制了窃听并提高了整体安全通信。这验证了所提出的模式切换策略在对抗窃听威胁方面的有效性。
不同干扰模式下的轨迹规划
为了研究不同干扰机制对合法无人机安全传输策略的影响,我们展示了在存在窃听无人机的情况下,三种场景下多架无人机的轨迹和网络拓扑:模式切换、固定干扰和无干扰。图6(a)展示了当鲁棒近端策略优化算法在存在窃听无人机的情况下收敛时,三架无人机的部分飞行路径和通信拓扑。在模式切换机制下,窃听无人机无法持续跟踪任何一架合法无人机进行窃听,因为每架合法无人机都可以动态切换到干扰模式以破坏其监视。最初,窃听无人机接近无人机3以拦截其传输。在检测到此威胁后,无人机3切换到主动干扰,促使窃听无人机将其注意力转向无人机1。当无人机1也激活其干扰能力时,窃听无人机撤退到任务区域中心。从这个中心位置,它保持与所有合法无人机的接近,并沿着合法无人机与基站之间可能的中继路径对齐,试图最大化其窃听机会。尽管存在持续的威胁,无人机1、无人机2和无人机3实现了有效的协调。它们在数据收集中表现出明确的分工,轮流执行干扰。这种动态合作确保了对窃听无人机的持续压制,并显著提高了整体安全吞吐量。
(图5说明)

(a) 模式切换。

(b) 无干扰。
图6(b)描绘了固定干扰机制下无人机的轨迹和网络拓扑。在此设置中,无人机3专用于干扰,并持续跟随窃听无人机同时发射干扰信号。其他两架合法无人机仅专注于数据传输,并与基站保持直接通信链路。无人机3成功地将窃听无人机驱赶到部署区域的角落,限制了其接近数据中继合法无人机的能力。同时,无人机1和无人机2与基站建立稳定连接,以确保可靠的数据传输。由于活跃中继数量减少,每架传输无人机服务于更大范围的地面用户子集,导致个体数据负载增加。因此,保持直接的无人机-基站链路成为最高效的策略,最大限度地减少了传输延迟和能量消耗。这突显了在资源受限的多无人机网络中,专用干扰与中继效率之间的权衡。
图6(c)呈现了无干扰的场景。在此情况下,窃听无人机根据合法无人机的位置和移动实时动态调整其轨迹。多无人机系统缺乏对窃听无人机策略的精确了解,因此无法完全逃避其监视。随着时间的推移,合法无人机与窃听无人机之间建立了博弈论均衡。关于合法无人机之间的合作,无人机1在基站附近运行,负责本地数据收集。它还充当中继,将无人机2和无人机3的数据转发到基站。无人机2沿着一个大的环路飞行,从远处区域收集数据,并在信道条件对基站有利时传输。无人机3专注于覆盖远离基站的区域,并依赖无人机1作为中间中继进行数据传输。当双方达到均衡时,它们的轨迹稳定。此时,窃听无人机成功拦截了大量传输数据,而合法无人机在缺乏主动对抗措施的情况下,仍在最佳安全条件下继续交付信息。
鲁棒近端策略优化框架的安全吞吐量
图7(a)显示了理想近端策略优化、数字孪生-近端策略优化和数字孪生赋能鲁棒近端策略优化在不同地面用户数量下的安全吞吐量。直接在真实环境中训练的理想近端策略优化作为性能上界。安全吞吐量随地面用户数量的增加而增加,原因是数据量更大。当地面用户较少时,其稀疏分布使得个体位置对无人机路径规划至关重要。在此状态下,由于探索控制不足,数字孪生-近端策略优化表现出次优性能,导致数字孪生中对个体地面用户位置的建模不准确。这导致了与理想近端策略优化相比在安全吞吐量上的明显差距。当地面用户数量达到20时,环境变得更加稠密,提高了数字孪生模型的统计可靠性。数字孪生-近端策略优化随后实现了近乎最优的性能,退化极小。然而,超过这一点,环境复杂性迅速增长。在没有显式不确定性建模的情况下,数字孪生-近端策略优化会累积观测误差并遭受模型保真度降低,从而降低策略性能。相比之下,鲁棒近端策略优化在所有场景下都保持接近理想近端策略优化的吞吐量。其鲁棒性源于不确定性感知的强化学习,这增强了探索并提高了数字孪生的鲁棒性。这证明了鲁棒近端策略优化不仅有效,而且能适应网络规模和复杂性的变化。
(图6说明)

(a) 模式切换。

(b) 固定干扰。

(c) 无干扰。
图7(b)显示了在固定干扰和模式切换方案下基站和窃听无人机的吞吐量。在无干扰情况下,不引入干扰。因此,基站和窃听无人机都实现了最大吞吐量。在固定干扰下,由于更强的信号抑制,窃听无人机吞吐量随干扰功率的增加而稳步下降。基站吞吐量首先因安全性提高而增加,然后在干扰过度时趋于饱和。对于模式切换,在低干扰功率下,无人机倾向于保持传输模式以避免牺牲通信机会。随着干扰功率增加,每次干扰行动变得更为有效,促使无人机更频繁地切换到干扰模式以增强安全性,但因传输时间减少而降低了基站吞吐量。在高干扰功率下,即使短暂的干扰也足以阻止窃听者,使无人机可以返回传输模式并恢复基站吞吐量。
(图7说明)

(a) 不同用户数量。

(b) 不同干扰功率。
图8比较了用于构建数字孪生的不同算法的计算时间和建模精度。评估的三种方法是:不确定性感知的高斯过程回归、标准高斯过程回归和深度神经网络方法。在图8(a)中,水平轴表示无人机从真实环境收集的交互样本数量,记为 |ℳ|。垂直轴表示构建数字孪生模型所需的时间(分钟)。可以观察到,深度神经网络方法所需时间显著多于两种基于高斯过程回归的方法。这是由于深度神经网络的计算复杂度较高,涉及大量参数和训练过程中的迭代优化。相比之下,高斯过程回归方法由于其解析形式和较低的训练开销,实现了更快的模型构建。在数据收集的早期阶段,不确定性感知高斯过程回归和标准高斯过程回归表现出相似的计算时间。然而,随着样本数量增加,不确定性感知高斯过程回归实现了略低的模型构建时间。这种改进源于核矩阵 k(X, X) 的结构,该矩阵在高斯过程回归训练期间必须求逆。当数据点聚集或高度相关时,核矩阵变得病态,导致数值不稳定和更长的求逆时间。通过促进对任务区域的更广泛探索,不确定性感知高斯过程回归实现了收集数据的更好空间分布。这产生了更稳定和条件良好的核矩阵,减少了矩阵求逆的计算负担,提高了整体效率。
(图8说明)

(a) 运行时间。

(b) 模型失配。
图8(b)展示了收集的数据点数量与数字孪生准确性之间的关系。黑线对应左纵轴,表示建模误差百分比,而蓝线与右纵轴对齐,表示相对准确度水平。为了评估数字孪生准确性,我们采用从任务区域均匀采样点计算的相对误差指标。对于每个点 n,计算拟合值 o_n 与真实观测值 s_n 之间的偏差。然后计算平均相对误差为 (1/N) ∑_{n}^{N} (‖s_n – o_n‖₂ / s_n) × 100%。结果表明,在数据有限的情况下,深度神经网络相比两种基于高斯过程回归的方法表现出显著更高的误差。这是因为高斯过程回归利用了核函数中编码的先验知识,即使在观测稀疏的情况下也能实现有效插值和稳健性能。随着训练数据量的增加,深度神经网络逐渐改善,其误差收敛到约 1%,反映了其在数据丰富条件下的强大拟合能力。相比之下,标准高斯过程回归和所提出的不确定性感知高斯过程回归从学习早期阶段就实现了低误差,展示了其样本效率。值得注意的是,不确定性感知高斯过程回归通过采用不确定性引导的探索进一步降低了误差,该探索指导无人机从信息增益高的区域获取数据。这导致更快的模型收敛和更精确的真实环境表示,突显了通过数字孪生构建中的不确定性控制进行主动学习的优势。
结论
本文研究了智能窃听威胁下的多无人机安全通信系统。我们提出了一种智能模式切换机制,使无人机能够动态地在传输和干扰模式之间切换,从而提高了通信效率和安全性。我们构建了一个联合优化问题,涉及无人机的轨迹、网络形成和模式选择,以及地面用户的传输控制,以最大化系统的安全吞吐量。为了捕捉合法无人机与窃听无人机之间的交互,我们将该问题建模为一个多阶段斯塔克尔伯格博弈,并通过交替优化无人机策略和窃听者响应来求解。我们设计了数字孪生赋能的同时学习与建模框架,其中数字孪生充当物理环境的虚拟副本。该框架通过为深度强化学习提供合成训练数据,减少了对真实世界交互的依赖,显著提高了学习效率。此外,我们提出了鲁棒近端策略优化算法,该算法评估真实环境与数字孪生环境之间的模型失配,并将其整合到深度强化学习中。这使得策略学习能够考虑到数字孪生与现实世界之间的差异,从而具有鲁棒性。仿真结果表明,数字孪生赋能鲁棒近端策略优化比理想近端策略优化具有更好的稳定性和更快的收敛速度。此外,模式切换方案在高度动态的网络环境中实现了更高的吞吐量和更好的安全性。