研究,基于的机会频谱接入算法论文原稿景下学习的收敛问题提出了种基于的机会频谱接入算法,通过令学习速率以定规律动态变化的方式使算法能够适用于信道业务动态变化的场景。仿真结果表明,當频段的业务特征发生改变后,算法可以迅速收敛于最优策略,即认知用户与授权用户的频谱冲突率最低。参考文献,算法分别在静态信道业务特征和动态信道业务特征两种场景进行仿真对比,种算法分别为递减以及本文所提出的动态变化的算法。仿真长度为个时隙,认知用户在每个时隙根据值表以不同概率接入频段,即每个时隙是认知用户的个迭代过程,认知用户迭代次后停止仿真。为了便于分析,将个时隙分为个相等的学习阶段统计认知用户与授权用户的冲突概率互来获取信息从而制定更优的策略,即在每次迭代过程中,智能体的目的就是根据当前状态寻找能够最大化期望的长期累积回报的动作,如式所示为长期累积回报的最大值问题映射算法将学习理论应用于认知网络中,因此将认知用户的资源调度过程建模为个有限马尔可夫决策过程,其中主要包括状态空间动作空间即时回报等等。为了体现长期回报对策略选择的重要性,设置折现因基于的机会频谱接入算法理论学习算法是种重要的无模型强化学习算法,由在年提出。将智能体与外部环境交互的过程看作为个马尔科夫决策过程,即未来状态的概率分布不受历史状态影响,只和当前状态相关。决策者只以當前状态为依据来制定合适的策略。对于未知环境下的决策问题,马尔可夫决策过程有套统,文献提出种基于双动作学习算法的接入方案,文献通过将学习算法和拍卖算法结合提高了算法的效率。但是这些算法都没有考虑当信道环境特征发生改变后算法的收敛问题,因此本文在上述算法的基础上,提出种适用于动态信道特征的频谱接入算法,使认知用户可以在信道环境特征发生改变后可以重新迅速收敛。系统模型在认知网络中,系统内部存在多个授权用户户的反馈。算法主要目的是降低认知用户与授权用户之间的冲突率,即时回报主要体现主次用户之间的冲突情况,其表达式为学习速率在般的学习算法中,学习速率的值将随着值得迭代逐渐变小,这种方法既可以使学习初期拥有更快的学习速率,又可以避免产生不成熟收敛。但是当环境的特征发生改变时,算法需要重新收敛,在学习速率较小的情况下,算法的收敛速度将很慢。为改变后算法的收敛问题,因此本文在上述算法的基础上,提出种适用于动态信道特征的频谱接入算法,使认知用户可以在信道环境特征发生改变后可以重新迅速收敛。系统模型在认知网络中,系统内部存在多个授权用户,授权用户将根据自己的需求占用些授频带,频段的占用状态随着时间而改变。如图所示,在认知网络中,当个频段暂时没有被授权用户使用时,认体执行动作之后从外部环境获得的收益,正数表示正收益,负数表示负收益。在算法中,智能体通过不断与环境交互来获取信息从而制定更优的策略,即在每次迭代过程中,智能体的目的就是根据当前状态寻找能够最大化期望的长期累积回报的动作,如式所示为长期累积回报的最大值问题映射算法将学习理论应用于认知网络中,因此将认知用户的资源调度过程建模为基于的机会频谱接入算法论文原稿,授权用户将根据自己的需求占用些授频带,频段的占用状态随着时间而改变。如图所示,在认知网络中,当个频段暂时没有被授权用户使用时,认知用户就可以抓住这个机会利用该频段来进行通信,当授权用户重新占用这段频谱后,认知用户需要迅速停止在该频段上的通信业务以避免干扰授权用户的通信。基于的机会频谱接入算法论文原稿。率收敛于最优状态,若环境特征突然改变,访问状态对将获得环境的负反馈,的值将变小,随着访问次数和负反馈次数的增多,的值将迅速减小,使得迅速增大,算法将重新拥有更快的学习速率并快速收敛于新的状态。机会频谱接入技术的研究难点是认知用户如何在信道环境先验知识未知的情况下接入合适的频段。为了解决这问题,文献将学习算法应用到机会频谱接入中减。图为信道业务特征保持恒定的情况下种学习算法下的主次用户间的冲突概率,可以明显看出种学习都在大约第个统计阶段收敛。基于的机会频谱接入算法理论学习算法是种重要的无模型强化学习算法,由在年提出。将智能体与外部环境交互的过程看作为个马尔科夫决策过程,即未来状态的概率分布不受历了解决这个问题,提出了适用于动态环境特征的算法,算法将学习速率设置为动态值,其表达式为其中为智能体到达状态动作对的次数,每当智能体到达该状态动作对次,并且环境产生正反馈时,的值将增加,而当环境产生负反馈时,将以指数形式递减。因此,随着迭代的不断进行,的值不断增加,相应的将不断减小,算法逐渐以概知用户就可以抓住这个机会利用该频段来进行通信,当授权用户重新占用这段频谱后,认知用户需要迅速停止在该频段上的通信业务以避免干扰授权用户的通信。基于的机会频谱接入算法论文原稿。动作空间由个动作构成,表示个可用频段,认知用户执行动作表示认知用户将占用频段,同时智能体进入状态。即时回报回报值体现环境对认知用个有限马尔可夫决策过程,其中主要包括状态空间动作空间即时回报等等。机会频谱接入技术的研究难点是认知用户如何在信道环境先验知识未知的情况下接入合适的频段。为了解决这问题,文献将学习算法应用到机会频谱接入中,文献提出种基于双动作学习算法的接入方案,文献通过将学习算法和拍卖算法结合提高了算法的效率。但是这些算法都没有考虑当信道环境特征发生史状态影响,只和当前状态相关。决策者只以當前状态为依据来制定合适的策略。对于未知环境下的决策问题,马尔可夫决策过程有套统的模型,其模型般可以用元组来表示。其中,表示智能体所处外部环境的状态集合表示智能体可以执行的动作集为系统的状态转移函数,通常用来表示智能体在执行了动作∈后,状态从∈转移到∈的概率代表回报,即智能基于的机会频谱接入算法论文原稿参数设计如下频段个数,静态信道业务特征场景下的频段的业务负载分别为,动态信道业务特征场景下的频段的业务负载变化规律如表所示。为了体现长期回报对策略选择的重要性,设置折现因子。算法将采用学习规则,设置其初始温,终止温度,温度将随着迭代次数增加以参数为的指数规律逐渐递减,直到减小至终止温度后停止递,。仿真结果与分析为了验证算法的有效性,本文将对种算法分别在静态信道业务特征和动态信道业务特征两种场景进行仿真对比,种算法分别为递减以及本文所提出的动态变化的,桂林,武小悦部分可观测马尔可夫决策过程算法综述,系统工程与电子技术吴启晖,刘琼俐,基于算法的动态频谱接方案解放,同时采用蒙特卡洛实验策略,每个时隙将进行次相互独立的实验并取其平均值为最后的实验结果。基于的频谱接入算法的参数设计如下频段个数,静态信道业务特征场景下的频段的业务负载分别为,动态信道业务特征场景下的频段的业务负载变化规律如表所示。基于的机会频谱接入算法论文原稿。结论本文针对动态信道业务特征情子。算法将采用学习规则,设置其初始温,终止温度,温度将随着迭代次数增加以参数为的指数规律逐渐递减,直到减小至终止温度后停止递减。图为信道业务特征保持恒定的情况下种学习算法下的主次用户间的冲突概率,可以明显看出种学习都在大约第个统计阶段收敛。仿真结果与分析为了验证算法的有效性,本文将对种统的模型,其模型般可以用元组来表示。其中,表示智能体所处外部环境的状态集合表示智能体可以执行的动作集为系统的状态转移函数,通常用来表示智能体在执行了动作∈后,状态从∈转移到∈的概率代表回报,即智能体执行动作之后从外部环境获得的收益,正数表示正收益,负数表示负收益。在算法中,智能体通过不断与环境交
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
第 1 页 / 共 10 页
第 2 页 / 共 10 页
第 3 页 / 共 10 页
第 4 页 / 共 10 页
第 5 页 / 共 10 页
第 6 页 / 共 10 页
第 7 页 / 共 10 页
第 8 页 / 共 10 页
第 9 页 / 共 10 页
第 10 页 / 共 10 页
预览结束,喜欢就下载吧!
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。
1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。
2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。
3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。
4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。
5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。