帮帮文库

返回

强化学习在机器人足球射门员射门策略中的应用和实现 强化学习在机器人足球射门员射门策略中的应用和实现

格式:word 上传:2025-12-31 22:40:24
具备以下条件可以获知每时刻的立即回报状态转换函数是已知的。显然,在很多情况下,智能体不具备上述条件。在许多实际问题中,智能体以及设计该智能体的设计者都不可能预先知道应用任意动作到任意状态的确切输出。在很多情况下,函数是很难描述的。因此,智能体不能用式获取最优动作。而函数为这种情况提供了答案。评估函数,的值是从状态开始并使用作为第个动作时的最大折算累积回报。换言之,在状态执行动作的,的值为立即回报加上以后遵循最优策略的值用折算。,根据式和式,式可重写为以下形式,根据式可知,智能体只须考虑其当前的状态下每个可用的动作,然后选择其中使,最大化的动作,则可以得到智能体的最优策略。该式显示了如果智能体学习的函数为函数,而不是函数,即使缺少和的知识,智能体也可以选择最优动作。意味着智能体不须进行前瞻性搜索,不须明确地考虑从此动作得到的状态,就可以选择最优动作。也就是说,只需对当前的状态的的局部值重复做出反应,即可选择到全局最优化的动作序列。在学习过程中,根据智能体当前执行的策略来更新是状态评估函数,指的是在状态执行动作可获取的奖励值,这里假定,被表示为个显式的查找表,每个不同输入值即状态动作对有个表项。学习算法如下对所有的状态和动作,任意初始化,。然后,执行以下步骤初始化状态根据从得到的策略例如贪婪算法,从状态中选择动作对学习周期的每步重复以下步骤采取动作,观察立即奖励值和下个状态。直到为结束状态。其中,指的是学习速率参数,它控制着学习的速度,越大则收敛越快,但过大的可能引起不成熟收敛指的是折算因子,它确定了延迟回报与立即回报的相对比例。证明了学习在定条件下的收敛性,收敛的条件为环境是静态过程用表来表示函数每个状态动作对都可以被无限次地重复访问学习速率的正确选择,要求,。其中表示在时刻的学习速率参数。在关于收敛性的证明中,对于每个状态动作对,只有该状态动作对被无限多次访问时,才能保证学习是收敛的。从中可以看出,该条件是非常苛刻的。因此,在实际应用中,般只能保证尽量多的学习次数以达到理想的效果。四学习在射门员进攻策略中的应用从上面的强化学习及学习算法原理中知道,要实现强化学习必须知道状态动作以及处理这些状态和动作的函数,在对状态和动作的反复试验当中,还要给出动作的奖赏惩罚折算率等参数。最后要利用学习算法把这些参数进行最优化,最终得到自己想要的参数值。下面就分析适用于比赛有关射门员进攻策略的状态及其动作集。强化学习应用到遇到的最大挑战是状态空间的离散化。强化学习适合离散空间求解,而的环境却是连续的。所以必须离散化环境状态。把学习所需要的状态集分为射门员的位置区域集。仿真环境中足球场和其中的全部对象都是二维的。任何对象都没有高度的概念。问题描述射门球员在球场上的位置可参考图,其中,表示进攻方机器人,表示球,表示本方守门员,分别表示横坐标纵坐标和速度。球门线的横坐标为,机器人颜色较浅的面朝向机器人前进的方向在当前时刻,机器人有多种选择,可以选择以不同的角度带球前进或者直接射门。如果射门,当踢球后,球将做直线运动,在时刻到达球门,与球门线交于,向守门员左边射门或,向守门员右边射门此时对于机器人而言,可以选择向左接球向励值若防守成功则给予的奖励,失败则给予的惩罚。测试中,在,在,随机变化,让进攻队员分别在图中的个离散化的区域选择带球或进攻,检验守门员的防守是否成功。并对随机策略同时进行试验,比较两者的实验结果,以验证学习算法的有效性。实验结果下面三幅截图分别显示了守门员采用不同防守动作时防守成功的情景。守门员通过学习后采取出击扑球防守成功的情景守门员通过学习后采取左右移动防守成功的情景守门员通过学习后采取接球防守成功的情景通过上述三幅图可以看到,守门员学习后的防守效率要大于随机选择动作防守的成功率,证明本方法的有效性。六结束语射门员进攻策略问题是中个典型的子问题,但它同样是个实时的决策问题。我们应用学习,解决了射门员进攻策略问题中状态空间和动作的离散化,实现了中的射门员进攻策略的优化,实验结果表明了学习在定的训练周期结束后收敛,最终得到了优化的进攻行为策略。研究结果对解决智能决策问题具有普遍意义。但是,由于时间和能力问题,考虑的问题不够全面,很多细致的因素没有考虑,导致在少数情况下,随机策略反而优于学习算法,下步有待进步的研究。七参考文献张振文程显毅李明分布式强化学习在中的应用,计算机应用顾晓锋张代远,机器人足球比赛截球策略设计,计算机应用李晓萌,杨煜普,许晓鸣基于独立学习的多智能体协作决策。控制与决策,年李实徐旭明,国际机器人足球比赛及其相关技术,机器人,高阳陈世福陆鑫强化学习研究综述,自动化学报段勇杨淮清崔宝侠徐心和强化学习在足球机器人基本动作学习中的应用,机器人王文学赵侏颖孙萍,多智能足球机器人的关键技术,东北大学学报刘峻峰,人工智能算法在中的应用。硕士毕业论文,年月日李人厚,智能控制理论和方法,西安西安电子科技大学出版社,张汝波顾国昌,强化学习理论,算法及应用,控制理论与应用蔡庆生张波,种基于团队的强化学习模型与应用研究,计算机研究与发展马勇李龙澍李学俊,基于学习的智能防守策略研究与应用,计算机技术与发展周军陈盛,基于场地分区的机器人足球守门员防守策略设计,河海大学常州分校学报张汝波,顾国昌,刘照德,王醒策强化学习理论算法及应用控制理论与应用,年,八致谢语经过半年的忙碌和工作,本次毕业设计已经接近尾声,作为个本科生的毕业设计,由于经验的匮乏,难免有许多考虑不周全的地方,如果没有导师的督促指导,以及起学习的同学们的支持,想要完成这个设计是难以想象的。在这里我要衷心感谢我的导师刘云龙老师。刘老师平日里工作繁忙,但在我做毕业设计的每个阶段,他都给予了我悉心的指导,为我及时纠正毕业设计中出现的。刘老师不单教会我我所不擅长的东西,最主要的他教给我做人的道理,这些都将积极影响我今后的学习和工作。感谢我的辅导员郑晖阁老师,感谢她在大学四年期间给予我的帮助和思想上的开导感谢我的室友,感谢所有和我起生活,起学习,起工作的同学和朋友,感谢他们给我的生活带来了阳光知识和自信由衷地感谢我的父母,我的家人,感谢他们直以来对我的关爱和支持,感谢大学四年来所有的老师,感谢厦门大学,感谢你们精心培养了我,教会了我思考,教会了我许多做人做事的道理感谢所有我需要感谢的人,在此,我谨表示深深的谢意,右接球或出击中的种动作假定机器人球,做的均是匀速直线运动,如果选择向守门员左边射门,要保证射门成功,需满足这样才能保证在守门员到达防守点之前,球已经到达防守点。如果选择向守门员右边射门,守门员可以选择向右接球或选择出击,并假定为出击抢球点,要保证射门成功,需同时满足其中,表示的是接球抢球过程中转向需要的时间。在当前态势下,如果直选择带球,显然不能射门成功,如果在守门员出击之前,选择带球靠近球门特别在离球门较远的情况下并调整选择更好的射门角度,则更有可能满足使射门成功率增加如果带球过多,给守门员更多的调整时间,封堵射门角度或出击截球,射门队员即使更加靠近球门,也很难射门成功。显然对于带球的把握,以及射门方向的选择决定了射门的成功率。射门员射门示意图本文的目的就是通过将学习算法引入射门球员的策略选择中,学习确定射门球员在时刻应该采取的动作,提高射门球员的射门成功率。进攻队员的位置区域为配合策略设计,对比赛场地进行划分,小球离球门区越近,进球概率越高反之,球离球门越远,进球概率越低因为研究的问题主要是的进攻与防守问题,所以为了简化问题,只对半个球场进行区域划分,将球场分成如下所示区域,见图射门员位置区域划分进攻队员动作集描述继续带球当进攻队员处在区域离球门较远时,选择继续带球,因为此时距离球门太远,射门没有进球的把握,进球的概率必然很小。带球的方向朝向球门。进攻射门当进攻队员离球门较近时,选择进攻射门,此时距离球门较近,射门进球的把握性较大,进球几率较大。射门方向为,两点之间。采用射门动作时,再将动作细分为向左,中,右方向射门。分别定义区间,为左为中为右,见图。这样进攻队员在任状态下实际上有个动作可以选择。守门员动作集描述左右晃动守门员在球门线两端来回移动,即在两点间做往返运动。接球判断球与本方球门线的交点,如图中的点,守门员移动到这个交点防守点进行防守。出击扑球在守门员和进攻队员所在直线上做扇形的折线运动,在运动过程中,如果球进入守门员的捕获范围即算防守成功。否则算防守失败。其中扇形的折线运动如图所示其中虚线所示即为守门员出击扑球的运动轨迹。守门员的捕获范围表示为,其中蓝色的环形区域即为守门员的捕获区域,旦皮球进入该区域即代表守门员防守成功。现在要研究进攻队员射门策略选择,我们让守门员采用个固定防守策略这里不妨先令守门员采用左右晃动策略,即在门线上来回匀速移动。奖赏的确定经过上述状态和动作的离散化,射门员的进攻学习问题已经转化为个离散的强化学习问题,现在只需要选择学习算法,直接以值作为状态动作对的评估值,进行,的强化学习。设计的奖赏规则如下进攻队员射门成功,定义立即奖励值进攻队员射门失败,定义立即惩罚值进攻队员未选择射门,此时定义学习算法用过程描述学习算法如下对所有的状态图中个区域和动作带球向左射门向中间射门向右射门,初始化,步骤初始化状态步骤根据从得到的策略ε贪婪算法每次以概率ε随机选取个动作,以概率ε选择当前评价值最高的动作这里不妨取ε。,通过次学习得到状态下的所有从状态中选择动作。
下一篇
温馨提示:手指轻点页面,可唤醒全屏阅读模式,左右滑动可以翻页。
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(1)
1 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(2)
2 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(3)
3 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(4)
4 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(5)
5 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(6)
6 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(7)
7 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(8)
8 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(9)
9 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(10)
10 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(11)
11 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(12)
12 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(13)
13 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(14)
14 页 / 共 25
强化学习在机器人足球射门员射门策略中的应用和实现.doc预览图(15)
15 页 / 共 25
预览结束,还剩 10 页未读
阅读全文需用电脑访问
温馨提示 电脑下载 投诉举报

1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。

2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。

3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为word文档,建议你点击DOC查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批

搜索

客服

足迹

下载文档