自动化技术论文_基于动态优先级的奖励优化模型-智能城市杂志社投稿

栏目导航

期刊信息

刊名：智能城市
曾用名：现代生活用品
主办：辽宁省科学技术情报研究所
主管：辽宁省科学技术厅
ISSN：2096-1936
CN：21-1602/N
语言：中文
周期：半月刊
影响因子：0
被引频次：9440
数据库收录：
国家哲学社会科学学术期刊数据库;期刊分类：自科综合
期刊热词：
施工技术,建筑工程,城市,高速公路,建筑,施工管理,水利工程,智慧城市,建筑设计,大数据,施工技术,建筑工程,施工管理,大数据,城市,公路工程,物联网,城市轨道交通,BIM技术,人工智能,智慧城市,智能建筑,BIM技术,城市,BIM,城市建设,物联网,智能化,智能设计,城市规划,

现在的位置：主页 > 期刊导读 >

自动化技术论文_基于动态优先级的奖励优化模型

来源：智能城市 【在线投稿】栏目：期刊导读时间：2021-12-08 09:52

【作者】网站采编

【关键词】

【摘要】文章摘要:传统的约束马尔可夫决策过程（constrained Markov decision process,CMDP）模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于

文章摘要:传统的约束马尔可夫决策过程（constrained Markov decision process,CMDP）模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习（reinforcement learning,RL）算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束。

文章关键词:

项目基金:《智能城市》网址: http://www.zncszz.cn/qikandaodu/2021/1208/2055.html

上一篇：电力工业论文_一种基于特征映射与深度学习的虚
下一篇：农业经济论文_数字乡村建设的相关问题及对策建