说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> "优势互动"奖励模型
1)  "competitiveness advantage interaction" reward model
"优势互动"奖励模型
2)  Cluster advantage Enterprise'S advantage Interdynamic Model
集群优势企业优势互动模型
3)  average reward model
平均奖励优化模型
4)  advantage-interaction
优势互动
5)  rotational main advantage model
转动主优势模型
6)  infinite horizon discounted model
无限作用范围衰减奖励优化模型
1.
Through simulation and analysis, it is shown that the Q algorithm infinite horizon discounted model in \ is not suitable to this task.
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 。
补充资料:奖励
给予荣誉或财物来鼓励:物质~ㄧ~先进生产者。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条