1) "competitiveness advantage interaction" reward model
"优势互动"奖励模型
2) Cluster advantage Enterprise'S advantage Interdynamic Model
集群优势企业优势互动模型
3) average reward model
平均奖励优化模型
5) rotational main advantage model
转动主优势模型
6) infinite horizon discounted model
无限作用范围衰减奖励优化模型
1.
Through simulation and analysis, it is shown that the Q algorithm infinite horizon discounted model in \ is not suitable to this task.
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 。
补充资料:奖励
给予荣誉或财物来鼓励:物质~ㄧ~先进生产者。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条