1) DAQL(double action Q-learning)
双动作Q学习算法
2) Dynamic Q-learning arithmetic
动态Q学习算法
3) Q-learning algorithm
Q学习算法
1.
To deal with this problem,an Agent-based pattern driven scheduling system was proposed,which consisted of two parts: the Agent which was trained by reinforcement learning(Q-learning algorithm) to improve its ability to select appropriate dispatching rule and the simulation environment.
其中,智能体将利用强化学习(Q学习算法)进行训练,以提高其动态选择合适调度规则的能力。
2.
A novel decision model based on Q-learning algorithm for power suppliers who aim at long term profit maximization was proposed.
以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性。
3.
In the case of the varying demand of customers,and with an aim at improving the cooperative performance of the distribution system,the optimum order batch of each distributor is determined based on the Q-learning algorithm.
在外部顾客需求不断变化的情况下,以不断提高分销系统双方合作绩效为目标,基于Q学习算法来确定每个分销商的最优订货批量。
4) Q-learning
Q-学习算法
1.
In order to enhance the study speed and the convergence rate of Q-learning algorithm,an algorithm that based on the experience knowledge about environment is proposed.
为了提高智能体系统中的典型的强化学习——Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。
2.
Now reinforcement learning is widely used in agent system, among which Q-learning algorithm is widely used reinforcement learning algorithm.
Q-学习算法是最易理解和目前广为使用的一种无模型强化学习方法,但标准的Q-学习算法应用于智能体系统时本身存在一些问题。
5) Q-learning algorithm
Q-学习算法
1.
In which Q-learning algorithm was used to optimize traffic guidance information,propositional information could be provided according to real time network traffic,traffic flow distribution was adjusted.
为研究诱导模型的诱导效果,用元胞自动机模型模拟车辆在路网中的行为,仿真了不同诱导信息在不同交通量、不同受诱导率情况下对交通流的影响,提出基于Agent的交通诱导模型,模型采用Q-学习算法优化诱导信息,可根据路网中交通流情况发布建议性诱导信息,调节交通流分布。
6) Ant-Q System algorithm
Q-学习蚁群算法
补充资料:逆推学习算法
分子式:
CAS号:
性质:又称逆推学习算法,简称BP算法,是1986年鲁梅哈特(D. E. Rumelhart)和麦克莱朗德(J. L. McClelland)提出来的。用样本数据训练人工神经网络(一种模仿人脑的信息处理系统),它自动地将实际输出值和期望值进行比较,得到误差信号,再根据误差信号从后(输出层)向前(输入层)逐层反传,调节各神经层神经元之间的连接权重,直至误差减至满足要求为止。反向传播算法的主要特征是中间层能对输出层反传过来的误差进行学习。这种算法不能保证训练期间实现全局误差最小,但可以实现局部误差最小。BP算法在图像处理、语音处理、优化等领域得到应用。
CAS号:
性质:又称逆推学习算法,简称BP算法,是1986年鲁梅哈特(D. E. Rumelhart)和麦克莱朗德(J. L. McClelland)提出来的。用样本数据训练人工神经网络(一种模仿人脑的信息处理系统),它自动地将实际输出值和期望值进行比较,得到误差信号,再根据误差信号从后(输出层)向前(输入层)逐层反传,调节各神经层神经元之间的连接权重,直至误差减至满足要求为止。反向传播算法的主要特征是中间层能对输出层反传过来的误差进行学习。这种算法不能保证训练期间实现全局误差最小,但可以实现局部误差最小。BP算法在图像处理、语音处理、优化等领域得到应用。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条