1) Quantum Reinforcement Learning
量子强化学习
2) Quantum-inspired Reinforcement Learning
量子启发式强化学习
3) reinforcement learning
强化学习
1.
Adaptive HVDC supplementary damping controller based on reinforcement learning;
基于强化学习算法的自适应直流附加阻尼控制器
2.
Pattern driven scheduling system based on reinforcement learning;
基于强化学习的模式驱动调度系统研究
3.
Multi-robot dynamic cooperation based on an immunized reinforcement learning mechanism;
基于免疫强化学习机制的多机器人动态协作
4) reinforcement learning(RL)
强化学习
1.
Based on reinforcement learning(RL) algorithm—improved genetic algorithms supported by Bayesian learning algorithm,task distribution issue.
在构建舰船设备协同控制多智能体系统(MAS)过程中,各Agent之间存在某种内在的冲突、联系和规律,为了有效地发现和消解这些问题,引入智能控制解决方案和强化学习方法,能为MAS系统的构建提供有效的技术保障。
2.
Reinforcement Learning(RL) is a kind of unsupervised learning method for agent to acquire optimal behavior sequence to adapt to unknown environments with a clue of reward.
强化学习是一种重要的无监督机器学习技术,它能够利用不确定的环境下的奖赏发现最优的行为序列,实现动态环境下的在线学习,被广泛地应用到Agent系统当中。
3.
This paper discusses reinforcement learning(RL)algorithm and its application to technical action learning of soccer robot.
主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用。
5) quantum learning
量子学习
1.
A quantum learning algorithm is proposed and its convergence property is discussed.
本文介绍了与量子神经网络相关的量子计算基础,描述了一种量子神经元模型,提出了一种量子学习算法,通过理论推导和仿真证明了算法的收敛性并给出了几种收敛特性曲线。
6) Q reinforcement learning
Q强化学习
1.
In this paper Q reinforcement learning algorithm is adopted for mobile robot local path planning.
将Q强化学习算法应用于移动机器人局部路径规划,解决了移动机器人在复杂环境中的局部路径规划问题。
补充资料:学习的强化
强化是指一件事物提高了某一刺激所引起的反应出现的概率,使之在同样条件下再度发生;从神经机制说,是指一个神经过程增强了另一神经过程的强度和效应。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条