3) Cooperative Reinforcement Learning Method
多Agent协作强化学习
4) multi-agent reinforcement learning algorithm
多Agent强化学习算法
5) multiagent reinforcement learning
多Agent增强学习
1.
To achieve coherence and stability in operations of Wireless sensor networks (WSNs) in pervasive computing environment, a self-organization method is proposed based on multiagent reinforcement learning.
为实现在普适计算环境下无线传感器网络运行的协调统一和稳定,提出一种基于多Agent增强学习的自组织方法。
补充资料:学习的强化
强化是指一件事物提高了某一刺激所引起的反应出现的概率,使之在同样条件下再度发生;从神经机制说,是指一个神经过程增强了另一神经过程的强度和效应。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
在И.Π.巴甫洛夫的条件反射学说中,强化是指条件反射形成过程中使无条件刺激同条件刺激相搭配。在巴甫洛夫的典型实验中,犬对节拍器的响声(条件刺激)产生唾液分泌的反应(条件反射),这一条件作用是由于食物(无条件刺激)在节拍器响声(条件刺激)之前或同时出现而形成的。因此条件反射作用的实质是对于某一特定反应来说属中性的一种刺激,在经常同可以诱发那种反应的刺激联系在一起时,它本身也开始诱发同样的反应。条件反射的形成是用强化物(无条件刺激)进行强化的结果。强化是条件作用的必要手段,受强化的刺激就可产生条件反射,不受强化的与之类似的刺激则不会产生条件反射。就人类而言,词也可以作为强化物在条件作用中起强化作用。学习的过程即是条件反射形成的过程。
B.F.斯金纳用操作性条件作用或工具性条件作用来解释一切学习过程。他设计的实验装置称为斯金纳箱。他认为学习即是形成操作性条件反应的过程。在此过程中,强化物是在反应出现后呈现,与巴甫洛夫的实验中的先出现或同时出现强化物的情况不同。这种操作发生后的强化足以增加反应发生的一般倾向,增加后来反应发生的概率,这即是学习的成功,所以斯金纳认为可以把学习定义为反应概率上的一种变化。他认为学习必须具备两个条件,一是要有反应,即动作、操作或行为;二是要继之以强化,而且越早越好。
斯金纳把强化物分为两类:一类是第一性的,即无条件强化物,这是维持生命所必须的食物、饮料之类的刺激物,它的强化作用是原初的,不是习得的;另一类是第二性的,即条件强化物,它因同第一性强化物发生过联系或代替过第一性强化物而具有强化作用。从理论上说,几乎任何事物都可成为第二性强化物,具有强化作用。第二性强化物又可分为:有普遍性的强化物,如金钱;有社会性的强化物,如关注、赞许和喜爱;有象征性的强化物,如奖章、奖状、分数;有活动性的强化物,如参加游戏、看电影电视、参加社会活动。
强化物有积极性的和消极性的,与之相应,强化也有积极性的和消极性的。因强化物的出现而增加了反应概率的强化称为积极性强化,这种强化物即是积极性的强化物,如糖果、赞许。相反,因强化物的消除而增加了反应概率的强化称为消极性强化,这种强化物即是消极性的强化物,如噪音、申斥。消极性强化同惩罚不同,尽管通常认为惩罚是奖赏的对立面,可是它并没有相反的效果。消极性强化同积极性强化一样,都具有增加反应概率的效果,而惩罚则是减少反应的概率。惩罚的效果是复杂的,而且在很大程度上不能加以预测。斯金纳后来建议放弃把惩罚作为一种社会控制的手段。他主张要善于利用强化,特别是一个人的内部强化。他认为教师的职责就是为每个学生及时提供适宜的和有效的强化,以增加其正当反应的概率。特别是使学生能自动地从内部自己进行强化而不必经常依赖外来强化。为了建立完善的教育过程,对教学进行科学的控制,斯金纳大力提倡程序教学和机器教学,要求在设计教学程序,控制刺激,提供反馈,施行强化并且借助机器(发展到利用电子计算机)进行工作。实际应用的结果表明,这种办法提高了学习效果。
斯金纳的关于操作性条件反应强化的学说虽然能局部地解释和解决一定的实际问题,可是事实上他把人的各种形式的心理活动都视为操作性反应,甚至把人的社会活动、相互交往也视为操作性的。这样就把来自动物的行为原则普遍应用于人的活动的一切形式,忽视了人的能动性和社会性的本质特征。
强化在学习中的重要意义,也得到其他心理学家的重视。C.赫尔就曾指出强化是导致学习的基本条件。他认为一特殊行为范型伴随以内驱力减低时强化即行发生,学习即可成功。他把强化分为初步的和后继的两种,并指出后继强化尤为重要,特别是在人类学习当中。A.班杜拉的研究指出,强化对学习动机的影响超过对学习本身的影响。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条