1) experience replay
经验回放
1.
Based on the clustered state sets,the intra-strategies are learned by an experience replay procedure.
提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法是有效的。
3) experimental scaling-up
经验放大
5) empirical logistic regression
经验Logistic回归
6) Return to experience
经验回报率
补充资料:不放回式抽样
分子式:
CAS号:
性质:亦称不放回式抽样。每次从总体中抽取的样本单位,经检验之后不再放回总体,在下次抽样时不会再次抽到前面已抽中过的样品单位。总体每经一次抽样,其样品单位数就减少一个,因此每个样品单位在各次抽样中被抽中的概率是不同的。
CAS号:
性质:亦称不放回式抽样。每次从总体中抽取的样本单位,经检验之后不再放回总体,在下次抽样时不会再次抽到前面已抽中过的样品单位。总体每经一次抽样,其样品单位数就减少一个,因此每个样品单位在各次抽样中被抽中的概率是不同的。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条