详细解释:
自动课程学习(Auto-curriculum learning) 鉴于预采样任务池的广度和多样性,智能体很难用均匀采样进行有效地学习:大多数随机采样的任务可能会太难(或太容易),无法对智能体的学习进度有所帮助。 相反,研究人员使用自动化的方法在智能体能力的前沿选择相对「有趣 」(interesting)的任务,类似于人类认知发展中的「近侧发展区间」(zone of proximal development)。 具体方法为对现有技术中的no-op filtering和prioritised level replay(PLR)进行扩展,能够极大提升智能体的性能和采样效率,最终成为了一个新兴的课程,能够随着时间的推移选择越来越复杂的任务。
|