您现在的位置:生物医药大词典 >> 通用词典 >> 词汇解释: reward design
reward design

分享到:
奖励设计


分类:
科技          |    查看相关文献(pubmed)   |    免费全文文献

详细解释:

奖励设计(Reward Design),为RL提供奖励信号。传统方法分为两种,一是从环境直接获取奖励信号,二是从专家数据或者偏好数据学习奖励。o1应该是混合了多种奖励设计的方法。比如有ground truth的环境,将结果监督(ORM)转换为过程监督(PRM)。没有ground truth的话,就用专家或者偏好数据来学习奖励。在大量领域上训练奖励模型,提升泛化性。




以下为句子列表:
分享到:
赞助商链接
你知道它的英文吗?
你知道中文意思吗?
热门分类


成为编辑 - 词典APP下载 - 关于 - 推荐 - 手机词典 - 隐私 - 版权 -链接 - 联系 - 帮助
©2008-至今 生物医药大词典- 自2008年3月1日开始服务 生物谷www.bioon.com团队研发
沪ICP备14018916号-1