您现在的位置:生物医药大词典 >> 通用词典 >> 词汇解释: posttraining improvements
posttraining improvements

分享到:
后训练改进


分类:
科技          |    查看相关文献(pubmed)   |    免费全文文献

详细解释:

Unhobbling解锁 剩下最难量化但同样重要的进步部分,被作者称为“Unhobbling”。比起前两项,这部分更像是“意外之喜”,是算法微调引发的模型能力增长。 做数学难题时,人类会在草稿纸上逐步求解,但模型貌似只能给出未经思考的答案。大模型学的可不比人类少,按道理来说也是解题专家才对。究其原因,其实是因为模型受到了某些阻碍,必须经过微调才能解锁这部分潜力。 这些微调就包括——基于人类反馈的强化学习 (RLHF)、思考链 (CoT)、脚手架(Scaffolding)、各类工具(Tools,比如联网查答案)、上下文长度(context length,允许学习更多的上下文可以提高计算效率)、后训练改进(Posttraining improvements)。 METR(一个评估模型的组织)发现,通过从 GPT-4 基础模型中解锁(unhobbling)出来,一组代理任务的性得到很大的改进:仅使用基本模型只达到 5%,发布时经过后训练的 GPT-4 达到 20%,再到今天的近 40%。这归功于更好的后训练、工具和代理脚手架。




以下为句子列表:
分享到:
赞助商链接
你知道它的英文吗?
你知道中文意思吗?
热门分类


成为编辑 - 词典APP下载 - 关于 - 推荐 - 手机词典 - 隐私 - 版权 -链接 - 联系 - 帮助
©2008-至今 生物医药大词典- 自2008年3月1日开始服务 生物谷www.bioon.com团队研发
沪ICP备14018916号-1