|
posttraining improvements
|
|
后训练改进
|
分类:
|
详细解释:
Unhobbling解锁
剩下最难量化但同样重要的进步部分,被作者称为“Unhobbling”。比起前两项,这部分更像是“意外之喜”,是算法微调引发的模型能力增长。
做数学难题时,人类会在草稿纸上逐步求解,但模型貌似只能给出未经思考的答案。大模型学的可不比人类少,按道理来说也是解题专家才对。究其原因,其实是因为模型受到了某些阻碍,必须经过微调才能解锁这部分潜力。
这些微调就包括——基于人类反馈的强化学习 (RLHF)、思考链 (CoT)、脚手架(Scaffolding)、各类工具(Tools,比如联网查答案)、上下文长度(context length,允许学习更多的上下文可以提高计算效率)、后训练改进(Posttraining improvements)。
METR(一个评估模型的组织)发现,通过从 GPT-4 基础模型中解锁(unhobbling)出来,一组代理任务的性得到很大的改进:仅使用基本模型只达到 5%,发布时经过后训练的 GPT-4 达到 20%,再到今天的近 40%。这归功于更好的后训练、工具和代理脚手架。
|
|
以下为句子列表:
|
|
|
|
赞助商链接
|
|
 |
你知道它的英文吗?
|
|
 |
|
你知道中文意思吗?
|
|
 |
|
热门分类 |
|
 |
|