posttraining improvements是什么意思，释义 -生物医药大词典

Unhobbling解锁剩下最难量化但同样重要的进步部分，被作者称为“Unhobbling”。比起前两项，这部分更像是“意外之喜”，是算法微调引发的模型能力增长。做数学难题时，人类会在草稿纸上逐步求解，但模型貌似只能给出未经思考的答案。大模型学的可不比人类少，按道理来说也是解题专家才对。究其原因，其实是因为模型受到了某些阻碍，必须经过微调才能解锁这部分潜力。这些微调就包括——基于人类反馈的强化学习（RLHF）、思考链（CoT）、脚手架（Scaffolding）、各类工具（Tools，比如联网查答案）、上下文长度（context length，允许学习更多的上下文可以提高计算效率）、后训练改进（Posttraining improvements）。 METR（一个评估模型的组织）发现，通过从 GPT-4 基础模型中解锁（unhobbling）出来，一组代理任务的性得到很大的改进：仅使用基本模型只达到 5%，发布时经过后训练的 GPT-4 达到 20%，再到今天的近 40%。这归功于更好的后训练、工具和代理脚手架。