| ID号 |
词典对应ID |
中文名 |
英文名 |
缩写 |
释义 |
栏目 |
修改 |
| 1615404 |
0 |
潜在空间 |
latent space |
|
Latent Space(潜在空间)
含义:在深度学习中,指数据被压缩和投影到的隐藏多维空间,模型在该空间中学习数据的特征和模式。
例子:生成式 AI 通过在 latent space 进行采样,创造新的图像或文本。 |
科技 |
已审核通过
|
| 1615403 |
0 |
专家混合模型 |
MoE (mixture of experts) |
|
MoE (Mixture of Experts)(专家混合模型)
含义:一种 AI 体系结构,其中多个专家子模型(experts)协同工作,由一个门控网络选择最佳专家来完成特定任务。
例子:Google 的 Switch Transformer 使用 MoE 来提高效率。 |
科技 |
已审核通过
|
| 1615402 |
0 |
参数扩展 |
parameter scaling |
|
Parameter Scaling(参数扩展)
含义:指增加模型的参数数量,以提升其性能和生成能力。通常,参数越多,模型的能力越强,但计算需求也更大。
例子:OpenAI 的 GPT-4 比 GPT-3.5 具有更大的 parameter scaling,因此更强大。 |
科技 |
已审核通过
|
| 1615401 |
0 |
大模型越狱 |
LLM jailbreak |
|
LLM Jailbreak(大模型越狱)
含义:指通过特定提示(prompt)或技术绕过 AI 的安全限制,使其生成不允许的内容。
例子:研究人员测试 LLM jailbreak 以改进 AI 的安全性。 |
科技 |
已审核通过
|
| 1615400 |
0 |
红队测试 |
red-teaming |
|
Red-Teaming(红队测试)
含义:模拟恶意攻击或滥用 AI,以测试其安全性和鲁棒性。
例子:公司进行 red-teaming 以发现 AI 可能被滥用的方式。 |
科技 |
已审核通过
|
| 1615399 |
0 |
小样本学习 |
few-shot learning |
|
Zero-Shot / Few-Shot Learning(零样本/小样本学习)
含义:Zero-shot 是指 AI 无需示例即可完成任务,而 Few-shot 允许 AI 通过少量示例学习新的任务。
例子:使用 few-shot learning,AI 可以从几个翻译示例中学习新语言。 |
科技 |
已审核通过
|
| 1615398 |
0 |
上下文学习 |
in context learning |
|
对于大型语言模型来说,即需要大量的数据标记成本,也需要算力成本和时间成本。然而,不同场景下任务的需求是不一样的,不可能根据每个任务都去微调模型。能否不进行微调就让模型学习完成不同的任务呢?答案是可以的,这个神奇的技术称为 上下文学习 (In Context Learning)。它的实现非常简单,只需要给到模型一些引导,将一些事先设定的文本输入到大型语言模型中,就像手把手教人学会某项技能一样,大型语言模型就能神奇的学习到如何处理后续的新任务。遗憾的是,为什么大型语言模型具有上下文学习的能力仍然是一个迷,业内把这个能力称为“涌现”。 |
科技 |
已审核通过
|
| 1615397 |
0 |
监督微调 |
supervised fine-tuning,SFT) |
|
监督微调(Supervised fine-tuning,简称SFT):微调是一种有监督学习方法,通过在有标签数据上对预训练模型进行进一步训练,以适应特定的任务。这个过程使得模型能够利用预训练阶段学到的通用知识,结合新数据的标签信息,使模型在特定任务上表现更好。 |
科技 |
已审核通过
|
| 1615396 |
0 |
持续训练 |
continue training |
|
Continue training(持续训练):
可能在模型部署后的任何阶段进行。
目的是不断适应新数据,保持模型性能的稳定和提升。
持续训练可以包含后训练作为其中的一个阶段。 |
科技 |
已审核通过
|
| 1615395 |
0 |
人类反馈的强化学习 |
reinforcement learning from human feedback(RLHF) |
|
Post-training(后训练):
发生在预训练之后,模型部署前或部署初期。
针对特定的任务或数据集进行额外训练,以优化模型性能。
可以包括Fine-tuning(微调)和Reinforcement Learning from Human Feedback(RLHF,人类反馈的强化学习)等方法。 |
科技 |
已审核通过
|
| 1615394 |
0 |
后训练 |
post-training |
|
Post-training(后训练):
发生在预训练之后,模型部署前或部署初期。
针对特定的任务或数据集进行额外训练,以优化模型性能。
可以包括Fine-tuning(微调)和Reinforcement Learning from Human Feedback(RLHF,人类反馈的强化学习)等方法。 |
科技 |
已审核通过
|
| 1615393 |
0 |
预训练 |
pre-training |
|
Pre-training(预训练):
通常发生在模型开发的早期阶段。
目的是在大规模数据集上学习通用特征,为后续任务奠定基础。
不针对特定任务,而是追求广泛的适用性。 |
科技 |
已审核通过
|
| 1615392 |
0 |
reinforcement learning from human feedback(RLHF) |
人类反馈的强化学习 |
|
Post-training(后训练):
发生在预训练之后,模型部署前或部署初期。
针对特定的任务或数据集进行额外训练,以优化模型性能。
可以包括Fine-tuning(微调)和Reinforcement Learning from Human Feedback(RLHF,人类反馈的强化学习)等方法。 |
科技 |
审核中
|
| 1615391 |
0 |
post-training |
后训练 |
|
Post-training(后训练):
发生在预训练之后,模型部署前或部署初期。
针对特定的任务或数据集进行额外训练,以优化模型性能。
可以包括Fine-tuning(微调)和Reinforcement Learning from Human Feedback(RLHF,人类反馈的强化学习)等方法。 |
科技 |
审核中
|
| 1615390 |
0 |
深度伪造技术 |
deepfake |
|
深度伪造技术(Deepfake),是指“生成式对抗网络”(GAN)的机器学习模型将图片或视频合并叠加到源图片或视频上,借助神经网络技术进行大样本学习,将个人的声音、面部表情及身体动作拼接合成虚假内容的人工智能技术。深度伪造最常见方式是AI换脸技术,此外还包括语音模拟、人脸合成、视频生成等。它的出现使得篡改或生成高度逼真且难以甄别的音视频内容成为可能,观察者最终无法通过肉眼明辨真伪。
深度伪造这一概念最早出现在2016年,一开始专指基于深度学习的人像合成技术,后来这一概念扩展到视频伪造、声音伪造、文本伪造和微表情合成等多模态合成技术 。2021年3月18日,国家互联网信息办公室、公安部针对未履行安全评估程序的语音社交软件和涉“深度伪造”技术的应用,指导部分地方网信部门、公安机关依法约谈11家企业。
2024年春节期间,OpenAI发布的文生视频模型Sora横空出世,被认为是“AGI(人工通用智能)的里程碑”,将颠覆视频内容生成方式。有专家称,这类技术可能会导致“深度伪造”视频增多。 [16]2024年3月15日,媒体报道多起利用AI配音、AI换脸骗局。业内表示AI还没有像科幻小说描绘得那样拥有自我意识,犯罪的渊薮依旧指向了操刀的人。
“深度伪造”(Deepfake)是英文“deep learning”(深度学习)和“fake”(伪造)的混合词,即利用深度学习算法,实现音视频的模拟和伪造,也就是通过人工智能技术中的深度学习模型将图片或者视频叠加到原始图片或视频上,借助神经网络技术,对大量数据进行学习后,将人的声音、面部表情及身体动作拼接合成为非常逼真的虚假内容 。其是随着生成对抗网络(GAN)等深度学习技术的发展而出现的。最常见的方式是AI换脸(例如deepfake、face2face等技术),此外还包括语音模拟、人脸合成、视频生成等,统称为深度伪造。
2024年,春节期间,OpenAI发布的文生视频模型Sora横空出世,被认为是“AGI(人工通用智能)的重要里程碑”,将颠覆视频内容生成方式。Sora的出现,振奋科技圈的同时也衍生出了担忧的情绪。有专家称,这类技术可能会导致“深度伪造”视频增多,让人难以识别真伪。OpenAI自己也承认,无法预测人们使用Sora的所有有益方式,也无法预测人们滥用它的所有方式。
3月15日,媒体报道多起利用AI配音、AI换脸骗局。业内表示AI还没有像科幻小说描绘得那样拥有自我意识,犯罪的渊薮依旧指向了操刀的人。
|
通用高频词汇 |
已审核通过
|
| 1615389 |
0 |
针锋相对的关税措施 |
tit-for-tat tariffs |
|
China's tit-for-tat import taxes on some American goods came into effect on Monday, as the trade war between the world's two biggest economies escalates and US President Donald Trump threatens to hit more countries with tariffs.
随着世界两大经济体之间的贸易战不断升级,美国总统唐纳德·特朗普威胁对更多国家征收关税,中国对部分美国商品征收针锋相对的进口税于周一生效。
|
通用高频词汇 |
已审核通过
|
| 1615388 |
0 |
急急如律令 |
quickly quickly biu biu biu,fast fast biu biu biu |
|
《哪吒2》在好莱坞TCL中国大剧院举行北美首映礼,这本该是一场国漫出海的盛事,却因一句台词的翻译,掀起了轩然大波。
“quickly quickly biu biu biu”。“quickly quickly biu biu biu”。
“急急如律令”是中国道教文化中的经典咒语,最早源于汉代公文用语,意为“立即执行命令”。后来被道教吸收,用于符咒结尾,表达召唤神灵、驱邪除魔时的庄重与急切。
在现实生活中,也有人将急迫的事情,也称为急急如律令,不再限定于道教范围。 |
通用高频词汇 |
已审核通过
|
| 1615387 |
0 |
奖励设计 |
reward design |
|
奖励设计(Reward Design),为RL提供奖励信号。传统方法分为两种,一是从环境直接获取奖励信号,二是从专家数据或者偏好数据学习奖励。o1应该是混合了多种奖励设计的方法。比如有ground truth的环境,将结果监督(ORM)转换为过程监督(PRM)。没有ground truth的话,就用专家或者偏好数据来学习奖励。在大量领域上训练奖励模型,提升泛化性。 |
科技 |
已审核通过
|
| 1615386 |
0 |
策略初始化 |
policy initialization |
|
策略初始化(Policy Initialization),通过预训练、提示工程、监督微调,让模型具有初始的类人推理行为,比如问题理解、任务分解、验证修正错误等。 |
科技 |
已审核通过
|
| 1615385 |
0 |
啊哈时刻,顿悟时刻 |
aha moment |
|
在大模型(例如深度学习模型或生成式模型)的领域中,"aha moment" 通常是指研究者或开发者在理解某个关键概念、技术原理或模型行为时突然豁然开朗的瞬间。这种时刻往往会让人感到兴奋,因为之前可能感到困惑的问题终于被解决了。
以下是一些与大模型相关的 "aha moment" 场景示例:
模型能力的发现:
例如,当第一次观察到大型语言模型(如GPT)在没有明确编程的情况下展现出推理、翻译或逻辑思维能力时,很多人会感到惊讶,意识到模型的规模和多样性如何带来涌现能力。
训练原理的理解:
比如,有人可能在学习梯度下降或反向传播算法时,突然理解了这些数学公式如何通过反复调整权重优化模型性能。
参数规模与性能关系的领悟:
在研究过程中,突然明白为什么模型参数规模增加能够带来更好的泛化能力,并理解这种现象背后的统计与计算学原理。
语言模型的上下文依赖:
第一次意识到语言模型通过上下文信息生成与人类相似的连贯语言时,人们会感到惊艳。
跨领域迁移的能力:
观察到模型在未经过明确训练的新任务中表现优异(如少样本学习、零样本学习),这让人对其潜力和机制有更深的理解。
在这些时刻,"aha moment" 不仅是技术上的顿悟,也可能带来研究方向的转折、工程设计的改进或对技术应用更广阔潜力的认识。 |
科技 |
已审核通过
|