查看原文
其他

微调工程研究必读·卡梅隆博士系列E03S02·开源LLM的历史:微调与对齐|A𝕀²·ℙarad𝕚gm化身范式工程方法系列

ai汤源 AI范儿 2023-08-22


图|arXiv论文截图

文|Cameron R. Wolfe/汤源
开源LLM的历史之微调与对齐
截图来自参考论文[1,2,12]

题记

AI范儿·社区公众号文章中,关于A𝕀²·ℙarad𝕚gm商业范式“挖矿”(详见附录)的工程方法,曾经转译过卡梅隆博士的提示工程论文研究综述系列,可以算作卡梅隆博士系列第一季(Season01)(暂列如下,同时会在文末做好图文链接,方便大家进阶阅读及查阅):
💡 卡梅隆博士系列第一季

▩提示工程系列

E01S01:「提示工程系列」转译(1):思维链(CoT)提示-一种实用而简单的LLM“推理”方法

E02S01:「提示工程系列」转译(2):实用提示工程-成功提示 LLM 的提示和技巧

E03S01:「提示工程系列」转译(3):提示工程进阶-当小样本学习还不足以解决问题怎么办?

E04S01:「提示工程系列」转译(4):提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能

A𝕀²·ℙarad𝕚gm商业范式“化身”完全基于开源大语言模型及其工程方法-微调(fine-tuning)。近日,卡梅隆博士在他的Deep(Learning)Focus 博客上连发3篇-开源LLM的历史-作了完整论文综述,本文作为AI范儿·卡梅隆博士系列第二季的第三篇(E03S02-Episode 03 Season 02),也是转译其3篇中的第三篇Part Three:
开源LLM的历史:微调与对齐(第三部分)
开源 LLM 需要微调和对齐才能脱颖而出...
注:原标题为Imitation与Alignment,Imitation在博士以往的文章也出现过,在A𝕀²·ℙarad𝕚gm V3的时候我曾经翻译成“蒸馏”,在V4版本应翻译成“化身”,但如果从工程范式层面来讲,最终选择翻译为:微调-Fine Tuning。后续笔者择机与博士探讨。
附:(注:会在文末做好图文链接,方便大家进阶阅读及查阅)
微调工程研究必读·卡梅隆博士系列E01S02·开源大语言模型LLM的历史:早期-A𝕀²·ℙarad𝕚gm之化身范式 
微调工程研究必读·卡梅隆博士系列E02S02·开源LLM的历史:更好的基础模型|A𝕀²·ℙarad𝕚gm化身范式工程方法系列
另:之所以对于A𝕀²·ℙarad𝕚gm商业范式的工程内容解读以卡梅隆博士的论文综述转译为主,主要考虑其专注与专业性:首先,综述选题紧跟这波AI发展脉络,非常独到而且有概括性;其次所有综述内容都是解读至少十数篇arXiv论文而来,而且行文精炼朴素,AI范儿奉为圭臬。
One More:在E01S02的公众号文章发布后,在𝕏上与卡梅隆博士取得了联系,并获得所转译的一系列文章的授权。

原文题记

之前对开源大语言模型(LLM)的研究大多集中在构建预训练的基础模型上。然而,这些模型没有经过任何微调,因此由于缺乏对齐,其质量无法与顶级闭源 LLM(如 ChatGPT 或 Claude)相提并论。付费模型广泛使用 SFT 和 RLHF 等微调技术进行对齐,这大大提高了它们的可用性。相比之下,开源模型通常使用较小的公共数据集进行较小程度的微调。不过,在本综述中,我们将介绍最近的一些研究,这些研究旨在通过更广泛的微调和对齐来提高开源 LLM 的质量。
本综述是我关于开源 LLM 历史系列的第三部分(也是最后一部分详见注释1)。在本系列的第一部分,我们回顾了创建开源语言模型的最初尝试。虽然这些最初的预训练 LLM 表现不佳,但很快就有了更好的开源基础模型,我们在本系列的第二部分介绍了这些模型。现在,我们将介绍如何对这些更好的开源模型进行微调/调整,以提高其质量并缩小开源 LLM 与专有 LLM 之间的性能差距,从而完成从最初的 OPT 等模型到我们今天所拥有的性能惊人的开源 LLM(例如 LLaMA-2-Chat)的历程。

“摘自论文[17,18]”
对齐过程|本概述将研究开源 LLM 的微调和调整过程。不过,在研究这一领域的研究之前,我们需要了解什么是对齐以及如何完成对齐。我们应该记得,语言模型的训练过程分为几个部分。如上图所示,我们首先进行预训练,然后是几个微调步骤。经过预训练后,LLM 可以准确地进行下一个标记的预测,但其输出可能是重复的、无趣的。因此,需要对模型进行微调,以提高其对齐度,或生成符合人类用户期望的文本的能力(例如,遵循指令、避免有害输出、避免撒谎、生成有趣或有创意的输出等)。

“摘自论文[17]”
监督微调|对齐是通过两种微调技术来实现的:监督微调(SFT)和人类反馈强化学习(RLHF)。监督微调技术使用标准的语言建模目标,通过高质量的提示和应答对示例,对模型进行简单的微调。LLM 可以看到它应该如何应答的示例,并从这些应答中学习!SFT 非常简单有效,但需要精心策划一个能捕捉 "正确 "行为的数据集
RLHF |直接根据人类注释者的反馈来训练 LLM--识别出人类喜欢的输出,LLM 学习如何产生更多类似的输出。为此,我们首先获得一组提示,并根据每个提示从 LLM 生成几种不同的输出。通过一组人类注释者,我们根据每个回复的质量进行评分。然后,这些分数可用于训练奖励模型(即我们的 LLM 的微调版本,并添加了回归头),以预测回复的分数。在此基础上,RLHF 会使用一种名为 PPO 的强化学习算法对模型进行微调,以最大限度地提高得分。通常情况下,性能最高的 LLM 会通过同时执行 SFT 和 RLHF(详见注释2)(大量人工反馈)进行排列。

化身学习范式(Imitation Learning)

“摘自论文[16]”
随着 LLaMA 的发布[3],开源研究社区终于可以使用强大的基础 LLM,这些 LLM 可以针对各种不同的应用进行微调或对齐。因此,LLaMa 催化了开源 LLM 研究的爆炸式增长,因为实践者们急于根据自己选择的任务对 LLaMA 模型进行微调。有趣的是,这一时期最常见的研究方向之一是模仿学习。模仿学习(可以说)是对齐的一种形式(详见注释3),它根据另一个更强大的 LLM 的输出结果对 LLM 进行微调。这种方法受到知识提炼思想的启发;见上图。
💡 “论文摘录”

“The premise of model imitation is that once a proprietary LM is made available via API, one can collect a dataset of API outputs and use it to fine-tune an open-source LM.” - from [6]

"模型模仿的前提是,一旦通过 API 提供了专有 LM,人们就可以收集 API 输出的数据集,并用它来微调开源 LM"。- 摘自[6]

开源模仿学习研究提出的问题很简单:我们能否通过对 ChatGPT 或 GPT-4 模型的反应进行微调,创建一个与这些模型一样强大的模型?为了验证这一点,我们可以采用一种简单的方法:
  • 从这些模型中收集对话示例(例如,使用 OpenAI API)。
  • 对这些数据进行(监督)微调(即使用普通语言建模目标)。

正如我们将看到的那样,在相当长的一段时间内,研究界对模仿学习是否是一种有价值的方法展开了激烈的争论!最后,我们发现这种方法实际上是有用的,但它只有在特定条件下才能很好地发挥作用。
化身(模仿)学习的初步尝试

“LLaMA 催化了众多模仿模型的诞生-摘自[7, 8, 9, 10]”
在 LLaMA 发布之后,研究人员很快就开始使用从 ChatGPT 派生的对话语料,发布各种模仿模型。通常情况下,用于训练的数据要么来自 OpenAI API,要么来自 ShareGPT 等来源,这就禁止了由此产生的模型用于商业用途。下面概述了几个最广为人知的模仿模型(按时间顺序排列)。
Alpaca [7] |通过使用 self-instruct [11] 框架自动收集来自 GPT-3.5 的微调数据集(即 text-davinci-003),对 LLaMA-7B 进行了微调。收集数据和微调 Alpaca 仅需 600 美元;请参阅此处[ https://cameronrwolfe.substack.com/i/114077195/alpaca-an-instruction-following-llama-model ]。
Vicuna [8]|对来自 ChatGPT(即源自 ShareGPT)的 70K 对话示例对 LLaMA-13B 进行了微调。有趣的是,Vicuna 的整个微调过程仅需 300 美元;更多详情,请参阅此处[ https://cameronrwolfe.substack.com/i/114077195/vicuna-an-open-source-chatbot-with-chatgpt-quality ]。

Koala [9] |在一个大型对话示例数据集上对 LLaMA-13B 进行了微调,该数据集既来自 Alpaca 微调集,也来自 ShareGPT、HC3、OIG、Anthropic HH 和 OpenAI WebGPT/Summarization。与之前的模仿模型相比,Koala 在更大的数据集上进行了微调,并进行了更广泛的评估;点击此处了解有关该模型的更多信息[ https://cameronrwolfe.substack.com/i/114077195/koala-a-dialogue-model-for-academic-research ]。

GPT4ALL [16]|在来自 GPT-3.5-turbo 的超过 800K 聊天完成上对 LLaMA-7B 进行了微调。除了模型,作者还发布了训练/推理代码和量化的模型权重,可用于使用最少的计算资源(如笔记本电脑)进行推理;更多详情,请点击此处。[ https://gpt4all.io/index.html ]

“摘自[8, 9]”
模仿的影响|这些模型相继发布,并声称其质量可媲美 ChatGPT 和 GPT-4 等顶级专利模型。例如,Vicuna 保持了 GPT-4(详见注释4) 92% 的质量,而 Koala 则在许多情况下达到或超过了 ChatGPT 的质量;见上图。这些发现似乎表明,模型模仿可用于将任何专有模型的能力提炼成较小的、开源的 LLM。如果这是真的,那么即使是最好的专有 LLM 的质量也可以很容易地被复制,而这些模型将没有真正的优势。
💡 “论文摘录”

“Open-source models are faster, more customizable, more private, and … more capable. They are doing things with $100 and 13B params that [Google] struggles with at $10M and 540B. And they are doing so in weeks, not months.” - from [9]

"开源模式更快、更可定制、更私密、......能力更强。他们用 100 美元和 1,300 亿美元的参数就能完成[谷歌]用 1,000 万美元和 5,400 亿美元都难以完成的任务。而且它们只需数周而不是数月就能完成。- 摘自[9]

自 GPT-3 提出以来,闭源代码 LLM 一直占据着 LLM 的主导地位,而模仿模型的爆发式增长则是开源代码模型真正被视为闭源代码 LLM 潜在替代品的首批实例之一。尽管付费应用程序接口的使用已成为标准,但模仿模型令人印象深刻的性能使人们对开源 LLM 产生了希望。

▩模仿模型是虚假承诺吗?

“摘自[6]”
尽管模仿模型的性能令人印象深刻,但我们在 [6] 中看到,我们还缺少一些重要的东西。也就是说,对这些模型进行更有针对性的评估后发现,它们的性能远不及 ChatGPT 和 GPT-4 等顶级专有 LLM。事实上,我们看到,在大多数情况下,通过模仿对基础模型进行微调实际上对缩小开源模型和专有模型之间的性能差距作用甚微。相反,由此产生的模型往往只能在微调集中大量存在的任务上提高性能,甚至会有更明显的幻觉倾向。

“摘自[6]”
实验设置|为了确定模仿学习的效用,[6] 中的作者从 ChatGPT 中整理出了一个包含约 13 万个不同对话实例的数据集。然后,通过不同数量的模仿数据对几种不同大小的语言模型进行微调,再对其性能进行测量。如上所述,我们可以从这些实验中得出一些有趣的结论:
  • 在人类评估试验中,用于微调的模仿数据量并不能提高模型质量。

  • 模仿模型在标准化基准上的表现往往比基础模型差(而且随着模仿数据的增加而恶化)。

  • 增大基础模型的规模可以持续提高模仿模型的质量。
这到底是怎么回事?|当我们在更广泛的自然语言基准中对模仿模型进行评估时,我们会发现它们的性能与相应的基础 LLM 不相上下,甚至低于基础 LLM。换句话说,模仿模型的质量实际上无法与 ChatGPT 等模型相提并论。与专有 LLM 相比,这些模型的知识库不够广泛,这一点可以从较大的基础模型的性能提升中看出。
💡 “论文摘录”

“We argue that the highest leverage action for improving open-source models is to tackle the difficult challenge of developing better base LMs, rather than taking the shortcut of imitating proprietary systems.” - from [6]

"我们认为,改进开源模型的最高杠杆行动是应对开发更好的基础 LM 这一艰巨挑战,而不是走模仿专有系统的捷径"。- 摘自[6]

有鉴于此,我们可能会提出的第一个问题是:为什么这些模型看起来表现如此出色?我们在 [6] 中看到,模仿模型会学习模仿 ChatGPT 这样的模型的风格。因此,即使该模型更频繁地生成与事实不符的信息(即更难轻松检查或验证),人类工作人员也会被诱骗,认为该模型是高质量的。

模仿学习真的有用吗?

💡 “论文摘录”

“Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.” - from [1]

"我们的研究表明,从逐步解释中学习,无论这些解释是由人类还是更先进的人工智能模型生成的,都是提高模型能力和技能的一个有前途的方向"。- 摘自[1]

在[6]的研究发现模仿模型的表现并不如最初想象的那么好之后,研究界对模仿模型是否真的有价值并不清楚。值得注意的是,[6] 中的分析表明,局部模仿--即学习模仿模型在特定任务中的行为,而不是模仿其整体行为--是相当有效的。然而,这并不意味着模仿模型的质量能与一般的专有模型相媲美。为了使模仿模型在总体上更加出色,[6] 中的作者提出了两条前进之路:

  • 生成更大更全面的模仿数据集
  • 创建更好的基础模型,用于模仿学习

有趣的是,这两项建议在随后的研究中都得到了广泛的探讨,并取得了积极的成果。

“摘自论文[12]”

Orca [12] |是一个基于 LLaMA-13B 的模仿模型;详情请参见此处。不过,与之前的模仿学习工作相比,Orca 是通过从 ChatGPT 和 GPT-4 收集的更高质量、更详细、更全面的数据集进行训练的。特别是,以前为模仿学习收集的数据集可以被认为是 "浅层 "的--它们只是由 ChatGPT 等模型生成的提示和回应对的例子;见上图。

💡 “论文摘录”

“We conclude that broadly matching ChatGPT using purely imitation would require a concerted effort to collect enormous imitation datasets and far more diverse and higher quality imitation data than is currently available.” - from [6]

"我们的结论是,要想纯粹利用模仿来广泛匹配 ChatGPT,就必须齐心协力收集庞大的模仿数据集以及远比目前可用的更多样、更高质量的模仿数据"。- 摘自[6]

在浅层模仿的基础上,Orca 尝试用 ChatGPT 或 GPT-4 等模型生成的模仿数据集进行扩充:

  • 解释跟踪
  • 循序渐进的思维过程
  • 复杂指令

为此,被模仿的模型要通过指令或系统信息对其反应作出详细解释。这种方法超越了简单的 "提示-响应 "对,它为模仿模型所看到的数据添加了额外的有用信息。在向 ChatGPT 等功能强大的 LLM 学习时,Orca 看到的不仅仅是模型的反应。也就是说,它可以从模型对复杂提示的反应所产生的详细解释和思维过程中学习!请看下面的示例。

“摘自论文[12]”

在对包含如此详细模仿数据的海量数据集(即来自 ChatGPT 的 500 万个示例和来自 GPT-4-详见注释5-的 100 万个示例)进行微调后,我们发现与之前的模仿模型相比,Orca 的表现令人难以置信;见下图。


尽管 Orca 大大缩小了开源模仿模型与专有 LLM 之间的差距,但我们仍然可以从下表中看到,该模型的性能始终被 GPT-4 所超越。遗憾的是,即使是改进的模仿方法,也不足以完全媲美顶级专有模型的质量。

尽管如此,Orca 令人印象深刻的性能表明,模仿学习是一种有价值的微调策略,它可以大幅提高任何高质量基础 LLM 的性能。更进一步,我们在 [12] 中了解到,成功利用模仿学习有两个主要要求:

  • 大型、全面的模仿数据集
  • 每个反应中的详细解释痕迹

更好的基础 LLM。尽管 [6] 中的作者认为,收集一个足够大且多样化的模仿学习数据集非常困难,但我们通过 Orca 看到,这样的壮举至少是有可能实现的。此外,后来的工作还广泛探讨了 [6] 中的另一个建议:创建更强大的(开源)基础模型。虽然开源预训练 LLM 一开始表现不佳,但我们最近看到了各种强大的预训练 LLM 的提出,例如 LLaMA [3]、MPT [14, 15] 和 Falcon [13]。鉴于模型预训练是后续任何微调(如模仿学习、SFT、RLHF 等)的起点,因此从更好的基础模型开始也能改进下游的模仿模型!幸运的是,我们在本系列第二部分中介绍了所有最好的开源预训练语言模型。详情请见如下链接。

微调工程研究必读·卡梅隆博士系列E02S02·开源LLM的历史:更好的基础模型|A𝕀²·ℙarad𝕚gm化身范式工程方法系列

对齐开源LLM

“摘自论文[5]”
模仿学习试图通过训练专有 LLM 的响应(和解释轨迹)来提高开源基础模型的质量。虽然这种方法在某些情况下是成功的,但这显然不是顶级专有模型的训练方式--模仿是创建强大开源模型的捷径。如果我们希望开源 LLM 的质量能与专有模型相媲美,我们就需要在对齐方面投入大量资金。
💡 “论文摘录”

“These closed product LLMs are heavily fine-tuned to align with human preferences, which greatly enhances their usability and safety. This step can require significant costs in compute and human annotation, and is often not transparent or easily reproducible.” - from [1]

"这些封闭产品的 LLM 经过了大量微调,以符合人类的偏好,从而大大提高了其可用性和安全性。这一步骤可能需要大量的计算和人工注释成本,而且往往不透明或不易复制"。- 摘自[1]

还有什么问题?|对齐开源化身模型的想法似乎很简单。我们有非常棒的基础模型,为什么不直接复制 GPT-4 等模型所使用的配准过程呢?对齐过程需要大量的计算和人力标注资源。此外,它还严重依赖于专有数据,这就限制了透明度,使复制结果变得相当困难。因此,在对齐研究方面,开源模型已经落后于专有模型相当长一段时间了。不过,在本节中,我们将探讨最近的两项工作--LIMA [2] 和 LLaMA-2 [1]--它们通过更好的对齐大大提高了开源 LLM 的质量。
开源对齐的前期工作
在介绍 LIMA 和 LLaMA-2 之前,有必要指出的是,开源研究社区并没有完全避免调整预训练模型。例如,Falcon-40B-Instruct [13] 对来自 Baize 的 1.5 亿 token 数据进行了 SFT。同样,MPT-7B [14] 和 MPT-30B [15] 的许多微调变体也已发布,包括在公共数据集上进行 SFT 的聊天/instruct 变体,以及在上下文长度更长的数据上进行微调的 StoryWriter 变体。

“摘自开源LLM排行榜”

另外,如果我们看一看开放 LLM 排行榜(见上图),就会发现各种不同的模型都通过 SFT 在各类不同的数据集上进行了微调。开源 LLM 并没有完全避免对齐。不过,顶级的专有模型都会在高质量对话和人类反馈的海量数据集上进行 SFT 和 RLHF。相比之下,大多数开源模型仅使用 SFT 对缺乏质量和多样性的公共数据集进行对齐。为了真正达到专有模型的质量,开源 LLM 需要尝试复制其对齐过程。

LIMA:数据高效对齐[2]

https://cameronrwolfe.substack.com/i/134561977/lima-less-is-more-for-alignment

💡 “论文摘录”

“A model’s knowledge and capabilities are learnt almost entirely during pretraining, while alignment teaches it which subdistribution of formats should be used when interacting with users.” - from [2]

"模型的知识和能力几乎完全是在预训练过程中学习的,而对齐则是教它在与用户交互时应使用哪种格式的子分布"。- 摘自[2]

如上所述,开源 LLM 在相当长的一段时间内主要通过 SFT 在公共数据集上进行对齐。鉴于对 SFT 的高度重视,作者在 [2] 中广泛研究了 SFT 对预训练 LLM 的影响。这项分析的目的是揭示在创建高性能 LLM 的过程中,通过 SFT 进行预训练和对齐的相对重要性,并揭示在进行 SFT 后最大化模型性能的最佳实践。
数据集|为此,[2] 中的作者构建了一个包含 1,000 个对话示例的小型数据集,用于 SFT。虽然这看起来似乎不够多,但这个数据集中的例子都是经过精心挑选的,通过使用不同的提示和统一的输出风格或语气来确保质量;见下文。

“摘自论文[2]”

用于训练 LIMA 的 SFT 数据集虽小,但质量却高得惊人。有趣的是,我们在文献[2]中看到,在对该数据集进行微调时,LIMA 的性能出奇地好,甚至接近 GPT-4 或 Claude 等最先进 LLM 的性能;见下图。

“摘自论文[2]”

这一结果揭示了语言模型可以通过少量精心选择的示例进行有效的对齐。尽管 LIMA 的性能仍未达到 GPT-4 的水平,但能用如此少的数据进行如此高质量的配准,既出乎意料又令人印象深刻。这样的结果告诉我们,数据质量似乎是通过 SFT 进行配准的最重要因素。

我们学到了什么?|我们从 LIMA 中汲取了各种有益的经验教训。首先,数据质量对 SFT 来说极其重要。仅仅使用更多的数据是不够的,还需要高质量的数据;见上图。此外,[2] 中的结果还提出了 "表层对齐假说",为对齐提供了一个新的独特视角。简单地说,这一假说认为,LLM的大部分核心知识都是在前期预训练中学到的,而对齐则是寻找适当的格式或风格来浮现这些知识。因此,对齐可以通过数据高效的方式学习。

LLaMA-2:提高对齐研究的透明度 [1]

💡 “论文摘录”

“Llama 2-Chat is the result of several months of research and iterative applications of alignment techniques, including both instruction tuning and RLHF, requiring significant computational and annotation resources.” - from [1]

"Llama 2-Chat 是数月研究和迭代应用对齐技术(包括指令调整和 RLHF)的成果,需要大量的计算和注释资源。- 摘自[1]

最近发布的 LLaMA-2 [1] LLM 套件由多个开源模型组成,参数规模从 70 亿到 700 亿不等。与它们的前身(即 LLaMA-1 [3])相比,LLaMA-2 模型的与众不同之处在于预训练的数据量增加了 40%(即从 1.4 万亿个词块增加到 2 万亿个词块),上下文长度更长,并使用了一种为快速推理而优化的架构(即通过使用分组查询注意 [4])。在开源模型中,LLaMA-2 达到了最先进的性能;更多信息请阅读下文。
LLaMA-2 Base Models:https://cameronrwolfe.substack.com/i/135439692/llama-current-state-of-the-art
然而,LLaMA-2 套件包含的不仅仅是预训练的 LLM。作者在对齐过程中投入了大量精力,通过使用 SFT 和 RLHF 在大量对话数据和人类反馈的基础上对每个模型进行微调;见下文。由此产生的模型被称为 LLaMA-2-Chat 模型。

“摘自论文[5]”
这些经过改进的 LLaMA-2 版本性能非常出色,在缩小开源和专有 LLM 之间的一致性差距方面迈出了重要一步。LLaMA-2 的调整过程强调两个关键行为特性:
  1. 有用性:模型能够满足用户的要求并提供所需的信息。

  2. 安全性:模型避免 "不安全 "的响应
为确保调整后的模型既有帮助又安全,为 SFT 和 RLHF 策划的数据都是根据这些原则进行筛选、收集和注释的。

“摘自论文[1]”
SFT|LLaMA-2 对齐过程的第一步是使用 SFT 进行微调。与其他开源 LLM 类似,LLaMA-2 也是首先根据公开的指令调整数据进行微调。然而,这些数据往往缺乏多样性和质量,正如 LIMA [2] 所证明的那样,这会严重影响性能。因此,[1]中的作者将重点放在为 SFT 收集较小的高质量数据集上。这些数据有多种来源,既包括人工创建或注释的示例,也包括经过质量筛选的公共来源数据。最终,LLaMA-2 利用 27,540 个高质量对话示例进行了第二阶段的微调;示例见上图。
💡 “论文摘录”

“Surprisingly, we found that the outputs sampled from the resulting SFT model were often competitive with SFT data handwritten by human annotators, suggesting that we could reprioritize and devote more annotation effort to preference-based annotation for RLHF.” - from [1]

"令人惊奇的是,我们发现从由此产生的 SFT 模型中采样的输出结果往往与人类注释者手写的 SFT 数据具有竞争性,这表明我们可以重新确定优先次序,将更多的注释精力投入到基于偏好的 RLHF 注释中"。- 摘自[1]

有趣的是,[1] 中的作者发现,为 SFT 收集更多数据(即 27K 个高质量示例之外的数据)所带来的好处越来越少。这些发现与 LIMA [2] 的经验分析一致。我们不需要为 SFT 提供大量数据,但数据应该是高质量的!有趣的是,文献[1]的作者还指出,经历过 SFT 的 LLaMA-2 模型似乎无论如何都能为 SFT 生成自己的数据。
RLHF|使用 RLHF(详见注释6 )对大于 100 万例人类反馈的数据集对 LLaMA-2 进行进一步微调。为了收集这些反馈,我们采用了一种二进制协议,即要求人类注释者编写一个提示,并从 LLM 生成的两个响应中选择较好的一个。在这里,人类偏好数据是根据有用性和安全性标准收集的。例如,以安全性为重点的人类偏好注释可能会鼓励注释者编写可能会引起不安全响应的对抗性提示。然后,人类注释者可以标注哪种回答(如果有的话)是可取和安全的。
💡 “论文摘录”

“Everything else being equal, an improvement of the reward model can be directly translated into an improvement for Llama 2-Chat.” - from [1]

"在其他条件相同的情况下,奖励模式的改进可以直接转化为 Llama 2-Chat 的改进"。- 摘自[1]

人类反馈数据分批收集,LLaMA-2 通过 RLHF 在每批数据之间进行微调。因此,每个 LLaMA-2-Chat 模型的多个版本--总共五个--都是在每次 RLHF 试验后迭代创建的。在 [1] 中,我们看到每次收集新的人类偏好数据时,都会训练一个新的奖励模型用于 RLHF,以确保奖励模型准确捕捉最新模型的人类偏好。此外,我们还发现,由此产生的奖励模型的质量对 LLaMA-2-Chat 模型的整体质量具有惊人的预测性。在整个迭代 RLHF 过程中,LLaMA-2 在超过 100 万个人类反馈实例上进行了微调。

“摘自论文[1]”
如上图所示,LLaMA-2-Chat 的质量--在有用性和安全性方面--在与 SFT 和 RLHF 的多次迭代对齐过程中都得到了平稳的改善。这种可视化方式清楚地描述了每种技术对最终模型质量的影响程度。也就是说,单靠 SFT 只能做到这一步!即使在应用了 SFT 之后,每执行一个阶段的 RLHF,模型的对齐情况都会得到显著改善。

“摘自开源LLM排行榜-前 5 名的所有模型均基于 LLaMA-2”
性能|LLaMA-2-Chat 模型是目前最先进的开源 LLM,如上面的开源 LLM 排行榜所示。当把 LLaMA-2-Chat 模型与 [1] 中其他流行的 LLM 进行比较时,我们发现它们在有用性和安全性方面远远超过了其他开源模型;见下图。

“摘自论文[1]”
此外,LLaMA-2 在有用性和安全性方面的表现甚至可与 ChatGPT 等顶级专有模型相媲美。简而言之,这些结果充分表明,LLaMA-2-Chat 模型的对齐质量很高。由此产生的模型往往能准确捕捉并符合所需的有用性和安全性标准。
💡 “论文摘录”

“[Alignment] can require significant costs in compute and human annotation, and is often not transparent or easily reproducible, limiting progress within the community to advance AI alignment research.” - from [1]

"[对齐]可能需要大量的计算和人工标注成本,而且往往不透明或不易复制,这限制了社区内推进人工智能对齐研究的进展"。- 摘自[1]

LLaMA-2 的重要性|LLaMA-2 对开源 LLM 研究的影响不仅仅是在性能方面树立了新的标杆。为什么?我们在 [2] 中看到,与之前的工作相比,LLaMA-2 采用了一种根本不同的方法。由于闭源 LLM 通常与大量专有、人工标注的数据保持一致,这一过程在开源研究中更难复制。虽然之前的开源模型大多利用 SFT 和公共对话数据源(详见注释7),但 LLaMA-2 是首批对对齐过程进行广泛投资的开源 LLM 之一,它为 SFT 和 RLHF 收集了大量高质量对话和人类偏好数据。

结束语

我们现在已经研究了从 OPT 到 LLAMA-2 的开源语言模型的整个历程。尽管在这两个模型之间进行了大量的研究,但它们的提出仅相隔一年!开源人工智能研究社区的发展非常迅速,跟上这一领域的研究步伐令人无比兴奋、有趣和有意义。能接触到像 LLaMA-2-Chat 这样强大的模型令人感到谦卑。作为实践者和研究人员,我们有能力使用这些模型,从中学习,并真正深入了解它们是如何工作的。这样的机会是独一无二的,不应被视为理所当然。特别是对于法律硕士来说,开源是一件很酷的事情!
(AI范儿·CPO-笔者有时自称-备注:再次感谢卡梅隆博士的大量专注、专业的工作,所有的论文综述类文章都遵循严谨的工程研究规范,在A𝕀²·ℙarad𝕚gm商业范式v4.0的一路迭代过程中,非常受益。)

Bibliography

[1] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv preprint arXiv:2307.09288 (2023). 

[2] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).

[3] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

[4] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints." arXiv preprint arXiv:2305.13245 (2023).

[5] “Introducing Llama2: The next generation of our open source large language model”, Meta, https://ai.meta.com/llama/.

[6] Gudibande, Arnav, et al. "The false promise of imitating proprietary llms." arXiv preprint arXiv:2305.15717 (2023).

[7] Taori,  Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).

[8] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).

[9] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).

[10] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.

[11] Wang, Yizhong, et al. "Self-instruct: Aligning language model with self generated instructions." arXiv preprint arXiv:2212.10560 (2022).

[12] Mukherjee, Subhabrata, et al. "Orca: Progressive Learning from Complex Explanation Traces of GPT-4." arXiv preprint arXiv:2306.02707 (2023).

[13] “Introducing Falcon LLM”, Technology Innovation Institute, https://falconllm.tii.ae/.

[14] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.” MosaicML, www.mosaicml.com/blog/mpt-7b.

[15] “MPT-30B: Raising the Bar for Open-Source Foundation Models.” MosaicML, www.mosaicml.com/blog/mpt-30b.

[16] Gou, Jianping, et al. "Knowledge distillation: A survey." International Journal of Computer Vision 129 (2021): 1789-1819.

[17] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[18] Glaese, Amelia, et al. "Improving alignment of dialogue agents via targeted human judgements." arXiv preprint arXiv:2209.14375 (2022).



▩原文注释

1 For now! I’m sure that I will write another post in this series after research on open-source LLMs continues to develop.

2 This “recipe”—commonly called the three-step technique—was proposed by InstructGPT (the sister model to ChatGPT) and has been heavily used by a variety of powerful LLMs ever since!

3 I’m not 100% sure whether imitation learning would be considered alignment. It is quite similar to SFT, where we choose dialogue examples for SFT from existing powerful LLMs (e.g., GPT-4). One could also consider imitation learning a form of generic fine-tuning or even an instruction tuning variant.

4 This metric is obtained via automatic evaluations that use GPT-4 as a judge.

5 Orca uses prompts from the FLAN collection to generate its imitation dataset, which takes several weeks to collect due to rate/token limits on the OpenAI API.

6 Interestingly, authors in [1] adopt two different approaches for RLHF, including the typical PPO variant of RLHF and a rejection sampling fine-tuning variant that i) samples K outputs from the model, ii) selects the best one, and iii) fine-tunes on this example. Notably, both methods are based upon reinforcement learning.

7 This public data may even come from other, powerful LLMs, as in the case of imitation learning. See, for example, dialogues available via ShareGPT.


附录


💡 A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1~v4范式迭代简介

AI范儿A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代,是一种全新的尝试,基本是沿着:“从GPT现象·看Prompt本质·找创投应用方向“这样的路径,在“AI范儿”社区一众群友prompt下共创并逐步思考迭代的过程。当前v4.0版本涵盖如下内容:1*整体框架与范式路径:(human level)Intelligence as a Service整体框架,与炼丹、挖矿、化身、具生4原生商业范式迭代路径2*服务路径:模型原生(models native)服务路径与卖铲子(shovels selling)服务路径

3*智能发展路径:通用人工智能(AGI)发展路径、面向个人智能伴侣(PIA)发展路径以及硅基原生(Silicon Stack)智能发展路径

范式思维升级:v4版A𝕀²·ℙarad𝕚gm范式框架一个重大升级就是思维范式的变化,研究对象从GPT现象上升到智能现象,同时纳入了和人类及其组织智能对等的硅基原生智能及其生态,甚至在具有某种自主意识的AI智能体“具生”范式里,考虑在world of bits的纯数字世界里,和人类无关的agent形态。对等智能体分别为Human Intelligence Species(含群体组织)与 Silicon Native Entities(含群体生态),区别为human是否in loop。因此对等智能体之间的价值交互可分为:
  • AI对于人类智能的增强
  • AI对于人类智能的替代
  • AI智能本体的自主化

四个GPT原生范式:及其对应的工程范式,版本迭代路径以及商业范式;并对每个原生范式的未来对应发展路径做了一一对应,具生范式是终极商业范式。

▩炼丹(pre-training) (v1. AIGC) - tokens as a service [~AGI/ASI]

▩挖矿(prompting) (v1. AIGC) - prompts as a service [~GPT agents]

▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service [~in-devices&on-premises agents]

▩具生(agents) (v3&v4. Promptless) - agents as a service [~world of atoms&bits | human in loop & Silicon Native Entities]
△附:A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1-v4范式迭代路径简介版
▩A𝕀²·ℙarad𝕚g𝕞整体框架示意图
说明:转发传播请注明出处,A𝕀²·ℙarad𝕚gm-Intelligence as a Service商业范式研究框架版权归AI范儿CPO所有。

“AI范儿的A𝕀²·ℙarad𝕚gm商业范式v4.0示意图”


进阶阅读


进阶阅读


卡梅隆博士系列E01S01:提示工程-CoT思维链实现LLM推理


卡梅隆博士系列E02S01:提示工程-实用提示工程建议与技巧


卡梅隆博士系列E03S01:提示工程-高级提示工程超越few-shot


卡梅隆博士系列E04S01:提示工程-提示合奏使LLM更可靠




卡梅隆博士系列E01S02:开源LLM的历史-早期


卡梅隆博士系列E02S02:开源LLM的历史-更好的基础模型



参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-CAMERON R. WOLFE:The History of Open-Source LLMs: Imitation and Alignment (Part Three)

https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-imitation


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存