现在有一个 ChatGPT 的开源替代品，但祝你运行它好运

OpenAI 的 ChatGPT 的第一个开源等价物在这里，但祝你在笔记本电脑上运行它好运 - 或者根本不运行它。

本周，负责逆向工程封闭式 AI 系统（包括 Meta 的 Make-A-Video）的开发人员 Philip Wang 发布了 PaLM+RLHF，这是一种文本生成模型，其行为方式与 ChatGPT 相同。该系统结合了 PaLM，一种来自谷歌的大型语言模型，以及一种称为强化学习与人类反馈（简称 RLHF）的技术，创建了一个可以执行 ChatGPT 可以执行的几乎任何任务的系统，包括写电子邮件和建议计算机代码。

但是 PaLM + RLHF 没有预训练。也就是说，该系统尚未接受实际工作所需的来自网络的样本数据的训练。下载 PaLM+RLHF 不会神奇地安装类似 ChatGPT 的体验 - 这需要编译模型可以从中学习的千兆字节文本，并找到足够强大的硬件来处理训练工作量。

与 ChatGPT 一样，PaLM+RLHF 本质上是一种预测单词的统计工具。当从训练数据中输入大量示例时（例如，Reddit 帖子、新闻文章和电子书），PaLM+RLHF 会根据周围文本的语义上下文等模式学习单词出现的概率。

ChatGPT 和 PaLM+RLHF 在利用人类反馈进行强化学习方面有共同之处，这种技术旨在更好地使语言模型与用户希望他们完成的任务保持一致。 RLHF 涉及训练一个语言模型——在 PaLM + RLHF 的情况下，PaLM——并将其拟合到一个数据集上，该数据集包括与人类志愿者对模型的期望相关的提示（例如，“向六岁的孩子解释机器学习”）。说（例如，“机器学习是人工智能的一种形式……”）。然后将上述提示传递给改进后的模型，生成多个响应，志愿者将所有响应从最佳到最差进行排序。最后，排名用于形成一个“奖励模型”，该模型从原始模型中获取响应并按偏好顺序对它们进行排序，过滤出对给定提示的最佳响应。

收集训练数据是一个昂贵的过程。而且培训本身并不便宜。 PaLM 有 5400 亿个参数，“参数”指的是语言模型从训练数据中学习到的部分。 2020 年的一项研究表明，开发一个只有 15 亿个参数的文本生成模型的费用为 160 万美元。并使用 384 个 Nvidia A100 GPU 训练了拥有 1760 亿个参数的开源 Bloom 模型，耗时三个月；单个 A100 的价格为数千美元。

运行 PaLM + RLHF 大小的训练模型也不是微不足道的。 Bloom 需要配备大约八个 A100 GPU 的专用 PC。云替代方案非常昂贵，粗略计算表明，在 Amazon Web Services 的单个实例上运行 OpenAI 的 GPT-3 文本生成器（具有大约 1750 亿个参数）的成本每年约为 87,000 美元。< /p>
人工智能研究员 Sebastian Raschka 在 LinkedIn 上关于 PaLM+RLHF 的帖子中指出，扩大必要的开发工作流程也可能很困难。 “即使有人为你提供 500 个 GPU 来训练这个模型，你仍然需要管理基础设施并拥有一个可以处理它的软件框架，”他说。 “这显然是可能的，但现在需要付出很大的努力（当然，我们正在开发框架以使其更容易，但这还不是微不足道的）。”

这就是说 PaLM+ RLHF 今天不会取代 ChatGPT - 除非资金雄厚的公司（或个人）费心训练它并使其公开可用。

好消息是，其他几项复制 ChatGPT 的工作正在快速推进，其中包括一个名为 CarperAI 的研究小组领导的工作。与开放式人工智能研究组织 EleutherAI 以及初创公司 Scale AI 和 Huggin 合作……

技术 Jan 1, 2023 0 11 Add to Reading List

OpenAI 的 ChatGPT 的第一个开源等价物在这里，但祝你在笔记本电脑上运行它好运 - 或者根本不运行它。

本周，负责逆向工程封闭式 AI 系统（包括 Meta 的 Make-A-Video）的开发人员 Philip Wang 发布了 PaLM+RLHF，这是一种文本生成模型，其行为方式与 ChatGPT 相同。该系统结合了 PaLM，一种来自谷歌的大型语言模型，以及一种称为强化学习与人类反馈（简称 RLHF）的技术，创建了一个可以执行 ChatGPT 可以执行的几乎任何任务的系统，包括写电子邮件和建议计算机代码。

但是 PaLM + RLHF 没有预训练。也就是说，该系统尚未接受实际工作所需的来自网络的样本数据的训练。下载 PaLM+RLHF 不会神奇地安装类似 ChatGPT 的体验 - 这需要编译模型可以从中学习的千兆字节文本，并找到足够强大的硬件来处理训练工作量。

与 ChatGPT 一样，PaLM+RLHF 本质上是一种预测单词的统计工具。当从训练数据中输入大量示例时（例如，Reddit 帖子、新闻文章和电子书），PaLM+RLHF 会根据周围文本的语义上下文等模式学习单词出现的概率。

ChatGPT 和 PaLM+RLHF 在利用人类反馈进行强化学习方面有共同之处，这种技术旨在更好地使语言模型与用户希望他们完成的任务保持一致。 RLHF 涉及训练一个语言模型——在 PaLM + RLHF 的情况下，PaLM——并将其拟合到一个数据集上，该数据集包括与人类志愿者对模型的期望相关的提示（例如，“向六岁的孩子解释机器学习”）。说（例如，“机器学习是人工智能的一种形式……”）。然后将上述提示传递给改进后的模型，生成多个响应，志愿者将所有响应从最佳到最差进行排序。最后，排名用于形成一个“奖励模型”，该模型从原始模型中获取响应并按偏好顺序对它们进行排序，过滤出对给定提示的最佳响应。

收集训练数据是一个昂贵的过程。而且培训本身并不便宜。 PaLM 有 5400 亿个参数，“参数”指的是语言模型从训练数据中学习到的部分。 2020 年的一项研究表明，开发一个只有 15 亿个参数的文本生成模型的费用为 160 万美元。并使用 384 个 Nvidia A100 GPU 训练了拥有 1760 亿个参数的开源 Bloom 模型，耗时三个月；单个 A100 的价格为数千美元。

运行 PaLM + RLHF 大小的训练模型也不是微不足道的。 Bloom 需要配备大约八个 A100 GPU 的专用 PC。云替代方案非常昂贵，粗略计算表明，在 Amazon Web Services 的单个实例上运行 OpenAI 的 GPT-3 文本生成器（具有大约 1750 亿个参数）的成本每年约为 87,000 美元。< /p>

人工智能研究员 Sebastian Raschka 在 LinkedIn 上关于 PaLM+RLHF 的帖子中指出，扩大必要的开发工作流程也可能很困难。 “即使有人为你提供 500 个 GPU 来训练这个模型，你仍然需要管理基础设施并拥有一个可以处理它的软件框架，”他说。 “这显然是可能的，但现在需要付出很大的努力（当然，我们正在开发框架以使其更容易，但这还不是微不足道的）。”

这就是说 PaLM+ RLHF 今天不会取代 ChatGPT - 除非资金雄厚的公司（或个人）费心训练它并使其公开可用。

好消息是，其他几项复制 ChatGPT 的工作正在快速推进，其中包括一个名为 CarperAI 的研究小组领导的工作。与开放式人工智能研究组织 EleutherAI 以及初创公司 Scale AI 和 Huggin 合作……