1.4 开源社区的进展_ChatGPT速通手册-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.4 开源社区的进展

在ChatGPT以外，谷歌、脸书等互联网巨头，也都发布过千亿级参数的大语言模型，但在交谈问答方面表现相对ChatGPT来说都显得一般。根据科学人员推测，很重要的一部分原因是缺失了RLHF（Reinforcement Learning with Human Feedback，人类反馈强化学习）和PPO（Proximal Policy Optimization，近线策略优化）部分。因此，开源社区开始尝试在当前开源的千亿级参数大语言模型基础上，添加RLHF技术，尽力复现ChatGPT效果。

目前已知有两个开源项目在进行中：

● colossal:https://github.com/hpcaitech/ColossalAI/tree/main/applications/ChatGPT

● chatllama:https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama

目前而言，尚未看到这两个项目的实际性公开测试结论。一些零星的对LLAMA模型的单机版体验报告，也都表示达不到Meta公司发表的LLAMA论文中宣称的，更小参数规模匹配GPT-3效果的程度。

不过多年来，开源社区和商业厂商分阵营对抗的历史经验，依然让很多人目光投向了还在蹒跚学步的开源模型。甚至已经有岗位在招聘中开始要求“熟悉学界、业界最新研究成果，包括但不限于instructGPT、LLaMA、LaMDA，国内的悟道、M6等大模型”。

即使有了开源模型的第一步基础，要通过开源技术，在本地化部署环境中完整复现ChatGPT，还有重重难关。

首先，ChatGPT是千亿级参数规模的大模型，单独一张GPU卡连最基础的加载都无法完成。本地化训练需要大规模的GPU并行计算能力。OpenAI公司没有公布ChatGPT的训练成本，但外界有多种不同的猜测。第一种猜测依据OpenAI曾经公开的GPT-3训练数据，根据当时V100显卡的公有云最低优惠包年价，计算得到理论极限最低成本为460万美元。第二种猜测依据AI业界著名人士Elliot Turner的推文，但他没有提供这一消息的准确来源，据称是1200万美元。

此外，还有一些其他可类比的情况。比如上一次震惊世界的AI，围棋界的AlphaGo，训练投入是3500万美元。比如，NVIDIA公布自己的千亿级参数规模大模型Megatron-LM，训练过程使用了3072张80GB A100显卡。根据市价，一张A100显卡大概需要两万美元，这3072张显卡的市价超过六千万美元，转换为人民币大概在四五亿元左右。

考虑到GPU硬件技术的发展，每一代CPU产品性能都有接近50%的提升，重新训练一个ChatGPT的成本肯定会逐渐下降，但短期来看，至少两三年内，还不是一般科技公司可以畅想的未来。大家更可能的选择是在大公司的模型或云服务基础上，实现自己的上层应用。

其次，ChatGPT作为GPT-3.5的兄弟模型，在标准的GPT思想以外，还加入了RLHF（Reinforcement Learning from Human Feedback）技术，并针对Chat这个场景，引入了和instructGPT不同的标注数据：由专门的人员编写一部分对话数据加入训练。这些对话中，他们既扮演提问用户，也扮演AI机器人。然后ChatGPT在强化学习的奖励模型中，又让专门的人员对随机生成的若干条回答手动标记排名，通过PPO（Proximal Policy Optimization）策略进行微调。训练过程如下图所示。

在初始训练中，OpenAI公司只雇用40个标注人员。但产品上线以后，ChatGPT两个月内获取了1亿用户，海量标注数据在产品运行中自然而然地产生。在最近一次用户协议迭代中，OpenAI公司宣布直接使用API调用ChatGPT能力的用户数据不会被用于训练。换言之：通过网页端直接聊天的数据，已经足够ChatGPT的模型优化更新了。

中国在以往的AI应用中，同样大量使用了标注手段，相对低廉的人工成本和工程师成本在这方面也有一定的优势。但这些数据，是否会公开成为开源模型的一部分，供所有公司使用？还是沿着ChatGPT的路线，几家大公司比拼谁能更早构建用户反馈数据的护城河？

最后，即使获得了可靠的预训练大模型，在本地化部署环境做推理计算，也有较高的成本。对特定领域内容进行微调也有一定难度。可能后续还需要引入一些模型压缩方案，例如量化、蒸馏、剪枝、参数共享等。知识蒸馏是之前大模型压缩的常用方案，但目前ChatGPT只开放API，不开放模型，就很难直接进行知识蒸馏。一种可能的途径是利用ChatGPT的思维链功能，将问答记录里的思维链过程作为压缩小模型的训练数据。但这种使用方式在OpenAI的用户协议中是明确禁止商用的。

无论如何，作为ChatGPT技术的使用者，我们可以关注类似技术的迭代更新，并保持对几年后技术普及化的美好期待。