大模型应用开发极简入门:基于GPT-4和ChatGPT
上QQ阅读APP看书,第一时间看更新

译者序 没有谁天生就是 AI 工程师

从 2022 年末开始,以 ChatGPT 为代表的新一波人工智能热潮 GenAI 以前所未有的速度席卷全球。我们几乎每周都可以看到 GenAI 在各个领域的新用途:它可以回答各种问题、翻译文章、撰写报告、写一段有创意的营销文案、在编程项目中生成代码,甚至能够“看”到并为我们解释一张图片所蕴含的深刻意义。

我相信,以 GPT-4 为代表的大语言模型(LLM)将驱动新一轮技术革新,超过半数的应用程序在未来将以某种方式接入 LLM。随着算力规模化带来的模型推理成本大幅度降低,以及多模态、智能体等技术的演进,AI 领域很快就会产生更多新的应用场景,最终形成庞大的应用生态。生态系统爆炸式增长,围绕 AI 的全新产品和服务类别也正在不断涌现。

全世界最大的代码托管平台 GitHub 在其报告中1指出,2023 年的 GenAI 项目数量同比增长了 248%。大量的开发人员正在学习 GenAI 技术,并将新技术用于增强原有产品或者构建全新的 AI Native 应用程序2。AI 正在成为产品的核心组件。另外,与以往“传统”的 AI 技术不同的是,LLM 使个人构建 AI 项目变得更加容易。据 GitHub 的报告统计,由个人主导的 AI 项目数量同比增长了 148%。

1 数据参见“Octoverse: The state of open source and rise of AI in 2023”。

2 AI Native 应用程序是指从设计之初就内置了 AI 技术的应用程序。这类应用程序与传统的应用程序不同,因为它们不是在现有框架上添加 AI 功能,而是将 AI 集成为其核心组成部分。

作为国内较早投身于 GenAI 领域的产品经理和 LLM 应用技术的科普作者,我拿到这本书原稿的第一反应是,对于 LLM 驱动型应用程序的专业开发人员来说,这样一本小册子的知识量显得不足,这是因为我将自己代入了读者角色。实际上,这本书的目标读者并非已经做过 LLM 驱动型应用程序开发的专业开发人员,他们中的大多数可能向 ChatGPT 等聊天机器人提过问题,但对 LLM 相关技术没有太多关注,甚至可能一无所知。

在阅读完这本书之后,我发现作者正是考虑到了这一点,才以初学者的视角,为读者提供了清晰、全面的“最小可用知识”,目的是让开发人员快速上手实践,轻松体验到独立搭建第一个 AI 应用程序的乐趣。比如,书中的示例包括打造《塞尔达传说:旷野之息》专家、开发 YouTube 视频摘要生成器等,你完全可以将这本小册子当成自己的 LLM 项目快速启动手册。

2022 年底,OpenAI 经过一系列的工程技术处理,将 GPT 模型以一个自然语言交互应用形态(ChatGPT)推向市场。之后,领域从业者及爱好者才有了机会广泛接触和理解 LLM 及其背后的技术。比尔 · 盖茨在 GatesNotes 网站上发表的一篇文章提到3,LLM 将彻底改变每个人与计算机的交互方式,还将颠覆软件行业,引发从键入命令转向点击图标以来计算机领域最大的人机交互革命。在接下来的 5 年至 10 年中,随着 AI 服务成本的降低,人类将进入全民 AI 时代。AI 将不再仅属于少数的技术人员,任何可以上网的人都将能够拥有一个由 AI 技术驱动的个人助理。AI 助理会更加个性化,它将了解你的个人和工作关系、爱好和日程,可以帮助你接收和发送电子邮件、安排旅游行程、预定电影场次、为你的家庭理财配置提供建议等。在可预见的未来,掌握基本的 AI 知识将像现在掌握基本的计算机知识一样成为每个人的必备技能,每个人都将或多或少地具备定义 AI 的能力。

3 参见“AI is about to completely change how you use computers”。

对初学者而言,进入一个全新的领域无疑需要克服心理上的恐惧,对于像机器学习、自然语言处理这些直觉上技术门槛很高的领域更是如此。但接下来我要讲一个关于 OpenAI 联合创始人 Greg Brockman 的个人故事。

Greg Brockman 在 2019 年 7 月发表了一篇题为“How I became a machine learning practitioner”的博客文章,并在其中讲述了自己学习机器学习技术的历程。Greg 在加入 OpenAI 之前是 Stripe 公司的首席技术官,虽然已经是一位技术“大牛”,但他直到加入 OpenAI 3 年之后才开始以初学者的身份学习机器学习技术。在学习过程中,虽然有 OpenAI 同事的帮助,但他也跟普通人一样遇到了很多障碍和挫折,甚至自我怀疑,不过他最终还是坚持了下来。经过 9 个月的深入学习,Greg 成功地从传统软件工程师转型成为机器学习工程师。没有谁天生就是 AI 工程师,即使是 OpenAI 的联合创始人也需要学习。我希望这个真实的故事能对正准备投身于 AI 领域的你有所帮助。

任何一项新技术都存在一条技术成熟度曲线,LLM 技术在当下尚未迈入生产成熟期。2023 年,GenAI 技术以惊人的速度发展。我时不时感慨,自己在个人的职业生涯中,从没有在任何阶段需要像在这一年里一样快速学习如此多的新知识。在日常工作中应用新的 AI 技术,这一方面很大程度上提高了我的生产力,但另一方面,因为每天不停歇地关注 AI 领域内的最新进展,同时兴奋地研究新技术,我的工作总量反而增加了。这既让我感到兴奋,又让我深刻地感受到作为一个 AI 技术从业者所面临的挑战。

可以预见的是,在这本书上市之后,无论是 GenAI,还是基于 LLM 的应用程序开发,抑或是其他相关领域,都仍将继续以不可思议的速度发展。这就意味着,无论是编写一本技术书,还是成为相关技术领域的从业者,都需要抱着开放的心态,时刻拥抱新的变化,持续迭代自己的知识,更重要的是,乐于上手实践。

回到这本书,两位作者提供了非常清晰、系统的知识脉络,为想学习使用 LLM 构建应用程序的 Python 开发人员提供了全面的技术指导。这本书对于 LLM 驱动型应用程序开发初学者非常友好,有助于快速了解 GPT 等模型的原理特性,并学习如何使用流行的编程语言 Python 构建基于 AI 技术的解决方案。

通过这本书,你可以学到以下核心知识:

01. GPT-4 和 ChatGPT 的基本原理和优势,以及它们的工作方式;

02. 如何将这类模型集成到基于 Python 的自然语言处理应用程序中;

03. 如何使用 Python 开发基于 GPT-3.5 API 和 GPT-4 API 的文本生成、内容摘要等初级应用程序;

04. 进阶主题,包括提示工程、为特定任务微调模型、插件、LangChain 等。

我想提醒你的是,这本书的原版上市时间为 2023 年 8 月。同年 11 月,OpenAI 举办了首届开发者大会,并发布了推理能力更强、上下文窗口更大的 GPT-4 Turbo 模型,整体下调了各模型的调用价格,同时发布了方便开发人员定制的助手 API、GPTs 应用商店等。我在这本书各章的相关内容之处对此做了详细的注释。

虽然我已经仔细对书中的内容做了技术审校,但由于这一领域现象级的技术更替速度,这样的工作仍难以保证当你拿到这本书时,书中所介绍的技术或引用的插图还能代表最新进展。因此,我建议你在阅读过程中,结合 OpenAI 的最新开发文档来进行具体的开发实践。

学习一个全新的领域需要动机、热情、坚持和方法。能读到这篇译者序,说明你已经具备了最初的动机,可能是纯粹的好奇心,也可能是提升职业技能的意愿,这已经是一个很好的起点了。

同为这个领域的学习者,我想与你分享 Y Combinator 的联合创始人、《黑客与画家》作者 Paul Graham 在其个人博客网站上发表的一篇文章——“Superlinear Returns”(超线性回报)。他在文章中提到,我们在学习过程中的投入与回报是超线性的。在开始阅读这本书时:

● 你可能会对大量的术语和技术概念感到茫然无措;

● 你可能还需要查阅除这本书之外的其他资料;

● 你可能会担心按照这样的学习速度无论如何都达不到预期目标;

● ……

焦虑时不时会找上门,但请放心,为了获得一个扎实的立足点,最初的努力虽不轻松,但绝对值得。随着实践的深入,这个过程会变得越来越容易。这就是“超线性回报”——随着时间的投入,奖励曲线会在后期急剧上升。

最后,祝愿你能早日写出充满创意的 AI 应用程序,并在这个探索过程中找到乐趣。