1.2.5 什么是G:单字接龙,三生万物
GPT是一种生成式AI,它拥有强大的语言文本生成功能,这与它独特的生成技术有关。生成式技术是一种在机器学习中广泛使用的方法,尤其在自然语言处理中。生成式模型的目标是学习数据的真实分布,然后能够生成与真实数据相伴的新数据。在自然语言处理中,生成式模型可以用来生成文本,如写文章、生成对话等。
GPT采用了一种独特的自回归生成式模型。在自回归模型中,模型预测的是下一个词,而预测的基础是所有已经生成的词。换句话说,模型在生成每一个词时,都会考虑到前面已经生成的所有词。这就像是在玩一个单字接龙的游戏,每一个新的词都是基于前面所有的词来生成的。
GPT使用了一种特殊的生成技术,叫作自回归模型。这个模型就像是在玩一个接龙游戏,每次都要在前面的词的基础上,生成一个新的词。比如,如果前面的词是“我爱”,那么模型可能会生成“你”这个词,形成“我爱你”这个句子,也有可能会生成“中国”这个词,形成“我爱中国”这个句子。至于到底选择“你”还是“中国”,又跟上下文相关。要注意的是GPT在选择下一个词时并不是只会选择出现概率排名最高的一个词,而是会有一定的随机性(跟模型参数有关),所以每次生成的文本不会完全一样,而是有所变化。
所以,GPT就像一个会接龙的作家,它可以根据前面的词,创作出新的词,从而生成一篇篇文本。这就是为什么GPT能够拥有强大的语言文本生成功能的原因。说到这里,你是不是想起了老子《道德经》里讲到的万物生成原理?所谓“道生一,一生二,二生三,三生万物”,当人工智能学会了生成语言,一个神奇的新宇宙就此诞生。
因为GPT的内容是生成而非搜索,所以它跟搜索引擎是不一样的。搜索引擎确实就像一个图书管理员,当你有问题时,它会在图书馆的大量信息中寻找并提供相关的资料或者书籍。搜索引擎会根据你的问题,找到最相关的网页或者信息,然后呈现给你。但是,搜索引擎并不理解这些信息的含义,它只是根据关键词和算法找到最相关的结果。而ChatGPT就像一个读完了图书馆里所有书的学者。它不仅知道哪里可以找到信息,更重要的是,它理解这些信息的含义。当你问一个问题时,ChatGPT不是简单地从数据库中提取出一个答案,而是根据它对大量文本的理解,生成一个新的、针对你问题的答案。这就像一个学者根据他的知识和理解,为你提供一个深思熟虑的答案。搜索引擎和ChatGPT的主要区别在于,搜索引擎提供的是已经存在的信息,而ChatGPT生成的是基于其理解的新的文本。
虽然这种方法如此强大,但任何事物都有两面性,这种方法也存在一些限制。首先,因为模型只能考虑到前面的词,所以它很难处理需要考虑后文的情况。另外,因为模型是基于数据统计来总结规律,然后根据规律进行推理,所以当它面对自己的知识库中不存在的问题时,可能会生成一些符合“规律”但是并不符合“事实”的回答,也就是它可能会“一本正经胡说八道”,这就像是在创造一种“幻觉”。
在使用GPT时,我们需要注意这些限制,并根据具体的情况来调整我们的期望。例如,我们可以通过提供更详细的提示,来帮助模型生成更符合我们需求的内容。