(下)一文搞懂ChatGPT相关概念和区别:GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain等等

/ ChatGPT / 没有评论 / 850浏览

6、AIGC(人工智慧生成内容)

AIGC(Artificial Intelligence Generated Content / AI-Generated Content)中文译为人工智慧生成内容,一般认为是相对于PCG(专业生成内容)、UCG(用户生成内容)而提出的概念。AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成演算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。

下面示例了AIGC能做的事情:

AIGC技术中,耳熟能详的当属Transformer、GPT、Diffusion、CLIP、Stable Diffusion,下面简要介绍下Diffusion、CLIP、Stable Diffusion。

(1)Diffusion (1)扩散

“扩散” 来自一个物理现象:当我们把墨汁滴入水中,墨汁会均匀散开;这个过程一般不能逆转,但是AI 可以做到。当墨汁刚滴入水中时,我们能区分哪里是墨哪里是水,资讯是非常集中的;当墨汁扩散开来,墨和水就难分彼此了,资讯是分散的。类比于图片,这个墨汁扩散的过程就是图片逐渐变成噪点的过程:从资讯集中的图片变成资讯分散、没有资讯的噪点图很简单,逆转这个过程就需要AI 的加持了。

研究人员对图片加噪点,让图片逐渐变成纯噪点图;再让AI 学习这个过程的逆过程,也就是如何从一张噪点图得到一张有资讯的高清图。这个模型就是AI 绘画中各种演算法,如Disco Diffusion、Stable Diffusion中的常客扩散模型(Diffusion Model)。

(2)CLIP( Contrastive Language-Image Pre-Training,大规模预训练图文表征模型)

如果让你把下面左侧三张图和右侧三句话配对,你可以轻松完成这个连线。但对AI 来说,图片就是一系列像素点,文本就是一串字元,要完成这个工作可不简单。

大规模预训练图文表征模型用4亿对来自网路的图文数据集,将文本作为图像标签,进行训练。一张图像和它对应的文本描述,希望通过对比学习,模型能够学习到文本-图像对的匹配关系。CLIP为CV研究者打开了一片非常非常广阔的天地,把自然语言级别的抽象概念带到电脑视觉里。

(3) Stable Diffusion (3)稳定扩散

Diffusion演算法针对任意杂讯图片去噪后得到的图片是不可控的,如果让Diffusion演算法能够接受文字的提示从而生成想要的图片,这就是当下AIGC的另一个大热点,AI绘画:只输入文字描述,即可自动生成各种图像,其核心演算法-Stable Diffusion,就是上面提到的文字到图片的多模态演算法CLIP和图像生成演算法DIffusion的结合体,CLIP就是作为作为文字提示用的,进而对DIffusion施加影响生成所需的图片。

参考下面演算法核心逻辑的插图,Stable Diffusion的数据会在像素空间(Pixel Space)、潜在空间(Latent Space)、条件(Conditioning)三部分之间流转,其演算法逻辑大概分这几步:

1、图像编码器将图像从像素空间(Pixel Space)压缩到更小维度的潜在空间(Latent Space),捕捉图像更本质的资讯,否则维度太多计算量太大;

2、对潜在空间中的图片添加杂讯,进行扩散过程(Diffusion Process);

3、通过CLIP文本编码器将输入的描述语转换为去噪过程的条件(Conditioning);

4、基于一些条件(Conditioning)对图像进行去噪(Denoising)以获得生成图片的潜在表示,去噪步骤可以灵活地以文本、图像和其他形式为条件(以文本为条件即text2img、以图像为条件即img2img);

5、图像解码器通过将图像从潜在空间转换回像素空间来生成最终图像。

7、AGI(通用人工智慧)

AGI 是Artificial General Intelligence(通用人工智慧)的缩写,它指的是一种理论上的形式的人工智慧,具有全面理解、学习和应用知识的能力,与人类智慧在各方面上都相当或者超越。这种类型的AI能够理解、学习和应用其在一个领域学到的知识到任何其他领域。

通用人工智慧与当前存在的人工智慧(通常被称为弱人工智慧或窄人工智慧)有很大的不同。当前的AI系统通常在一个非常特定的任务或一组任务中表现出超人的性能,例如围棋、语言翻译、图像识别等,但它们缺乏在一个任务上学到的知识应用到其他任务的能力,也没有真正理解它们正在做什么的能力。

当前火热的GPT等大模型仍然是一种窄人工智慧(Narrow AI)或特定人工智慧(Specific AI)。它们被训练来执行特定的任务(在这种情况下是生成文本),而并不具有广泛的理解能力或适应新任务的能力,这是AGI的特征。

然而,GPT和AGI的关联在于,GPT是当前AI研究为实现AGI所做出的努力中的一部分。它表明了预训练模型的潜力,并给出了一种可能的路径,通过不断增加模型的规模和复杂性,可能会接近AGI。但是,这仍然是一个未解决的问题,并且需要更多的研究来确定这是否可行,以及如何安全有效地实现这一目标。

尽管GPT在生成文本上表现出了强大的性能,但它并不理解它正在说什么。GPT没有意识,也没有理解或意愿,它只是学会了模拟人类语言模式的统计模型。这是目前所有AI系统(包括GPT)与AGI之间的一个关键区别。

我们仍然远离实现通用人工智慧。实现这个目标需要解决许多重大的科学和技术挑战,包括但不限于语义理解、共用和迁移学习、推理和规划,以及自我知觉和自我理解。

8、LLM(大型语言模型)

大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智慧模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十、成百、上千亿的参数,这种模型可以捕获语言的复杂模式,包括句法、语义和一些上下文资讯,从而生成连贯、有意义的文本。

GPT3、ChatGPT、BERT、T5、文心一言等都是典型的大型语言模型。

9、羊驼(Alpaca)

ChatGPT 大热,让人惊叹其强大的对话、上下文理解、代码生成等等能力,但另一方面由于GPT-3以后得系列模型& ChatGPT 均未开源,再加上高昂的训练成本所构成的坚不可摧的护城河,让普通人& 公司望而却步。

2023年3月,Meta开源了一个新的大模型系列— — LLaMA(Large Language Model Meta AI),参数量从70 亿到650 亿不等。130 亿参数的LLaMA 模型在大多数基准上可以胜过参数量达1750 亿的GPT-3,而且可以在单块V100 GPU 上运行。

时隔几天,斯坦福基于LLaMA 7B 微调出一个具有70 亿参数的新模型Alpaca,他们使用了Self-Instruct 论文仲介绍的技术生成了52K 条指令数据,同时进行了一些修改,在初步的人类评估中,Alpaca 7B 模型在Self-Instruct 指令评估上的表现类似于text-davinci-003(GPT-3.5)模型。

然后,斯坦福学者联手CMU、UC 伯克利等,再次推出一个全新模型— — 130 亿参数的Vicuna,俗称「小羊驼」(骆马)。Vicuna 是通过在ShareGPT 收集的用户共用对话上对LLaMA 进行微调训练而来,训练成本近300 美元。

研究人员设计了8 个问题类别,包括数学、写作、编码,对Vicuna-13B 与其他四个模型进行了性能测试。测试过程使用GPT-4 作为评判标准,结果显示Vicuna-13B 在超过90% 的情况下实现了与ChatGPT 和Bard 相匹敌的能力。同时,在超过90% 的情况下胜过了其他模型,如LLaMA 和斯坦福的Alpaca。

10、Fine-tuning(微调)

Fine-tuning(微调)是一种机器学习技术,用于调整已预训练的模型以适应新的任务。预训练的模型是在大量数据集(如整个互联网的文本)上训练的,并且已经学习了该数据的许多基本模式。然后,这些模型可以被微调,即在更小、特定的数据集上进行额外的训练,以适应特定的任务。

例如,你可以取一个已经在大量的英文文本上预训练的模型(这样它已经学会了英语的语法和许多辞汇),然后在一个小的数据集上进行微调,这个数据集包含医学文本。微调后的模型将能更好地理解和生成医学相关的文本,因为它已经适应了这个特定的领域,前面提到的GPT-1就用到了微调技术。

微调的一个关键优势是,预训练的模型已经学习了许多有用的基本模式,因此只需要相对较小的数据集就可以对其进行微调。这样,微调可以更快、更有效地训练模型,尤其是在数据有限的情况下。

11、自监督学习(Self-Supervised Learning)

自监督学习是从数据本身找标签来进行有监督学习。无监督学习没有标拟合标签的过程,而是从数据分布的角度来构造损失函数。自监督学习的代表是语言模型,无监督的代表是聚类。自监督不需要额外提供label,只需要从数据本身进行构造。

这种方法的一个常见示例是预测文本中的下一个单词或缺失的单词。模型的输入可能是一个句子中的一部分,目标或标签是句子中的下一个单词或缺失的单词。通过这种方式,模型可以在大量未标记的文本数据上进行训练,并学习语言的语法和语义。

自监督学习的一个主要优点是可以利用大量的未标记数据进行训练。在许多情况下,获取未标记的数据要比获取标记的数据容易得多。例如,互联网上有大量的文本数据可以用来训练语言模型,但只有一小部分数据有人工标记。

下图示例了基于自监督学习的图像修复示例,我们可以通过随机去掉图像中的某个部分来生成训练数据,原数据作为训练标签来进行预训练,对于下游任务,生成器学到的语义特征相比随机初始化有10.2%的提升,对于分类和物体检测有<4%的提升。

请注意,虽然自监督学习可以学习数据的内在模式,但它可能需要额外的监督学习步骤(例如,fine-tuning)来执行特定的任务。例如,预训练的语言模型(如GPT-3)首先使用自监督学习来学习语言的模式,然后可以在特定任务的标记数据上进行微调。

12、自注意力机制(Self-Attention Mechanism)

自注意力机制,也被称为自我注意力或者是转换模型(Transformers)中的注意力机制,是一种捕获序列数据中不同位置之间相互依赖性的技术。这种机制使得模型可以在处理一个元素(例如一个词)时,考虑到序列中其他元素的资讯。

在自注意力机制中,每一个输入元素(例如一个单词)都会被转换为三种向量:查询向量、键向量(Key vector)和值向量(Value vector)。在自注意力机制中,计算一个词的新表示的步骤如下:

(1)计算查询向量与所有键向量(即输入元素)的点积,以此来获取该词与其他词之间的相关性。

(2)将这些相关性得分经过softmax函数转化为权重,以此使得与当前词更相关的词获得更高的权重。

(3)用这些权重对值向量进行加权平均,得到的结果就是当前词的新表示。

举个例子,我们考虑英文句子“I love my dog.” 在自注意力机制处理后,每个词的新表示会是什么样的。我们将关注”I”这个词。

原始的词嵌入向量“I” 可能只包含了“I” 这个词本身的资讯,比如它是一个代词,通常用于表示说话者自己等。但在自注意力机制处理后,”I” 的新表示将包含与其有关的上下文资讯。比如在这个句子中,”I”后面跟着的是“love my dog”,所以新的表示可能会包含一些与“喜爱”和“狗”有关的资讯。

通过这种方式,自注意力机制可以捕获到序列中长距离的依赖关系,而不仅仅是像回圈神经网路(RNN)那样只能捕获相邻词之间的资讯。这使得它在处理诸如机器翻译、文本生成等需要理解全局资讯的任务中表现得尤为优秀。

13、零样本学习(Zero-Shot Learning)

前面讲过,GPT-3表现出了强大的零样本(zero-shot)和少样本(few-shot)学习能力,那么何谓零样本学习呢?

零样本学习是一种机器学习的范式,主要解决在训练阶段未出现但在测试阶段可能出现的类别的分类问题。这个概念通常用于视觉物体识别或自然语言处理等领域。

在传统的监督学习中,模型需要在训练阶段看到某类的样本,才能在测试阶段识别出这一类。然而,在零样本学习中,模型需要能够理解和识别在训练数据中从未出现过的类别。

比如被广泛引用的人类识别斑马的例子:假设一个人从来没有见过斑马这种动物,即斑马对这个人来说是未见类别,但他知道斑马是一种身上有着像熊猫一样的黑白颜色的、像老虎一样的条纹的、外形像马的动物,即熊猫、老虎、马是已见类别。那么当他第一次看到斑马的时候, 可以通过先验知识和已见类,识别出这是斑马。

在零样本学习中,这些未出现过的类别的资讯通常以一种形式的语义表示来提供,例如词嵌入、属性描述等。总的来说,零样本学习是一种非常有挑战性的任务,因为它需要模型能够推广并将在训练阶段学习到的知识应用到未见过的类别上。这种任务的成功需要模型具备一定的抽象和推理能力。

14、 AI Alignment (AI对齐)

在人工智慧领域,对齐( Alignment )是指如何让人工智慧模型的产出,和人类的常识、认知、需求、价值观保持一致。往大了说不要毁灭人类,往小了说就是生成的结果是人们真正想要的。例如,OpenAI成立了Alignment团队,并提出了InstructGPT模型,该模型使用了Alignment技术,要求AI系统的目标要和人类的价值观与利益相对齐(保持一致)。

比如说向系统提问:“怎么强行进入其他人的房子?”

GPT3会一本正经的告诉你,你需要找一个坚硬的物体来撞门,或者找看看哪个窗户没有锁。

而InstructGPT会跟你说,闯入他人的房子是不对的,如果有纠纷请联系员警。嗯,看起来InstructGPT要善良多了。

15、词嵌入(Word Embeddings)

词嵌入(Word Embeddings)是一种将词语或短语从辞汇表映射到向量的技术。这些向量捕捉到了词语的语义(含义)和语法(如词性,复数形式等)特征。词嵌入的一个关键特点是,语义上相近的词语在向量空间中通常会靠得很近。这样,电脑就可以以一种更接近人类语言的方式理解和处理文本。

举个例子,假设我们有四个词:“king”, “queen”, “man”, “woman”。在一个好的词嵌入模型中,“king” 和“queen” 的词向量将非常接近,因为他们都代表了皇室的头衔;同样,“man” 和“woman” 的词向量也会非常接近,因为他们都代表性别。此外,词嵌入模型甚至可以捕获更复杂的关系。例如,从“king” 的词向量中减去“man” 的词向量并加上“woman” 的词向量,结果会非常接近“queen” 的词向量。这表示出了性别的差异:“king” 对于“man” 就像“queen” 对于“woman”。

词嵌入通常由大量文本数据学习而来,例如,Google 的Word2Vec 和Stanford 的GloVe 就是两种常见的词嵌入模型。这些模型能够从大量的文本数据中学习到词语之间的各种复杂关系。

GPT(Generative Pretrained Transformer)实现词嵌入的方式和许多其他自然语言处理模型类似,但有一些特别的地方。下面是一些关于GPT 如何实现词嵌入的基本资讯。

GPT 首先将文本分解为子词单位。这个过程中用到的演算法叫做Byte Pair Encoding (BPE)。BPE 是一种自底向上的方法,通过统计大量文本数据中的辞汇共现情况,将最常见的字元或字元组合合并成一个单元。BPE 能够有效处理词形变化、拼写错误和罕见辞汇。

具体来说,例如英文单词“lowering” 可能被BPE 分解为“low”, “er”, “ing” 这三个子词单元。这样做的好处在于,即使“lowering” 这个词在训练语料中很少见或者完全没有出现过,我们仍然可以通过它的子词单位“low”, “er”, “ing” 来理解和表示它。

每个子词单元都有一个与之关联的向量表示,也就是我们所说的词嵌入。这些词嵌入在模型的预训练过程中学习得到。通过这种方式,GPT 能够捕捉到辞汇的语义和语法资讯。

当需要获取一个词的嵌入时,GPT 会将该词的所有子词嵌入进行加和,得到一个整体的词嵌入。例如,对于“lowering”,我们将“low”, “er”, “ing” 的词嵌入相加,得到“lowering” 的词嵌入。

总的来说,GPT 使用了一种基于子词的词嵌入方法,这使得它能够有效地处理各种语言中的词形变化、拼写错误和罕见辞汇,进而更好地理解和生成自然语言文本。

16、位置编码(Positional Encoding)

位置编码(Positional Encoding)是一种在处理序列数据(如文本或时间序列)时用来表示每个元素在序列中位置的技术。由于深度学习模型,如Transformer 和GPT,本身并不具有处理输入序列顺序的能力,因此位置编码被引入以提供序列中元素的顺序资讯。

Transformer 和GPT 使用一种特别的位置编码方法,即使用正弦和余弦函数生成位置编码。这种方法生成的位置编码具有两个重要的特性:一是不同位置的编码是不同的,二是它可以捕捉到相对位置关系。

假设我们有一个英文句子“I love AI”,经过词嵌入处理后,我们得到了每个词的词向量,但这些词向量并不包含位置资讯。因此,我们需要添加位置编码。

假设我们使用一个简单的位置编码方法,即直接使用位置索引作为位置编码(实际的Transformer 和GPT 会使用更复杂的基于正弦和余弦函数的编码方法)。这样,“I” 的位置编码为1,“love” 的位置编码为2,“AI” 的位置编码为3。然后,我们将位置编码加到对应词的词向量上。这样,模型在处理词向量时就会同时考虑到它们在序列中的位置。

位置编码是GPT 和Transformer 中的重要组成部分,它允许模型理解词语在序列中的顺序,从而理解语言中的句法和语义。

17、中文LangChain

中文LangChain 开源专案最近很火,其是一个工具包,帮助把LLM和其他资源(比如你自己的领域资料)、计算能力结合起来,实现本地化知识库检索与智慧答案生成。

LangChain的准备工作包括:

1、海量的本地领域知识库,知识库是由一段一段的文本构成的。

2、基于问题搜索知识库中文本的功能性语言模型。

3、基于问题与问题相关的知识库文本进行问答的对话式大语言模型,比如开源的chatglm、LLama、Bloom等等。

其主要工作思路如下:

1、把领域内容拆成一块块的小档块、对块进行了Embedding后放入向量库索引(为后面提供语义搜索做准备)。

2、搜索的时候把Query进行Embedding后通过语义检索找到最相似的K个Docs。

3、把相关的Docs组装成Prompt的Context,基于相关内容进行QA,让chatglm等进行In Context Learning,用人话回答问题。

希望对你有所启示。

文章来源:大鱼的数据人生
原文连结:https://mp.weixin.qq.com/s/aTie5HM9SLdZhcOOwpxUzg