n元语法模型

ads

本文来源:“摩登语言学”公众号

GPT是一个大型语言模型,它是用来处理自然语言的,那么,它与语言学研究有什么关系呢?从语言学的角度看来,GPT实际上是一个N元语法模型(N-gram language model),这种模型根据前面出现的单词来预测后面的单词(冯志伟、丁晓梅,2021)。在计算语言学中,一个单词的概率依赖于它前面单词的概率的这种假设叫做马尔可夫假设(Markov assumption)。根据马尔可夫假设,如果每一个语言符号的概率依赖于它前面的语言符号的概率,那么这种语言符号的链就叫做“马尔可夫链”(Markov chain)。在马尔可夫链中前面的语言符号对后面的语言符号是有影响的。这和链是由一个有记忆信源发出的。如果我们只考虑前面一个语言符号对后面一个语言符号出现概率的影响,这样得出的语言成分的链,叫做一阶马尔可夫链,也就是二元语法。如果我们考虑到前面两个语言符号对后面一个语言符号出现概率的影响,这样得出的语言符号的链,叫做二阶马尔可夫链,也就是三元语法。类似地,我们还可以考虑前面四个语言符号、五个语言符号……对后面的语言符号出现概率的影响,分别得出四阶马尔可夫链(五元语法)、五阶马尔可夫链(六元语法)……。随着马尔可夫链阶数的增大,随机试验所得出的语言符号链越来越接近有意义的自然语言文本。

美国语言学家乔姆斯基(N. Chomsky)和心理学家米勒(G. Miller)指出,这样的马尔可夫链的阶数并不是无穷地增加的,它的极限就是语法上和语义上成立的自然语言句子的集合。这样一来,我们就有理由把自然语言的句子看成是阶数很大的马尔可夫链。马尔可夫链在数学上刻画了自然语言句子的生成过程,是一个早期的自然语言的形式模型。在马尔可夫链的基础上,学者们提出了N元语法模型(N-gram model)。

按照马尔可夫链的假设,我们根据前面一个语言符号的概率,就可以预见到它后面的语言符号将来的概率。这样的模型叫做二元语法模型。基本的二元语法模型可以看成是每个语言符号只有一个状态的马尔可夫链。我们可以把二元语法模型(只看前面的一个语言符号)推广到三元语法模型(看前面的两个语言符号),再推广到N元语法模型(看前面的N- 1个语言符号)。二元语法模型叫做一阶马尔可夫模型(因为它只看前面的一个语言符号),三元语法模型叫做二阶马尔可夫模型,N元语法模型叫做N-1阶马尔可夫模型。在一个序列中,N元语法对于下一个语言符号的条件概率逼近的通用等式是:

这个等式说明,对于所有给定的前面的语言符号语言符号wn的概率可以只通过前面N-1个语言符号的概率来逼近。N元语法的能力随着它的阶数的增高而增高,训练模型的上下文越,句子的连贯性就越好。

GPT中,把自然语言中的离散符号(discrete symbols)映射为N维空间中的连续向量(continuous vectors),这样的连续向量叫做“词向量”(word vector),如图所示。

 把离散的语言符号映射为连续的词向量(冯志伟,2019

由于把语言符号都映射为向量空间中的词向量不再需要手工设计语言特征,计算机能够自动地从语料库中获取和计算向量化的语言特征,大大节省了人力(冯志伟,2019)。

构造语言符号的向量化特征表示也就是进行“词嵌入”(word embeddingWE)。“词嵌入”把自然语言中的每一个语言符号映射为向量空间中的一个词向量,并且在这个向量空间中形式化地定义自然语言的语言符号与语言符号之间的相互关系。词向量的长度也就代表了N元语法的阶数(Mikolov et al.2013)。所以,我们认为,GPT是一个数据驱动的“端到端嵌入”(end to end embedding)的大型语言模型。在GPT的研制中,随着训练数据的增加,词向量的长度和参数量也随之增加。

人们发现,随着参数量的增加,生成语言的质量越来越好。当训练参数超过500亿的时候,系统会出现“涌现”(emergence)现象,显示出越来越接近于人类的优秀表现,生成的语言也就越来越接近人类的语言。如图[1]所示。

图 涌现现象

这样的“涌现”现象似乎意味着,当训练数据在数量上增加到500亿时,GPT系统发生了从量变到质变的重大变化。因此,只要不断地增加训练数据,就会产生质变的飞跃。

GPT采用的方法是一种经验主义的方法,在大规模数据的基础上,通过机器学习获得各语言要素之间的统计规律,生成越来越接近人类自然语言的输出,使得用户感觉到计算机似乎理解了自然语言。对于这种“涌现”现象的本质,至今在科学上还不能作出解释。

自从计算机问世之后,就出现了人与计算机怎样交互的问题,叫做人机交互(Human-Computer InteractionHCI)。早期人们需要使用符号指令来与计算机交互,需要用户记住大量的符号指令,人机交互非常困难;后来研制出图形界面(Graphical User InterfaceGUI),用图形方式显示计算机操作的用户界面,人机交互变得容易。鼠标、触摸屏都是进行人机交互的重要工具。GPT出现之后,人们可以使用自然语言自如地与计算机交互,人机交互变得更加方便。人与计算机的交互终于回归到最自然的状态,自然语言不单是人与人之间进行交互的工具,而且也是人与计算机进行交际的工具。这是人类文明发展史上的重要事件,自然语言真正成为了“人工智能皇冠上的明珠”。以语言研究为已任的语言学,应关注这样的事件,不但要研究人与人之间用自然语言交互的规律,也应研究人与计算机之间用自然语言交互的规律,这是人工智能时代赋子语言学的重大使命。

“涌现”现象说明,当训练参数达到500亿的时候,计算机的自然语言水平可以提升到接近于人类的自然语言水平,貌似计算机已经能够通过大型语言模型习得人类的自然语言。实践说明了上面所述的这种数据驱动的“端到端嵌入技术”对于非人类实体的自然语言习得是行之有效的。

[1] 此图取自熊德意(2023)的“ChatGPT 与大模型”。

作者:冯志伟、张灯柯

原文:GPT与语言研究

来源:《外语电化教学》2023年第2期

最后编辑于:2024/1/18 拔丝英语网

admin-avatar

英语作文代写、国外视频下载

高质量学习资料分享

admin@buzzrecipe.com