夕小瑶科技说 原创
作者 | 谢年年、Python 研究表明,汉字序顺并不定一影阅响读。——比如当你看完这句话,才发现字全是乱的。
这种情况不仅存在于汉字中,英语、法语,还有很多其他语言其实都适用于这个规律。
这种能力称为「typoglycemia」,即只要每个单词的首尾字母正确,即使单词内部的字母被打乱,也不影响我们的正常理解。
这种能力不是人类独有,大多数强大的LLMs也表现出对词序排列的不敏感的能力。
来自EMNLP2023的一篇文章深入分析了LLMs处理乱序文本的能力,设计了两类任务分别测试LLM从乱序句子中恢复原始句子的能力以及LLM在上下文部分乱序时回答问题的效果。实验结果表明,只要在乱序时保持单词的首字母和尾字母不变,大多数强大的LLM可以在一定程度上处理乱序的句子。
令人惊讶的是,GPT-4几乎可以完美地处理所有乱序的输入,即使是将单词中所有的字母都打乱,GPT-4也能完美复原!
如下图所示,GPT-4几乎可以近乎完美的重建原始句子。
要知道,这对人类来说都是非常艰巨的挑战。
论文标题:
Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text
论文链接:
https://arxiv.org/pdf/2311.18805.pdf
两大测试任务
-
打乱句子恢复(ScrRec) :向LLM提供一个被打乱的句子,要求其恢复原始句子。该任务可直接评估语言模型对打乱单词的识别和重构能力。示例如下:
-
打乱问答(ScrQA):ScrRec对于LLM来说是一项非常规的任务,所以如果模型在恢复任务上表现不佳,可能是难以遵循指令或无法恢复句子两种原因导致的。为了区分这两种情况,作者测量了模型在给定打乱上下文的情况下完成标准问答任务的能力。如下图所示,仅打乱参考的上下文中的字母顺序,对于问题与选项保持原状。示例如下:
1. 数据集创建
为了避免测试数据集已包含在LLM训练数据集中造成的数据污染问题,作者选取RealtimeQA的乱序版本作为基础数据。RealtimeQA是一个动态问答数据集,每周发布关于最新新闻的问题,一直在更新,现有的LLMs很难记住这些问题。作者收集了RealtimeQA中2023年03月17日至2023年08月04日的数据,共419个样本,处理句子以构建ScrRec和ScrQA的样本。
扰乱规则如下:
-
随机乱序(RS)。对每个句子,随机选择一定比率(实验中为20%,50%,100%)的单词,并随机乱序选中单词的字母(。 -
保持首字母(KF)。保持每个单词的第一个字母不变,随机乱序其它位置的字母。 -
保持首尾字母(KFL)。保持每个单词的第一个和最后一个字母不变,随机乱序其它位置的字母。
2. 评估指标
对于ScrRec,测量原句与恢复句之间的平均编辑距离(ED)。此外,还定义了恢复率(RR)来衡量恢复句中减少的编辑距离所占比例,其中,,分别表示样本的原始句子、打乱后句子和恢复后的句子,公式如下:
对于ScrQA,除了准确率还定义了相对性能提升(RPG),以减少模型在原始问题上的能力差异,并使侧重评估模型在恢复文本与原始文本之间的理解能力。其中,,,分别定义为使用原始证据、打乱后证据、替换证据(其中所有可以被打乱的单词的字母都被随机的字母所取代)时的准确率。和分别作为准确率的上界和下界。
实验结果
对于ScrRec任务分别评测了zero-shot和3-shot(样例来自wikiQA数据集);而ScrQA由于任务相对简单,仅测试了zero-shot。LLMs选用GPT-4、GPT-3.5-turbo、text-davinci-003、Falcon-180b、Llama2-70b作对比测试。实验结果如下图所示:
1.不同扰乱设置的影响
-
在保留开头和结尾(KFL)扰乱设置下,模型之间的性能差距不大。 -
除了 GPT-4 以外,性能随着扰乱难度增加(按照 KFL、KF和RS的顺序)而显著下降。而GPT-4的性能无论扰乱类型的难度如何始终保持较高水平。 -
在 ScrRec与ScrQA上,GPT-4始终优于其他模型,保持高水平。
2.不同乱序率的影响
随着乱序率的增加,GPT-3.5-turbo和GPT-4的RR变化不显著,其余模型显著下降。GPT4在大多数设置中表现出色,甩开其他模型一大截。
3.其他数据集结果
除了RealtimeQA数据集,为了保证结果的泛化性,作者还引入了两个附加数据集:DREAM (基于对话的多项选择阅读理解数据集) 和 AQuA-RAT (多步数学推理)。
下图是ScrQA任务在扰乱后的DREAM数据集(zero-shot)上的实验结果:
相比于RealtimeQA,在DREAM数据上,GPT-4和其他模型之间的差距更大了,可能是因为DREAM需要对更长文本的高级理解。
与其他类别相比,算术问题的性能更容易受到字母扰乱的影响,即使对于GPT-4也是如此。
对于AQuA-RAT数据,通过调整样例和问题中的字母乱序率来评估LLM在不同情境下的表现,结果如下表所示,左:GPT-4;中:GPT-3.5-turbo;右:text-davinci-003
结果显示,当主要问题的扰乱率达到100%时,GPT-3.5-turbo和text-davinci-003的性能显著下降,而GPT-4受到的影响却比较少。
4. 原因初步分析
LLMs具备这种能力有两个原因猜想:一个可能归因于预训练时带入了含有各种错误的大规模文本语料库。二是这种能力可能与LLMs的规模有关。作者对于猜想做了实验进行验证。
扰乱文本进行微调
作者选择Llama-2-13b模型作为基础模型,对维基百科中20220301.simple子集使用两种方式扰乱文本后进行微调:
-
FT-RS:随机打乱60%样本中超过两个字母的30%单词; -
FT-KFAdj:保持第一个字母不变,对60%样本中超过两个字母的30%单词中其他位置的相邻两个字母进行交换,以模拟自然排版错误。 -
FT-Ori:微调一个使用原始数据集微调的模型作为对照组,以便进行比较分析。
可以看到,使用扰乱后的文本进行微调后的模型(FT-RS)在所有任务中相对于w/o FT基线都有显著改进,甚至在RS设置下超越了规模更大的Falcon180b。
FT-KF&Adj在ScrQA上与基线相当,在ScrRec任务上,在KF和KFL设置下有巨大改进。
因此可以推断,在模拟自然排版错误的文本上进行训练对处理扰乱文本是有用的。
参数规模影响
作者还研究了处理乱序文本能力与参数规模之间的关系。测试文本为100%的随机乱序文本。
可以看到,LLM的性能与其参数大小有一定的关系。
但目前来说,效果好的三个模型GPT-4,GPT-3.5-turbo,text-davinci-003都是闭源模型,尚不清楚其参数具体大小,还需要进一步探究。
结论
本文通过乱序句子恢复和乱序问答两个任务衡量了LLM处理乱序文本的能力。实验表明,尽管乱序文本极大地改变了tokenizer表示,但大多数强大的LLM可在一定程度上处理乱序文本。GPT-4表现尤为亮眼。
本文实验也存在一些限制,如只研究了乱序字母的影响,未探讨插入或替换字母等其他破坏分词方法。此外,本文仅调查了LLM处理乱序文本的能力,未深入分析其背后的原因,特别是GPT-4近乎完美执行此任务的原因,值得进一步研究。
发表评论