人类自从有了语言,表达就变得千变万化,乃至于《圣经·旧约》也有营建巴别塔之困,最终一哄而散的忧伤。事情好像在最近几年变得轻松容易起来。
人工智能AI( Artificial Intelligence)已经在这几年被很多行业广泛应用,其中也包含自然语言处理NLP领域的各种运用。抛开那些像科大讯飞“假同传”的负面事件,我们可以切切实实使用到的是:在你苹果手机里有时刻准备着的siri,海底捞预定电话那头无微不至的客服“小美”,开车时有可以一路尽情调戏的“斑马”或“nomi”,回家还有静静躺在桌上等你来撩的“天猫精灵”……(以上举例均不涉及广告)
一派生机的发展下,大家又似乎感觉在商业化运用中,AI技术越来越沦陷了。泛化、模糊、炒作AI概念,科技发展至今已拥有的弱人工智能,以人工弱智的方式被狸猫换太子。再由追崇科技的人群千金散尽来买单。
面对质疑和挑战,向来严谨,以机器自动评分为独特优势的PTE学术英语考试,今天要在这,显山露水一下。
在这里,将揭开PTE学术英语考试自动评分系统的面纱,告诉大家作为AI子领域NLP(自然语言处理)中,核心算法的机器学习是怎么一回事?
乍一看好科研哦,其实挺科普的。
帮助大家进一步认识PTE学术英语考试打分的公平性(fairness)可解释性(interpretability),了解评分系统的算法模型的理解(explanation)和因果关系(causality)…(非计算机专业的同学,放心,保准能看懂)
自动评分本就是NLP高科技领域
想了解PTE学术英语考试的自动评分系统,就避不开NLP这个专业名词。NLP,自然语言处理,Natural Language Processing。它是人工智能的一个细分领域,这里不讲太多计算机语言学硕士、博士们才会谈起的概念。只需要知道自然语言处理NLP就是:用计算机来处理、理解以及运用人类语言(像英文、中文这类),既包括文本(书面),也包括语音(口头)。
在NLP这个领域,已经有各种成熟的商用实践,比如Apple Siri对话系统,Google的知识图谱,IBM Watson的自然语言问答,还有今日头条的个性化内容推荐……
PTE学术英语考试的自动评分系统也是NLP领域的黑科技应用之一。
下面,详细解释一下PTE学术英语考试自动评分在文本(写作)和语音(口语)上的黑科技运用,还有背后的打分原理。
给写作自动评分的黑科技是谁?
PTE学术英语考试的写作部分使用Intelligent Essay AssessorTM(IEA)进行评分,这是一种自动评分工具,由Pearson最先进的Knowledge Analysis TechnologiesTM(KATTM)引擎提供支持。
基于20多年的研究和开发,KAT引擎通过检查整个段落来自动评估文本的含义。 与熟练的人工评分者一样精准,KAT引擎运用自有专利权的,潜在语义分析(Latent Semantic Analysis, LSA)的数学方法来准确地评估写作。使用LSA(一种通过分析大量相关文本来得出单词和段落的语义相似性的算法)。总之,KAT引擎“理解”文本的含义与人类所理解的大致相同。
被调整后的IEA可理解和评估任何学科领域的文本,包括用于离题响应的内置检测器,或可能需要提交给人类阅读者的其他情况。IEA的开发已超过十年,技术相当成熟,它已用于评估数百万篇论文,包括对小学,中学和大学水平的写作评分,以及评估军事领导能力。
系统如何模拟人类考官为写作打分?
PTE学术英语考试的写作部分,由IEA(Intelligent Essay Assessor)自动评估考生的写作技能和知识,这是基于系统可以受训为各种写作特征打分的算法。自动评分系统运用事先由人类阅读专家做出的评分和给出的回复作为评分指引,自动对考生所应答的整体内容进行评估。
PTE学术英语考试中,要求考生写200-300字的论文以及50-70字的总结。当考生答案被提交开始评分时,系统会评估所提交答案的含义以及写作技术各方面。系统将考试答案与大量事先受训的答案进行比较,计算相似性,并基于内容分配分数,将答案归类在最具有相似性的受训答案类别中。
对写作技术方面进行评分的方法大致相同。系统评估考生答案中的每个写作特征(语法、结构和连贯性等),将其与大量事先受训的答案进行比较,然后根据该特征对答案进行排序。
如何训练IEA,让系统掌握自动评分的标准呢?这就需要大量源数据和资料。
在现场实地测试中收集了超过5万份写作答案(包括作文和总结)。 这些写作答案在许多单项特征上被给予评分,包括内容、形式要求、语法、词汇、一般语言范围、拼写、衍变、结构和连贯性。所有考生在现场实地测试中的答案,首先由两名人工评分者打分,当前两名评分者意见不统一时,还有第三名人工评分者再次打分。这些人工评分者的打分就是训练IEA的资料源数据,被输入其中进行运算。
由于考生写作的答案被随机分配给来自澳大利亚、英国和美国的200多名评分者,该自动评分系统接受了丰富且具有国际视角的评分训练。评分结果排除了主观倾向性。依据以上各个写作单项特征的得分,给到每个考生写作表现的总体衡量标准。写作测试部分人工评分者与自动评分的总得分之间的相关系数为0.88,证明PTE学术英语考试写作的可信赖性。
口语自动评分所运用的黑科技
PTE学术英语考试的口语部分使用Pearson’s Ordinate Technology自动评分。POT是多年来语音识别、统计建模、语言学和测试理论研究的成果。
该技术使用自主专利权的语音处理系统,专门用于分析和自动评分来自英语母语和非英语母语者的语音。该系统除了识别单词外,还对语音中的相关片段、音节和短语进行定位和评价,然后利用统计建模技术对语音表现进行评估。
系统如何从类人到超人?
要了解POT如何被“教授”进行口语评分,可以参考人类专家评分员如何训练他人在面试期间对语音样本进行评分。
首先,专家评分员列出针对考生在面试演讲,准评分员要听的内容清单。然后,受训评分员观察专家测评大量考生的过程。而每次面试后,专家分享出其给考生打的分数,以及导致该分数的表现特征。经过几十次面试,受训准评分员的打分开始与专家给的分数非常接近。 最终,依据专家对某一特定考生给出的分数,受训准评分员的打分也八九不离十了。
实际上,这就是系统如何受训进行打分的过程。
而且,自动评分系统并不仅有一名专家“教授”受训者,有许多专家评分者为每个答案输入分数;也不仅仅有几十个考生的答案,系统是针对数百名考生的数千个反馈答案进行学习训练。此外,机器无需被告知语音的哪些特征是重要的;当自动评分系统被优化为预测人类评分时,相关的特征及其相对的占比就从大数据的统计中被自动提取出来的。
可能没有一个人类聆听者能够习惯超过100种的不同外国口音,但PTE学术英语考试的语音处理器已经接受了超过126种不同口音的训练,并且能够公平公正地处理所有这些口音。如果某考生有很浓重的口音,就很有可能被人工评分者给出一个低分数,在自动评分系统中,这个考生也将得到一个较低的发音分数。但重要的是,糟糕的发音不会影响考生的语法或词汇的得分。
POT技术为Versant™语言评估提供支持,该评估由美国国土安全部、世界各地的航空学校、荷兰的移民局以及美国教育部等组织使用。独立研究表明,POT自动评分系统可以比当今很多最优的人工评分测试更客观,更可靠,包括一对一的口语能力面试。
PTE学术英语考试口语如何评分?
POT自动评分系统从考生的口语反馈答案中收集数以百计的信息,例如他们的语速、时间和节奏,以及他们的声音的力量、重点、语调和发音的准确性。它还识别考生选用的词汇(即使发音不当),并评估考生答案的内容、相关性和连贯性。
由于系统对每个答案中的数百个语言和声学特征都很敏感,因此如果特意关注某一特定领域,它也能非常精确地预估出老练的人工评分者将如何就这个特定领域给答案打分。
PTE学术英语考试现场实地测试给机器学习提供了源数据,以便为测试的口语部分创建自动评分模型,原理就和写作部分一样。
现场收集了来自1万多名考生的近40万份口语答案,其中包括考生在描述数字或图表时的答案,以及复述讲座或演讲。考生的回答被录下来,来并发送给人工评分者先进行评分。人工评分者对考生回答的一系列单项特征进行打分,这些单项特征包括内容、词汇、语言使用、发音、流利度和语调。然后再由先进的语音处理系统能客观观察考生回答的方方面面,例如语速、节奏和用词等方面,最后把系统打分与人工评分的分数进行比较。接着,再建立评分模型,用于预测受过训练的人工评分者如何评估任一“新”传入的答案。口语测试人工评分与自动评分的总得分之间的相关系数为0.96,证明了PTE学术英语考试中口语测试评分的可靠性。
在参加PTE学术英语考试时,考生必须口头回答各种问题。他们的口头答案被捕获为音频文件,并由专利使用的POT评分系统进行分析。有些试题需要简短的口头回答。在这些情况下,自动评分系统测量考生的单词识别、发音、流利性和语法能力的准确性。其他更复杂的试题,考生要提供更长、更详尽的回答,需要更多句子或段落级别来表达。除了上面列出的单项特征外,自动评分系统还提供了针对答案的内容与词汇的评分。
系统所学习的源数据从哪来?
自动评分系统背后的机器学习算法,需要大数据的支持。大批源数据的准确性和多样性影响到算法的稳定和优化。
对PTE英语学术英语考试而言,大范围的现场实地测试项目曾被用来检测PTE学术英语考试的各项性能,并评估其有效性的,同时获得优化自动评分系统所需的数据。该项目历时超过18个月,测试数据来自21个国家中38座城市的1万多名参加PTE学术英语考试现场实地测试的考生。
这些考生来自158个不同的国家,讲着126种不同的母语,包括(但不限于)粤语、法语、古吉拉特语、希伯来语、印地语、印度尼西亚语、日语、韩语、普通话、马拉地语、波兰语、西班牙语、乌尔都语、越南语、泰米尔语、泰卢固语、泰语和土耳其语。现场实地测试的数据被用于优化PTE学术英语考试中写作和口语部分的自动评分系统。
自动评分何以说更公平,更客观?
与易受各种因素影响的人工评分不同,自动评分系统会更公正,更客观。但,何以见得呢?
自动评分系统不会被与语言无关的因素而“分散注意力”。例如考生的外表,性格或肢体语言(如口语面试中可能发生的那样)。这种公正性意味着考生可以确信,评分是单独依据他们的语言水平表现来评判,并且认可PTE学术英语考试的合作伙伴也可以确信考生的分数是“普适的”——无论考生在北京,布鲁塞尔,甚至是百慕大,他们仍然会取得同样的分数。
此外,自动评分允许某一语言样本的个体特征(口语或写作)被独立分析,因此语言中某个方面的不足并不会影响其他方面的评分。而人工评分者常会表现出从语言的一个方面到另一个方面有“判断转移”。例如,有些考生的语法非常差,但因为他们表达得流畅而被评为精通级。相反的是,自动评分可以客观地评估不同的语言技能。
在自动评分系统开发时,Pearson进行了“有效性研究”,用以确保机器所给出的分数与老练的人工评分者给出的分数相当。在有效性研究中,人工评分者和自动评分系统对同一组新的考生的答案(机器从未见过的)进行评分。在Pearson的有效性研究中,当人工评分与机器自动评分进行对比时,人们发现它们的结果是相似的。事实上,人工评分和自动评分之间的差异非常小,通常小于两个人工评分者之间的差异。在写作和口语评分中均是如此。
有独立研究表明,PTE学术英语考试的自动评分系统可与那些受过培训的,只考虑相关语言技能本身,且细心的人类专家相媲美。这意味着自动评分系统在评估考生的语言技能时会“类人”一样“行动”,但又具备机器的精确性、一致性和客观性。
PTE学术英语考试正是NLP领域在语言评测中的成功应用。通过结合大量现场实地测试、深入研究和Pearson的验证,有专利权的自动评分技术,PTE学术英语考试提供最先进精准测试来测量非英语母语者的听说读写能力。
-
PTE学术英语考试语音识别及语音评分系统解析之概述篇
【互动彩蛋】
本次互动主题
人工智能领域发展至今,有人憧憬,有人担心。憧憬未来的AI能够带来的生活便利,却担心自己会不会失业,能不能谋生。 在很远的将来,“你最期待的AI应用是什么?或者说说你现在用过哪些AI黑科技产品或服务?”有小伙伴吃过机器人做的日式拉面,还有粉丝举手说自己家里有扫地机器人,还有土豪晒了晒自家大门的人脸识别锁……也有人和小编一样,对AI使用还停留在美图秀秀的美颜滤镜阶段…… 说说你的AI应用,让我们看见你的可能性。欢迎直接在文末评论留言。
我们将精选粉丝留言,刊登在下一期的推送中。被选中的粉丝,将收到一份Pearson独家精致纪念品,一整套Pearson文具哦,实用好看又经典。推动地球的也许不是刘慈欣,可能就是你。
本文由拔丝英语网 – buzzrecipe.com(精选英语文章+课程)收藏,供学习使用,分享转发是更大的支持!由 培生PTE考试官方微社区原创,版权归原作者所有。