检测单词量

ads

作者:罗宾笔记

公众号|罗宾笔记

  上一次她分享了 :

《每月提升一点点, 4岁女儿半年听力词汇攒到4000, 开启自读 ! 》



英文拥有的词汇数量是全世界语言中最多的。怎样知道自己到底拥有多少词汇量(姑且不讨论这样做的意义)


Testyourvocab 大概是目前知名度最高的在线英文词汇量测试网站,在启蒙阶段也常常被用来测试低龄孩子的听力词汇量。它到底准不准呢?



最近我查阅了一些资料,写了这篇与词汇量测算有关的汇总,希望可以一次把词汇量有关的问题梳理清楚:

1. 什么是主动/被动 (receptive/expressive)词汇量

2. 英文母语儿童的词汇量到底有多大

3. Testyourvocab的使用及算法

4. 词汇量与阅读的关系 / 其他词汇量测算网站

5. 其它词汇量测试网站横评 (下篇)/ 适合儿童和青少年的测算方法 

6. 适合二语儿童的词汇量估算方法(下篇)/ 使用RAZ、牛津树评估词汇量水平


水平有限,如有疏漏错误敬请谅解。


统计词汇量最最精确的方法自然是……看着词表或字典一个个数。以词汇量测算老大哥 Testyourvocab 的词表为例,大概共有 45000 个单词,如果用穷举法显然会数到地老天荒。



还有一个办法:把单词平均分成若干组,例如100个词一组,然后每组里抽一个词出来测试,最终结果乘以450。这样做听起来就很不精确,随机性太高。


所以目前流行的词汇量测算,究其核心原理,其实是抽样调查,无非是采用单词表样本、分区段分组排序、加权系数等的区别。还要涉及到对最小单位的定义,譬如是单词word还是词族word family,前者显然数量更多。


以及是否采用词频分组(更准确)。


最终统计出的词汇数量,主要取决于单词表总数、答题正确率和对应的区段组别系数。


讲测算方法之前,必须先了解一下这个概念:什么是主动/被动 (receptive/expressive)词汇量。


英文词汇量分 “主动词汇” 和 “被动词汇”
“被动” 可以向 “主动” 转换

主动词汇量:Active / expressive / productive vocabulary,即你能够主动、可自主表达的词汇量,通常指能够在口语或写作中运用的词汇。


图片来自网络

被动词汇量:passive / receptive vocabulary,即被动、可接受的词汇量,指我们能听懂,读懂的词汇。从应试角度来比方,就是在阅读和听力测试能够应付的部分。



被动词汇是可以往主动词汇转换的(通常光靠背单词书做不到这一点)。即便是母语人士,主动词汇的占比也一定是低于被动词汇,并且这个比例和受教育程度大致相关。受教育程度低的,总词汇量越低,相对来说主动词汇占比更高。


在词汇量统计中,想要统计主动词汇的难度更大、耗时更长,所以一般都是以被动词汇作为测试目标,即只要能读懂听懂就算,不考察运用。


不过在我使用的十来个测试网站中,也确实有一些会考察理解运用,例如放在上下文中做填空选择题。


测试目标不同,结果当然就会差别很大。


英文母语儿童词汇量到底多大?

测试网站和学术报告的数据,相差不少!


Testyourvocab 大概是目前知名度最高的在线英文词汇量测试网站,在启蒙阶段也常常被用来测试低龄孩子的词汇量。它就采用了词频表分区段抽样的算法。


Testyourvocab 于2013年发布的数据显示:


  • Average native test-takers of age 8 already know 10,000 words

8岁的英语母语测试者普遍能掌握 10000 个词汇。


  • Average native test-takers of age 4 already know 5,000 words

4岁的英语母语测试者词汇量普遍达到 5000。

让我们看看第90百分位的五岁孩子的词汇量,如下图,结果是在 8396。也就是这个年龄的“牛娃”的词汇量已达到 8 K。中位数是6010,比较能代表平均水平。


当然,这份数据仅能代表在该 Testyourvocab 网站参加过测试的儿童样本范围,并不能代表整个母语国家的基本情况。


而另一份发表于2015年的著作 Assessment in speech-language pathology: A resource manual 显示,针对普通小孩(normal children):


4-5岁母语英文小孩的被动词汇不低于 10,000 (Has a receptive vocabulary of 10,000 or more words)


6-7岁被动词汇量不低于 20,000


这显然和 Testyourvocab 整理的数据是矛盾的,统计方法必然有很大区别。这也就引入了下一个话题:词汇量到底是如何统计的?词性变化、派生词算不算?人名地名算不算?词组和合成词算不算?


Testyourvocab 的使用及算法


老大哥Testyourvocab年代久远,网站最后一次肉眼可见的更新是在2013年。它最大的优点是简单粗暴。不考察在具体语境下的词义,只需要知道一个义项就算掌握了。


Testyourvocab 使用方法


操作极其简单,只需要两个测试步骤。


1. 勾选40个词中“自认为”认识的词。



2. 勾选120个词中“自认为”认识的词。



3. 提交一些个人信息(也可以不填),例如学了多久英语,母语是什么,年龄等。


4. 查看测试结果



词汇量统计方法


Testyourvocab的做法是:


第一轮:先取40个由易到难的词,粗略判定测试者的词汇水平范围。


第二轮:在这个预估范围内细分,根据词频,由高到低,抽取120个词进行测试。


因此可以说第一组测试结果决定了你的词汇量数值的上限。


按照官方的说法,计算方法是根据第二轮的120个词的测试结果,找到一个“中间词”,使得这个词之前词频你不认识的单词数量,等于这个词之后词频的你不认识的单词数量,再去找这个词在词频表中的位置编号,就是最终的词汇量结果。


说人话版本👇


假如这 120 个词,按照词频由高到低编号 1-120,最终测试你有 40 个没有勾选(不认识),找到其中第 20 个(假设词频编号为53)和 21 个(假设词频编号为55),那么你的词汇量就是第 54 号单词在词频表中对应的编号。

当然实际计算过程比这个要再复杂一点点,结果并不是线性分布的。


语料库 corpus


语料库,指经科学取样和加工的,大规模电子文本库,其中存放的是在语言的实际使用中,真实出现过的语言材料。


Testyourvocab 这个网站是美国和巴西共建的项目,奇怪的是它使用的语料库,还是 British National Corpus 英国国家语料库,可能是因为年代关系没,使用ANC和COCA这些美国语料库。



BNC 语料库来源广泛,其中书面(90%)与口语(10%)为样本,共收录了一亿词!


词表和词频


根据语料库的词,去匹配一本英式英语词典的词,找出两者交集词表,再去除单词的常规曲折变化(例如单复数,过去式等)、词性变化、派生词合成词等,最终筛选出 45000 个词。词典本身包含70000词,但大约只有45000 出现在BNC一亿词的语料库中,其它的都是些科技术语、古旧词等。


这45000个词按照词频由高到低排列,也就是一个词频表。所谓词频,就是某个单词出现的频率高低。比如BNC语料库中出现频率最高的四个词是:

1. the

2. and

3. I

4. to


词表筛选规则


派生词(derivative)


比较好理解的是jump/jumped这样的规则动词变化算一个词。give/gave,不规则变化,算两个词。那么derive/derived这种动词/形容词,


quick/quickly形容词/副词变化呢?evict/eviction动词/名次,还有各种re,un的前缀呢happy/unhappy等等。


专有名词(proper nouns) 


France这样的地名竟然不算,但是French算,因为指一种人,而不是France常规的派生词。November这样特殊的,算。


难点在于air conditioner这样两个名词组成的新事物。同理fork out(挥霍)、 food for thought(引人深思的想法)呢?


至高准则 


构词法太复杂了。于是网站遵循了一个至高准则:在字典里拥有独立词条的就可以算。Air conditioner 有自己的独立词条,所以算。unhappy有独立词条,quickly在quick词条下,fork out在fork词条下,因此都不算。换句话说,是以字典编目为准统计词条数。


 释义 


很多英文单词有多个义项,同一个释义还有不同的用法,怎么样才算掌握?想太多就复杂了,网站决定只要知道其中一个释义,就可以被统计为词汇量


 误差范围 


官方说有10%的误差,也就是说如果测量结果为20000,那么实际范围应该在18000-22000之间。这是由第二组测试词汇的数量决定的。如果要把误差缩小到5%,则需要在第二轮测试380个单词!


词汇量与阅读的关系


我们先来看一下母语学习者的词汇水平:


Most adult native test-takers range from 20,000–35,000 words

大多数成年英语为母语的测试者的词汇量在 20000 ~ 35000 个之间。


进一步观察数据可以发现,到了50岁,10百分位词汇量20,000 ,中位数30,000 ,90百分位40,000。也就是说 top10%的50岁人群的词汇量超过四万。


Adult native test-takers learn almost 1 new word a day until middle age

成年测试者差不多每天学一个新词,直到中年。


Adult test-taker vocabulary growth basically stops at middle age

到中年后,成年测试者的词汇量基本就停止增长了。


网站上并没有明确写“中年”的范围,推测应该是以50岁为分界点。


 词汇量与阅读的关系图 


这是从28万份数据中统计出的结果,显示了阅读量、小说比例、以及年龄与词汇量的关系。



大致可以得出以下结论:


  • For native vocabulary growth, reading fiction specifically is just as important as reading in general

对于母语词汇量的增长,多读小说和多读(普通读物)一样重要。小说的词汇范围更广,更有益于词汇量的增加,个人对此的理解是不用执着于只读non fiction非虚构读物。


  • Native adult vocabulary size appears to be principally determined by reading habits between ages 4 and 15

母语成年人的词汇量似乎主要由4-15岁时的阅读习惯决定。如同图表中体现的,同样的阅读习惯,在15岁和50岁带来的词汇量的差距,几乎保持不变最上面五根线的间距一直窄幅变化)


  • Native test-taker children who read "lots" learn 4.1 new words a day

阅读量“大”的母语儿童测试者每天学4.1个新词  (此处children应该指的是4-15岁)


  • Native test-taker children who read "somewhat" learn 2.6 new words a day

    阅读量“有一些”的母语儿童测试者每天学2.6个新词。


  • Native test-taker children who read "not much" learn 1.4 new words a day

    阅读量“没多少”的 母语儿童测试者每天学1.4个新词



划重点:一定要重视早期阅读!


总结:Testyourvocab 采用词典条目+词频+抽样调查的算法来估算被动词汇量。


根据这个算法和对应的数据可以得出以下结论:


  • 4岁的英语母语测试者词汇量普遍达到 5000 个

  • 8岁的英语母语测试者普遍能掌握 10000 个词汇

  • 大多数成年英语为母语的测试者的词汇量在 20000~35000 个之间

  • 母语成年人的词汇量似乎主要由 4-15 岁时的阅读习惯决定


除了 Testyourvocab

我自己测评了这 6 个词汇量测算网站


1. UGENT


推荐:成年人或初高中以上学生。

测试结果偏高,可以用来增强信心?具体见后面分析。


网址:http://vocabulary.ugent.be/wordtest/test


主要特点:


  • 操作极其简便

  • 属于“是非词汇量测试”(Yes/No Vocabulary Test)。根据屏幕显示的单词选择不认识/认识(对应F/J左右食指按键)。

  • 词表包括60,469个真实单词和304,275 个“伪单词”(nonwords)。

  • 测试题会随机抽取70个真单词和30个假单词。

  • 测评结果不显示具体的词汇数量,只有一个百分比。

  • 如果对伪单词回答J(认识),最后测试结果会扣分。每个扣3%。比如我

  • 测试的最终结果是64%,但原本有67%,因为伪单词我有一题误按了J于是倒扣了3%。

  • 有趣的是最后提交个人信息的时候,还会问测试者是否是左撇子。可能跟FJ按键有关系?


测评结果分析:


换算成具体单词数,需要再乘以一个约6w的基数。这67%相当于4w?我有点不敢相信。实际测试的时候,没觉得单词很难,倒是不知道有假单词这回事(开始之前没仔细读说明),导致我一边做一边还自我怀疑:怎么有这么多不认识的奇怪的单词!



这个统计口径显然和 Testyourvocab 不一样,词表基数差别是6w和4.5w的差别,测试结果却差了一倍…


测试结果和相关研究表明:


  • 熟练的母语人士的词汇量测试结果大概是4w(67%)。年长者的词汇量更大。

  • 熟练的二语测试者的词汇量范围在6000词(10%)到2w词(33%)之间。


2. VOCABULARYSIZE


网址:https://my.vocabularysize.com/


主要特点:


  • 采用BNC 语料库,与 Testyourvocab 一致。

  • 统计结果以词族word family的形式来计算。母语者约20000个词族。例如write、writing、written、writer等可归为同一词族(不是学自拼的时候那种字母组合的词族)



  • 网速较慢,每道题提交都要等待新页面,所以花费时间较多,非常考验耐心


  • 可以选择答题的语言,例如中文,然后答题选项则会用中文显示,相当于根据给定单词选择正确的中文释义。



  • 选择中文答题需要做140道题!选英文的就只有100道。建议选英文的。



  • 除了四选一,还多一个“I don't know"的选项,避免乱猜,更加准确。

  • 测试词汇的同时会给出例句(语境),可以根据句子来从四个选项中推测单词的正确释义(不是特别肯定的情况下,最好还是选“I don’t know”来保证测量准确度)

  • 手快很容易误点击,且不能后退修改

  • 以词族来统计,所以结果偏低


3. AREALME


网址:https://www.arealme.com/vocabulary-size-test/en/


主要特点:


  • 选择同义词或反义词

  • 误点击无法后退修改

  • 还有其他语法、常见易拼错单词等测试

  • 甚至可以测其他语言的词汇量,比如中文(我没有勇气做)

  • 流量网站,不够官方权威。测评结果虚高。

  • 毫不客气地讲,类似于那种人人140的智商测试。



4. PROLINGUA


网址:http://www.prolingua.co.jp/vocab_est_j.html


主要特点:


日本人做的网站,按照词频排序抽取来70个基准词,其中前40个认识的单词乘以150,加上后面30个认识的单词乘以60,结果就是估算的词汇量。比如认识其中40+24个,词汇量就是40x150+24x600=20400,好像跟用Testyourvocab测试出来的结果很接近呢。


5. 扇贝网


网址:www.shanbay.com/vocabtest/


主要特点:


扇贝的词汇量测试分成听力词汇和阅读词汇两种测试形式,选项都是4+1形式,区别就是在于单词是否只播放读音。但是试用下来感觉算法不够灵活,不会动态降低难度调整,我模拟孩子来做听力词汇测试,结果只能测到800多,偏低。



6. 百词斩


主要特点:


和扇贝类似。仅支持app测试。分成听力词汇和阅读词汇两种形式,答题选项都是4+1,区别在于多出来的那个选项是“以上均不正确”,并且这个正确答案的出现频率还挺高。有时间限制,差不多一个单词出来只给五六秒时间答题选择,一边测试一边会显示动态的词汇量数值范围。感觉比扇贝要好用一些。




我找到了最适合给娃测试词汇量的

2个网站+2个办法


1. SPELLQUIZ


网址:https://spellquiz.com/vocabulary-test


主要特点:


  • 美国网站,拼写也全部采用美语。

  • 按照年级做句子听写。从G1-G12共12句。

  • 可以反复听。

  • 需要把完整的句子和单词拼写大小写全部写对。

  • 比较费时间

  • 适合青少年

  • 网站上还有一些其他好玩的测试。



2. OOE


OOE不算陌生了,下面附上他家的剑桥口语视频。他们的词汇测试也特别针对剑桥等级考试。



网站:https://www.oxfordonlineenglish.com/english-level-test/vocabulary


主要特点:


  • 一共40题,可以返回修改

  • 大部分题型是英文句子填空

  • 难度不高,适合备考KPET/FCE的中小学生

  • 考察很多简单的单词拼写、短语和固定搭配

  • 被选中的选项高亮不明显,稍不留神就容易出错

  • 不显示词汇量具体数值,但最终结果会给出CEFR评级(主要为了给你推荐匹配的课程)。可以从CEFR间接推测词汇量范围。



3. 词典法


市面上有不少适合低龄孩子的图解词典。从最早的First 100 words,英语单词大书,到各种1000 words的图解字典或者贴纸书。启蒙早期可以用这些词典来估算孩子的词汇量。



4. 使用 RAZ《牛津树》评估词汇量水平


RAZ 词汇量到底多少?看看下面这张图,憧憬一下?



但注意这个表格里统计的词汇,是截止到该级别,总共出现过的单词数量。低阶的生僻词比较少,可以根据目前娃的级别和这个表格大概估算一下目前的词汇量水平。阶数往高处可能还需要打个折扣,考虑到吸收率和生僻词专有名词。比如读完Z1不代表就坐拥一万八,可能打个七八九折?算是passive vocabulary吧。


这个表格准确率应该很高,因为我亲自数了AA-B的去重单词总数,数量大致接近。


RAZ低阶比较适合用来估算低龄孩子的词汇量。基本上刷完F-G,结合其它绘本的输入,应该有2000听力词汇了。


越往高级别越需要再乘以一个递减的系数。以RAZ的词汇估算,理论上刷完RAZ Z2累计出现的单词量是18000。到RAZ S累计是10000的词汇量。系数可以通过自己抽样来测,比如G1之后的RAZ后面都有Glossary词表。准确率大概也不高,估算够了。


除了RAZ,其它比较常见的分级读物也有词汇量的统计,可以用来作为参考。以人手一套的《牛津树》为例:


数据引用来源:英语启蒙者,公众号:英文绘本亲子屋:牛津树系列:牛津阅读树9级12本书文本词汇表词频表


牛六的AR难度大概匹配RAZ I-J,妥妥的两千词汇,听力刷到这个级别上自拼绝对可以。


暑期不知道读什么?送你一个选书小帮手!

小花生根据千千万万家庭

真实阅读数据+国际英文分级阅读标准形成的

中英文分级阅读榜单

👇

点击“阅读原文”,与作者交流...

相关阅读:
  • 新的一年, 以正确姿势打开AR(STAR)测试, 全方位带娃提升听说读写!

  • AR(STAR)测试结果到底准不准? 我们请30位花友聊了聊亲身体验...

  • 深挖STAR测试报告, 4个月4个方法, 我带7岁儿子到达美国7年级阅读水平!


点个“在看”,我们就不会走散~

最后编辑于:2024/2/29 拔丝英语网

admin-avatar

英语作文代写、国外视频下载

高质量学习资料分享

admin@buzzrecipe.com