“常规”英语单词列表

时间:2019-06-09 07:10:07

标签: nlp word-list

所以我找到了这三个资源:

我不介意在479k个单词的列表中,有bu之类的单词(我从未见过的单词),因为其中包括超级模糊的内容。但是令我惊讶的是,维基词典的频繁列表中包含以下单词:

b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub

此外,Wiki列表中包含这些单词!

lube
neg
tab

也就是说,Wiki列表中有很多我不认为是“常规词”的单词,而Wiki列表中没有许多“常规词”。

因此,我的问题是,在公共领域的网络上是否有可供下载的“常规”字词列表。通常,我只是指您通过阅读书本等来学习的单词,而不是诸如leubl之类的由于某种原因而出现在Wiki特色列表中的单词。

这是针对自动填充组件的。

1 个答案:

答案 0 :(得分:0)

似乎您已经知道“常规”没有操作定义。这是因为您需要根据项目的需要自己定义它。表情符号是单词吗?如果您要分析Twitter数据,则将其包括在内可能会有所帮助。

几个可以帮助您为项目定义“常规”的要点是:

  • 频率指标(此词在您的语料中是否出现至少XX%的时间)
  • 来源之间的协议(出现在所有三个单词列表中的单词)
  • 人类的判断力(自己做,还是使用mturk询问“这是一个字,是还是不是?”)