用于自然语言处理的词频语料库

时间:2014-04-11 05:42:51

标签: nlp corpus

我有一个开源词典/词库,我想找出关于词典/词库中每个单词的以下内容:

  1. 在任何可用的开放语料库中使用的单词及其同义词的频率。我可以在Stanford NLP page上找到一些开放的语料库,但对于词频语料库却没有。是否有任何开源词频语料库已经可用?如果不是,我正在寻找建立一个指针。

  2. 是否有任何算法/启发式方法可以将单词分类为不同的难度级别(例如,非常难,难,中等,容易等)?虽然是主观的,但可能是使用的稀有性/频率,意义的模糊性,即不同意义上的使用,拼写的难度,单词中的字母等等都可以用来对它们进行分类。我正在寻找任何开源软件包,我可以使用它来查找这些功能,尤其是单词频率,并构建一个语料库,对难以分级的单词进行分类。

1 个答案:

答案 0 :(得分:1)

1)英国国家语料库(BNC)不是开源的,但你可以在这里找到频率列表:http://www.kilgarriff.co.uk/bnc-readme.html

2)我不知道这样的包是否存在。对我来说,它看起来像是受监督的机器学习任务。只是为了给您一些想法:您可以使用以下功能: - 音节计数(例如参见Detecting syllables in a word) - lemmata计数:更多条目表示歧义 - PoS候选人数(可能比lemmata计数弱) 这里有一个易于使用的注释和机器学习环境(门):https://gate.ac.uk/sale/tao/splitch19.html#x24-46100019.2