应用错误收集

用于自然语言处理的词频语料库

时间：2014-04-11 05:42:51

标签： nlp corpus

我有一个开源词典/词库，我想找出关于词典/词库中每个单词的以下内容：

在任何可用的开放语料库中使用的单词及其同义词的频率。我可以在Stanford NLP page上找到一些开放的语料库，但对于词频语料库却没有。是否有任何开源词频语料库已经可用？如果不是，我正在寻找建立一个指针。
是否有任何算法/启发式方法可以将单词分类为不同的难度级别（例如，非常难，难，中等，容易等）？虽然是主观的，但可能是使用的稀有性/频率，意义的模糊性，即不同意义上的使用，拼写的难度，单词中的字母等等都可以用来对它们进行分类。我正在寻找任何开源软件包，我可以使用它来查找这些功能，尤其是单词频率，并构建一个语料库，对难以分级的单词进行分类。

1 个答案:

答案 0 :(得分：1)

1）英国国家语料库（BNC）不是开源的，但你可以在这里找到频率列表：http://www.kilgarriff.co.uk/bnc-readme.html

2）我不知道这样的包是否存在。对我来说，它看起来像是受监督的机器学习任务。只是为了给您一些想法：您可以使用以下功能： - 音节计数（例如参见Detecting syllables in a word） - lemmata计数：更多条目表示歧义 - PoS候选人数（可能比lemmata计数弱）这里有一个易于使用的注释和机器学习环境（门）：https://gate.ac.uk/sale/tao/splitch19.html#x24-46100019.2