我正在寻找字数/频率提取,根据一般英语中的单词用法,如http://www.wordcount.org/main.php。我使用JWNL api访问Wordnet词典,我无法找到任何方法。
答案 0 :(得分:1)
您可能需要查看Google N-Grams语料库。 unigram计数将为您提供每个单词的相对频率。有一次,我确实经历过这个并将WordNet中的所有单词链接到相应的n-gram计数;你可以在这里找到我的清单:
https://raw.githubusercontent.com/gangeli/sim/master/etc/weighted_wordnet_vocabulary.tab
请注意,这绝不是规范"以任何方式正式支持的列表,它只是我放在一起的东西。