提供涵盖该术语的文档数量的资源

时间:2015-03-30 01:45:37

标签: nlp stanford-nlp opennlp corpus

我正在寻找提供术语涵盖的文档数量的资源。例如,大约有250亿个文档包含术语""在索引的互联网上。

2 个答案:

答案 0 :(得分:2)

我不知道大型语料库(如网络)的任何文档频率列表,但有一些术语频率列表可用。例如,有frequency lists from the web corpora compiled by the Web-As-Corpus Kool Yinitiative,其中包括20亿ukWaC英语网络语料库。或者,有n-grams from the Google Books Corpus

has been shown这样的术语频率计数可用于可靠地近似文档频率计数。

答案 1 :(得分:0)

Here是一种可治疗的频率。

另请查看this site - 它包含有关现有语料库和单词/ ngrams列表的大量信息。不幸的是,大多数资源都是付费的,但不是n-gram(n> 1),所以如果您要处理多字词,它可以提供帮助。