我正在寻找提供术语涵盖的文档数量的资源。例如,大约有250亿个文档包含术语""在索引的互联网上。
答案 0 :(得分:2)
我不知道大型语料库(如网络)的任何文档频率列表,但有一些术语频率列表可用。例如,有frequency lists from the web corpora compiled by the Web-As-Corpus Kool Yinitiative,其中包括20亿ukWaC英语网络语料库。或者,有n-grams from the Google Books Corpus。
has been shown这样的术语频率计数可用于可靠地近似文档频率计数。
答案 1 :(得分:0)