TF-IDF语料库是否可以使用分散

时间:2011-03-12 15:43:08

标签: javascript algorithm corpus tf-idf

我正在开发一些软件,旨在通过执行TF-IDF(与一般英语语料库比较以删除常用词语)来唯一地识别网页。找到一个好的免费语料库需要一段时间(http://www.wordfrequency.info/top5000.asp),但是,这个语料库只提供频率和分散。它没有说语料库中包含了多少文档,所以我无法计算出IDF表。它确实包括一个色散值,范围从0到1,其中1表示每个文档中都出现一个单词。 有没有人知道(或可以弄清楚)使用这些数据实现类似IDF表的方法? 此外,如果有人知道一个包含我需要的信息的免费语料库,那么就会受到赞赏。 感谢

1 个答案:

答案 0 :(得分:4)

IDF = log (Total Documents in Corpus/Total Documents containing the term)

如果分散是包含术语的文档的一部分,那么:log (1/dispersion)将是IDF