计算网页的tf-idf

时间:2015-05-29 00:00:00

标签: information-retrieval tf-idf

我是IR新手,我想为网页计算tf-idf。

对于“tf”部分,我想计算一个网页内容中每个单词的频率。

对于“idf”部分,我想比较内容的多个网页。

是否有可以帮助解决此问题的工具/ API?任何平台都可以。有人可以解释我怎样才能实现这个目标?

谢谢大家。

1 个答案:

答案 0 :(得分:0)

您需要首先使用Lucene等工具索引网页集合。这些索引框架会为您创建两个东西......首先是倒排索引,即一个术语出现的文档列表(类似于每个重要术语的书的索引)存储一个列表,指示这些术语出现在哪些页面中... ...负责tf部分...第二个是集合统计,它存储全局(不是每个文档)统计信息,例如文档频率(在多少文档中) 一个术语出现)等。

然后在检索阶段使用这两个文件返回排名靠前的文档列表。这是Lucene的一个很好的tutorial,它可以帮助你入门。特别有用的是 IndexWriter StandardAnalyzer 文档 IndexSearcher BM25Similarity