我是IR新手,我想为网页计算tf-idf。
对于“tf”部分,我想计算一个网页内容中每个单词的频率。
对于“idf”部分,我想比较内容的多个网页。
是否有可以帮助解决此问题的工具/ API?任何平台都可以。有人可以解释我怎样才能实现这个目标?
谢谢大家。
答案 0 :(得分:0)
您需要首先使用Lucene等工具索引网页集合。这些索引框架会为您创建两个东西......首先是倒排索引,即一个术语出现的文档列表(类似于每个重要术语的书的索引)存储一个列表,指示这些术语出现在哪些页面中... ...负责tf部分...第二个是集合统计,它存储全局(不是每个文档)统计信息,例如文档频率(在多少文档中) 一个术语出现)等。
然后在检索阶段使用这两个文件返回排名靠前的文档列表。这是Lucene的一个很好的tutorial,它可以帮助你入门。特别有用的是 IndexWriter , StandardAnalyzer ,文档, IndexSearcher 和 BM25Similarity 。