我是IR技术的新手。
我正在寻找基于Java的API或工具来执行以下操作。
请让我知道Lucene怎么能对我有所帮助。
此致 Yuvi
答案 0 :(得分:4)
你可以试试Word Vector Tool - 自最新发布以来已经有一段时间了,但它在这里工作正常。它应该能够执行您提到的所有步骤。但是,我自己从未使用过爬虫部件。
答案 1 :(得分:3)
实际上,TF-IDF是给予文档中术语的分数,而不是整个文档。 如果您只想在文档中每个术语使用TF-IDF,可以使用this method,而不要触及Lucene。 如果要创建搜索引擎,则需要执行更多操作(例如从给定的URL中提取文本,其相应的文档可能不包含原始文本)。如果是这种情况,请考虑使用Solr。