Java API:下载和计算给定网页的tf-idf

时间:2011-02-14 10:29:13

标签: java lucene solr tf-idf

我是IR技术的新手。

我正在寻找基于Java的API或工具来执行以下操作。

  1. 下载指定的网址
  2. 提取令牌
  3. 删除停用词
  4. 执行词干
  5. 创建倒置索引
  6. 计算TF-IDF
  7. 请让我知道Lucene怎么能对我有所帮助。

    此致 Yuvi

2 个答案:

答案 0 :(得分:4)

你可以试试Word Vector Tool - 自最新发布以来已经有一段时间了,但它在这里工作正常。它应该能够执行您提到的所有步骤。但是,我自己从未使用过爬虫部件。

答案 1 :(得分:3)

实际上,TF-IDF是给予文档中术语的分数,而不是整个文档。 如果您只想在文档中每个术语使用TF-IDF,可以使用this method,而不要触及Lucene。 如果要创建搜索引擎,则需要执行更多操作(例如从给定的URL中提取文本,其相应的文档可能不包含原始文本)。如果是这种情况,请考虑使用Solr