是否可以将Nutch Crawler与我现有的Lucene项目集成?

时间:2012-04-06 07:30:38

标签: java lucene web-crawler nutch heritrix

我已经有一个使用Lucene3.5的项目了。

现在我需要提供网络搜索功能,但我不想导入整个Nutch项目。

所以我想知道,可能我只能使用Nutch的爬虫部分来抓取网站并将它们编入Lucene样式。

然后使用我现有的Lucene搜索器搜索索引文件。

是否可以这样做或者您有任何建议(Heritrix如何)?

1 个答案:

答案 0 :(得分:0)

是的,可以使用您自己的lucene实现搜索nutch生成的索引。我在项目的wiki中写了一个简短的描述,我们使用nutch来抓取静态内容。

您可以在此处查看:http://code.google.com/p/gtxcontentconnector/wiki/HowTo_Nutch

BR, 克里斯