我已经有一个使用Lucene3.5的项目了。
现在我需要提供网络搜索功能,但我不想导入整个Nutch项目。
所以我想知道,可能我只能使用Nutch的爬虫部分来抓取网站并将它们编入Lucene样式。
然后使用我现有的Lucene搜索器搜索索引文件。
是否可以这样做或者您有任何建议(Heritrix如何)?
答案 0 :(得分:0)
是的,可以使用您自己的lucene实现搜索nutch生成的索引。我在项目的wiki中写了一个简短的描述,我们使用nutch来抓取静态内容。
您可以在此处查看:http://code.google.com/p/gtxcontentconnector/wiki/HowTo_Nutch
BR, 克里斯