如何阅读Nutch索引的内容?

时间:2012-04-23 02:47:03

标签: lucene nutch

我可以使用 Nutch 抓取并索引网页,但我不知道如何读取索引并从中提取数据。

有人可以向我介绍一些阅读索引的有用工具吗?

我想添加一个中文语言分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。而且,我想对使用Java抓取的数据进行一些处理。

2 个答案:

答案 0 :(得分:0)

使用luke tool浏览nutch索引。 dump index选项可以为整个索引创建一个xml文件。如果你必须通过代码完成,那么你需要学习lucene。

要阅读已抓取的内容,请使用nutch segment reader

答案 1 :(得分:0)

您可以使用提供的读取命令,如

bin/nutch readseg xxx

阅读内容。

希望this会帮助你。