我可以使用 Nutch 抓取并索引网页,但我不知道如何读取索引并从中提取数据。
有人可以向我介绍一些阅读索引的有用工具吗?
我想添加一个中文语言分析器和一个IndexFilter
插件,所以我想阅读索引来验证我的插件。而且,我想对使用Java抓取的数据进行一些处理。
答案 0 :(得分:0)
使用luke tool浏览nutch索引。 dump index选项可以为整个索引创建一个xml文件。如果你必须通过代码完成,那么你需要学习lucene。
要阅读已抓取的内容,请使用nutch segment reader。
答案 1 :(得分:0)