Nutch Parsing插件和重定向

时间:2012-08-08 12:11:22

标签: nutch web-crawler

我正在使用nutch 2.0,我已经创建了一个用于解析html的插件,它实现了Parser并且工作正常。

问题是我需要“解析”生成重定向(301,300)的页面,以获取网址和http代码。我的插件会忽略重定向的网页。

任何想法如何获取此信息,可能与其他扩展点?

1 个答案:

答案 0 :(得分:1)

我已经实现了协议扩展点,现在我可以在数据库中保存重定向和加载时间。