标签: nutch web-crawler
我正在使用nutch 2.0,我已经创建了一个用于解析html的插件,它实现了Parser并且工作正常。
问题是我需要“解析”生成重定向(301,300)的页面,以获取网址和http代码。我的插件会忽略重定向的网页。
任何想法如何获取此信息,可能与其他扩展点?
答案 0 :(得分:1)
我已经实现了协议扩展点,现在我可以在数据库中保存重定向和加载时间。