应用错误收集

Nutch Parsing插件和重定向

时间：2012-08-08 12:11:22

标签： nutch web-crawler

我正在使用nutch 2.0，我已经创建了一个用于解析html的插件，它实现了Parser并且工作正常。

问题是我需要“解析”生成重定向（301,300）的页面，以获取网址和http代码。我的插件会忽略重定向的网页。

任何想法如何获取此信息，可能与其他扩展点？

1 个答案:

答案 0 :(得分：1)

我已经实现了协议扩展点，现在我可以在数据库中保存重定向和加载时间。