应用错误收集

如何配置heritrix来记录所有遇到的URL，包括那些被过滤/不被抓取的URL？

时间：2011-04-08 02:35:26

标签： java

我正在使用heritrix 3.1.1-snapshot来抓取/存档某些网站内容，我需要记录它处理的每个页面中遇到的所有网址，包括那些（已配置）不被抓取的网址。

我一直在寻找很长时间并且没有得到积极的结果:(希望能在这里得到一些帮助。谢谢。

1 个答案:

答案 0 :(得分：0)

http://crawler.archive.org/articles/user_manual/config.html第6.3.1.4节似乎回答了你的问题。