如何配置heritrix来记录所有遇到的URL,包括那些被过滤/不被抓取的URL?

时间:2011-04-08 02:35:26

标签: java

我正在使用heritrix 3.1.1-snapshot来抓取/存档某些网站内容,我需要记录它处理的每个页面中遇到的所有网址,包括那些(已配置)不被抓取的网址。

我一直在寻找很长时间并且没有得到积极的结果:(希望能在这里得到一些帮助。谢谢。

1 个答案:

答案 0 :(得分:0)

http://crawler.archive.org/articles/user_manual/config.html第6.3.1.4节似乎回答了你的问题。