标签: java
我正在使用heritrix 3.1.1-snapshot来抓取/存档某些网站内容,我需要记录它处理的每个页面中遇到的所有网址,包括那些(已配置)不被抓取的网址。
我一直在寻找很长时间并且没有得到积极的结果:(希望能在这里得到一些帮助。谢谢。
答案 0 :(得分:0)
http://crawler.archive.org/articles/user_manual/config.html第6.3.1.4节似乎回答了你的问题。