标签: nutch
我目前正在尝试在一小部分网站中执行深度抓取。为了做到这一点,我更新了conf/domain-urlfilter.txt我想要抓取的网站的域名,这很有效。但是,我发现不仅在过滤的每个步骤中都抓取了链接,而且还会过滤从已抓取的每个页面捕获的外链。
conf/domain-urlfilter.txt
是否有办法避免在过滤已抓取的网址时过滤捕获的外链?