不要在Nutch过滤外链?

时间:2013-10-28 03:51:47

标签: nutch

我目前正在尝试在一小部分网站中执行深度抓取。为了做到这一点,我更新了conf/domain-urlfilter.txt我想要抓取的网站的域名,这很有效。但是,我发现不仅在过滤的每个步骤中都抓取了链接,而且还会过滤从已抓取的每个页面捕获的外链。

是否有办法避免在过滤已抓取的网址时过滤捕获的外链?

0 个答案:

没有答案