^ +(http | https)://www.abc.com/subdomain
我想阻止父URL,我只想仅对子域下的子子域进行爬网。帮助我了解如何阻止父网址。
答案 0 :(得分:0)
尝试
+^(http|https)://www.abc.com/subdomain
-^(http|https)://www.abc.com/
-^.
您可以以此来测试是否被拒绝
bin/nutch org.apache.nutch.net.URLFilterChecker -filterName urlfilter-regex
添加您的网址,如果-被拒绝或+可以