我正在尝试使用Apache nutch只抓取某个文件路径。例如,如果我的网址是:
www.foo.com/shoes /
我想继续抓取网址:www.foo.com/shoes/nike和www.foo.com/shoes/addidas以及www.foo.com/shoes/addidas/soccer但不抓取其他目录,如: www.foo.com/clothes或www.foo.com/watches。无论如何,荷兰人能做到吗?
答案 0 :(得分:0)
你唯一要做的就是写一个与你的模式匹配的正则表达式,比如
+。www.foo.com/shoes /
并使用
跳过其他所有内容- *
在crawl-urlfilter.txt
!