标签: nutch
我想知道如何让nutch抓取不仅是我指定的域,还有我指定的域内的dir路径。我知道您可以在regex-urlfilter.txt
答案 0 :(得分:2)
这应该只抓取您想要的域/路径:
+.*www\.domain\.com/yourpath/.* #skip everything else -.*