我正在使用Nutch抓取一个大型网站。
网页由CGI程序生成。大多数网页的网址都包含?id=2323&title=foo
等表达式。
我想抓取这些网页,因为它们包含许多有用的信息。
然而,我遇到的一个问题是这个网站有一个日历。还会生成一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,例如year=2030&month=12
。
这非常愚蠢。
如何在Nutch中避免这种陷阱?写很多正则表达式?
答案 0 :(得分:0)
将正则表达式模式添加到conf/regex-urlfilter.txt
以指定接受或拒绝网址的规则。