Nutch如何避免CGI生成的抓取日历网页

时间:2012-01-27 05:43:13

标签: web-crawler webpage nutch dynamic-websites

我正在使用Nutch抓取一个大型网站。

网页由CGI程序生成。大多数网页的网址都包含?id=2323&title=foo等表达式。

我想抓取这些网页,因为它们包含许多有用的信息。

然而,我遇到的一个问题是这个网站有一个日历。还会生成一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页,例如year=2030&month=12

这非常愚蠢。

如何在Nutch中避免这种陷阱?写很多正则表达式?

1 个答案:

答案 0 :(得分:0)

将正则表达式模式添加到conf/regex-urlfilter.txt以指定接受或拒绝网址的规则。