应用错误收集

Nutch如何避免CGI生成的抓取日历网页

时间：2012-01-27 05:43:13

标签： web-crawler webpage nutch dynamic-websites

我正在使用Nutch抓取一个大型网站。

网页由CGI程序生成。大多数网页的网址都包含?id=2323&title=foo等表达式。

我想抓取这些网页，因为它们包含许多有用的信息。

然而，我遇到的一个问题是这个网站有一个日历。还会生成一些类似日期的网页。这意味着Nutch将尝试抓取一些无辜的网页，例如year=2030&month=12。

这非常愚蠢。

如何在Nutch中避免这种陷阱？写很多正则表达式？

1 个答案:

答案 0 :(得分：0)

将正则表达式模式添加到conf/regex-urlfilter.txt以指定接受或拒绝网址的规则。