如何配置Nutch以避免抓取废话日历网页

时间:2012-05-04 19:14:42

标签: calendar nutch

我正在使用Nutch为网站编制索引。我注意到Nutch已经抓取了一些垃圾网页,例如http:// * ** * ** / category / events / 2015- 11。这个网页是关于2015年11月发生的事件。这对我来说完全是胡说八道。我想知道Nutch是否可以智能地跳过这些网页。可能有人认为我可以使用正则表达式来避免这种情况。但是,由于日历网页的命名模式并不是一直相同,因此无法为此编写完美的正则表达式。我知道Heritrix(一个Internet存档爬虫)具有避免抓取废话日历网页的功能。有人解决了这个问题吗?

1 个答案:

答案 0 :(得分:1)

除了可以执行此操作的正则表达式网址过滤之外没有其他方法。每当您看到不受欢迎的页面通过已爬网的内容时,您就可以继续向正则表达式文件中添加新模式。