如何让Nutch爬虫只抓取特定的URL?

时间:2016-01-28 11:57:41

标签: nutch

我知道正则表达式可用于限制将要下载的页面。但是,我想只抓取给定页面中的锚链接在一组网址中的那些页面。例如,我有一个数组,其中包含['计算机','软件''硬件''操作系统',&# 39; thread'],我只想抓取那些锚文本包含数组中这些单词之一的网址。我应该在哪里实现Nutch的这种逻辑?谢谢。

1 个答案:

答案 0 :(得分:0)

正如您所指出的,URLFilters在处理URL字符串时并没有多大用处。您可以通过实现自定义HTMLParseFilter来实现您所描述的内容,您可以在其中访问当前文档的ParseData。它包含您可以根据其锚值过滤的Outlinks。

有大量关于如何编写插件和/或自定义HTMLParseFilter的示例,请参阅MetaTagsParser