如何在Apache Nutch中配置种子和URL过滤器配置文件

时间:2015-03-22 13:44:00

标签: nutch

我想设置Nutch以便它遍历所有http://www.domain.com/classifieds/something/?pg=<page>页面,从1转到200并存储http://www.domain.com/classifieds/something/view/<number>/形式的网址一个灵数?然后,我想在我的终端打印出所有这些网址。我使用的是Apache Nutch 1.9Apache Solr 4.10.4

1 个答案:

答案 0 :(得分:1)

启用Nutch的urlnormalizer-regx插件。然后,将以下内容添加到conf / regex-normalize.xml

<regex>
<pattern>(.*?)(pg=)\d{1,2})</pattern>
<substitution>$1/view/$3</substitution>
</regex>

此插件允许您根据正则表达式更改网址。在上面的示例中,我将您的网址分为三个部分。然后我用替换模式替换匹配的URL。

对于第二个问题,您应该启用indexer-dummy。这个插件会将数据打印成文本文件。

如果您正在抓取一个小网站,那么我建议您使用Scrapyy,它更符合您的要求

我希望有所帮助。