我想设置Nutch以便它遍历所有http://www.domain.com/classifieds/something/?pg=<page>
页面,从1
转到200
并存储http://www.domain.com/classifieds/something/view/<number>/
形式的网址一个灵数?然后,我想在我的终端打印出所有这些网址。我使用的是Apache Nutch 1.9
和Apache Solr 4.10.4
。
答案 0 :(得分:1)
启用Nutch的urlnormalizer-regx插件。然后,将以下内容添加到conf / regex-normalize.xml
<regex>
<pattern>(.*?)(pg=)\d{1,2})</pattern>
<substitution>$1/view/$3</substitution>
</regex>
此插件允许您根据正则表达式更改网址。在上面的示例中,我将您的网址分为三个部分。然后我用替换模式替换匹配的URL。
对于第二个问题,您应该启用indexer-dummy。这个插件会将数据打印成文本文件。
如果您正在抓取一个小网站,那么我建议您使用Scrapyy,它更符合您的要求
我希望有所帮助。