应用错误收集

nutch正则表达式，如何实现爬行策略

时间：2014-07-11 05:29:12

标签： regex nutch

我尝试在regex-urlfilter.txt文件中的nutch 1.8环境中建立以下爬行行为：

第一：在seed.txt文件中定义的站点的抓取起始页（www.domainname.com）。第二：此外，仅从起始页面链接两个特定目录“directoryname1”（www.domainname.com/directoryname1 / ...）和“directoryname2”（www.domainname.com/directoryname2 / ...）的抓取页面，并忽略其他所有内容

到目前为止，我尝试的过滤器过于笼统，爬虫爬行了起始页面和所有其他目录（不仅是目录1和2），或者过于严格，因此爬虫根本没有启动（如seed-URL与目录的urlfilter的正则表达式不匹配。

感谢您的帮助克里斯

1 个答案:

答案 0 :(得分：1)

我自己解决了。在这里我的解决方案：正则表达式只是起始页面 + ^。 [。] DE / $ 目录1的正则表达式 +。 / directoryname1 /.* 目录2的正则表达式 +。 / directoryname2 /.