我尝试在regex-urlfilter.txt文件中的nutch 1.8环境中建立以下爬行行为:
第一: 在seed.txt文件中定义的站点的抓取起始页(www.domainname.com)。 第二: 此外,仅从起始页面链接两个特定目录“directoryname1”(www.domainname.com/directoryname1 / ...)和“directoryname2”(www.domainname.com/directoryname2 / ...)的抓取页面,并忽略其他所有内容
到目前为止,我尝试的过滤器过于笼统,爬虫爬行了起始页面和所有其他目录(不仅是目录1和2),或者过于严格,因此爬虫根本没有启动(如seed-URL与目录的urlfilter的正则表达式不匹配。
感谢您的帮助克里斯
答案 0 :(得分:1)
我自己解决了。在这里我的解决方案: 正则表达式只是起始页面 + ^。 [。] DE / $ 目录1的正则表达式 +。 / directoryname1 /.* 目录2的正则表达式 +。 / directoryname2 /.