如何使用nutch crawl省略JavaScript和注释?

时间:2011-04-01 13:19:16

标签: nutch

我是新手,尝试使用 Nutch 1.2 来抓取网站。我只使用Linux控制台与 Nutch 一起工作,因为我不需要任何其他东西。我的命令如下

bin/nutch crawl urls -dir crawled -depth 3
文件夹 urls 的位置是我的链接,我确实将结果发送到抓取的文件夹。 当我希望看到我输入的结果时:
bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
这工作得非常好,但是我收到很多破坏的链接。 现在,我想要 Nutch 来关注JavaScript链接,只有常规链接,任何人都可以给我一个提示/帮助,如何做到这一点? 我试图编辑 conf / crawl-urlfilter.txt 但没有结果。我可能输错了命令!

任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:0)

请注意,有两个不同的过滤器文件,一个用于一站式爬网命令,另一个用于逐步命令。 其余的只是构建一个与你想要跳过的网址相匹配的正则表达式,在之前添加减去并且你应该完成。