Question

我是新手，尝试使用 Nutch 1.2 来抓取网站。我只使用Linux控制台与 Nutch 一起工作，因为我不需要任何其他东西。我的命令如下

bin/nutch crawl urls -dir crawled -depth 3

文件夹 urls 的位置是我的链接，我确实将结果发送到抓取的文件夹。当我希望看到我输入的结果时：bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles 这工作得非常好，但是我收到很多破坏的链接。现在，我不想要 Nutch 来关注JavaScript链接，只有常规链接，任何人都可以给我一个提示/帮助，如何做到这一点？我试图编辑 conf / crawl-urlfilter.txt 但没有结果。我可能输错了命令！

任何帮助表示赞赏！

Answer 1

请注意，有两个不同的过滤器文件，一个用于一站式爬网命令，另一个用于逐步命令。其余的只是构建一个与你想要跳过的网址相匹配的正则表达式，在之前添加减去并且你应该完成。

如何使用nutch crawl省略JavaScript和注释？

1 个答案: