我是新手,尝试使用 Nutch 1.2 来抓取网站。我只使用Linux控制台与 Nutch 一起工作,因为我不需要任何其他东西。我的命令如下
bin/nutch crawl urls -dir crawled -depth 3
文件夹 urls 的位置是我的链接,我确实将结果发送到抓取的文件夹。
当我希望看到我输入的结果时:bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
这工作得非常好,但是我收到很多破坏的链接。
现在,我不想要 Nutch 来关注JavaScript链接,只有常规链接,任何人都可以给我一个提示/帮助,如何做到这一点?
我试图编辑 conf / crawl-urlfilter.txt 但没有结果。我可能输错了命令!
任何帮助表示赞赏!
答案 0 :(得分:0)