如何从不同的文件中读取URL并设置不同的爬行深度?

时间:2013-01-17 11:07:41

标签: apache lucene nutch web-crawler

我希望有两个文件seed.txt和seed2.txt,并且在每个文件中都有不同的URL。在seed.txt中,爬行的深度我想成为ex。 2,在seed2.txt中,深度为3.
是否有任何解决方案或解决方法?

1 个答案:

答案 0 :(得分:1)

  

我希望有两个文件seed.txt和seed2.txt,并且每个文件都有不同的网址

您需要按原样维护种子文件名;不要将它重命名为seed2等。相反,你可以创建两个单独的urls目录,每个目录包含一个包含不同url集的种子文件。防爆。文件夹'urls1'将有一个seed.txt,另一个文件夹'urls2'将有另一个seed.txt与一组不同的网址。但是还要确保创建爬网数据所在的单独爬网目录(例如,在'urls1'文件夹中为seed.txt创建'crawl1'目录,在'urls2'中为'seeds.txt'创建'crawl2'目录

  

在seed.txt中,抓取的深度我想成为ex。 2,在seed2.txt中,深度为3。

您应该在crawl命令中指定深度值,而不是在seed.txt中。在您的情况下,如果在同一台机器上运行,请在单独的终端中运行以下命令(前提是您的nutch / hadoop配置支持并行运行多个爬网作业。

  • bin / nutch crawl urls1 -dir crawl1 -depth 2

  • bin / nutch crawl urls2 -dir crawl2 -depth 3

希望这有帮助!