应用错误收集

我希望有两个文件seed.txt和seed2.txt，并且每个文件都有不同的网址

您需要按原样维护种子文件名;不要将它重命名为seed2等。相反，你可以创建两个单独的urls目录，每个目录包含一个包含不同url集的种子文件。防爆。文件夹'urls1'将有一个seed.txt，另一个文件夹'urls2'将有另一个seed.txt与一组不同的网址。但是还要确保创建爬网数据所在的单独爬网目录（例如，在'urls1'文件夹中为seed.txt创建'crawl1'目录，在'urls2'中为'seeds.txt'创建'crawl2'目录

在seed.txt中，抓取的深度我想成为ex。 2，在seed2.txt中，深度为3。

您应该在crawl命令中指定深度值，而不是在seed.txt中。在您的情况下，如果在同一台机器上运行，请在单独的终端中运行以下命令（前提是您的nutch / hadoop配置支持并行运行多个爬网作业。

bin / nutch crawl urls1 -dir crawl1 -depth 2
bin / nutch crawl urls2 -dir crawl2 -depth 3

希望这有帮助！

如何从不同的文件中读取URL并设置不同的爬行深度？

1 个答案: