在nutch中运行此命令之后:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我得到一个网址列表,只说50个网址,但是有人知道将所有网址分开深度。
所以我会得到结果:
深度1 = 5网址的网址
URL
URL
URL
...
深度2的网址= 15网址
URL
URL
URL
...
这样的事情,有没有人已经解决了这个问题?
nutch中有没有解决这个问题的功能?
任何帮助都将受到赞赏。
答案 0 :(得分:1)
nutch中没有内置功能来执行此操作。但是简单的黑客将是使用dept 1运行nutch命令,复制web表然后再次运行deth 1.所以你将有2个版本的nutch web-table对应每一轮