Nutch:如何将url结果与深度分开:1和深度结果:2

时间:2012-10-09 09:37:53

标签: nutch

在nutch中运行此命令之后:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我得到一个网址列表,只说50个网址,但是有人知道将所有网址分开深度。

所以我会得到结果:

深度1 = 5网址的网址

  • URL

  • URL

  • URL

...

深度2的网址= 15网址

  • URL

  • URL

  • URL

...

这样的事情,有没有人已经解决了这个问题?

nutch中有没有解决这个问题的功能?

任何帮助都将受到赞赏。

1 个答案:

答案 0 :(得分:1)

nutch中没有内置功能来执行此操作。但是简单的黑客将是使用dept 1运行nutch命令,复制web表然后再次运行deth 1.所以你将有2个版本的nutch web-table对应每一轮