Nutch爬行与种子网址在范围内

时间:2010-06-12 18:22:09

标签: nutch web-crawler

某些网站的网址格式为www.___.com/id=1www.___.com/id=1000。如何使用nutch抓取网站。是否有提供种子的范围?

2 个答案:

答案 0 :(得分:1)

我认为最简单的方法是使用脚本生成您的初始网址列表。

答案 1 :(得分:0)

没有。你手动或使用脚本注入它们