标签: nutch web-crawler
某些网站的网址格式为www.___.com/id=1到www.___.com/id=1000。如何使用nutch抓取网站。是否有提供种子的范围?
www.___.com/id=1
www.___.com/id=1000
答案 0 :(得分:1)
我认为最简单的方法是使用脚本生成您的初始网址列表。
答案 1 :(得分:0)
没有。你手动或使用脚本注入它们