我在seed.txt中使用url-1成功进行了爬网,我可以在MySQL数据库中看到已爬网的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新爬网时,新爬网以获取步骤开始,它尝试获取的URL是seed.txt中旧的替换url。我不确定从哪里拿起旧网址。
我尝试检查隐藏的种子文件,我没有找到任何内容,并且在NUTCH_HOME / runtime / local中只有一个文件夹urls / seed.txt,我在其中运行crawl命令。请告知可能是什么问题?
答案 0 :(得分:3)
您的抓取数据库包含要抓取的网址列表。除非您删除原始爬网目录或在新爬网中创建新目录,否则将使用原始URL列表并使用新URL进行扩展。