即使从seed.txt中删除了URL,也会抓取网站(Nutch 2.1)

时间:2013-04-16 18:56:35

标签: nutch web-crawler

我在seed.txt中使用url-1成功进行了爬网,我可以在MySQL数据库中看到已爬网的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新爬网时,新爬网以获取步骤开始,它尝试获取的URL是seed.txt中旧的替换url。我不确定从哪里拿起旧网址。

我尝试检查隐藏的种子文件,我没有找到任何内容,并且在NUTCH_HOME / runtime / local中只有一个文件夹urls / seed.txt,我在其中运行crawl命令。请告知可能是什么问题?

1 个答案:

答案 0 :(得分:3)

您的抓取数据库包含要抓取的网址列表。除非您删除原始爬网目录或在新爬网中创建新目录,否则将使用原始URL列表并使用新URL进行扩展。