应用错误收集

即使从seed.txt中删除了URL，也会抓取网站（Nutch 2.1）

时间：2013-04-16 18:56:35

标签： nutch web-crawler

我在seed.txt中使用url-1成功进行了爬网，我可以在MySQL数据库中看到已爬网的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新爬网时，新爬网以获取步骤开始，它尝试获取的URL是seed.txt中旧的替换url。我不确定从哪里拿起旧网址。

我尝试检查隐藏的种子文件，我没有找到任何内容，并且在NUTCH_HOME / runtime / local中只有一个文件夹urls / seed.txt，我在其中运行crawl命令。请告知可能是什么问题？

1 个答案:

答案 0 :(得分：3)

您的抓取数据库包含要抓取的网址列表。除非您删除原始爬网目录或在新爬网中创建新目录，否则将使用原始URL列表并使用新URL进行扩展。