我需要停止import.io爬虫并提取它到目前为止所提取的数据。如何在不丢失数据的情况下执行此操作?

时间:2015-10-28 21:35:55

标签: web-crawler import.io

我使用import.io的批量查询功能来抓取25K网址。它开始时速度很快,但在10K左右开始大幅放缓。现在已经超过6个小时,而且是19K。遗憾的是,我没有时间等到它完成所以我需要处理迄今为止收集的任何数据。

但是,我没有看到停止按钮或任何东西,如果我把它弄得太乱,我害怕丢失数据。

感谢任何帮助,谢谢!

1 个答案:

答案 0 :(得分:0)

提取器软件根据网站服务页面的速度和其他一些因素加快和减慢速度,以确保获取所有数据的最佳机会;我们这样做是因为我们认为数据质量和覆盖率是最重要的,因此获得快速但低质量的数据集并不是我们所信奉的。毕竟,你可能听说过“垃圾垃圾”之前:)< / p>

将来,您可以通过http://support.import.io/与开发/支持团队联系,获取数据提取方面的帮助。

祝你好运