所以,我用import.io桌面应用程序提取了大量数据已有一段时间了;但总是让我烦恼的是,当你试图批量提取多个网址时,它总是会跳过一半的网址。
这不是网址问题,如果你采取相同的说法,它会返回15个网址,例如第一次8,第二次7,第三次9;有些链接会在第一时间被提取,但会被第二次跳过,依此类推。
我想知道有没有办法让它处理我提供的所有网址?
答案 0 :(得分:1)
我在提取数据时遇到过这个问题几次。这通常是由于批量提取请求来自站点服务器的URL的速度。
解决方法是使用类似Extractor的Crawler。您可以将创建/收集的URL粘贴到“开始位置”,“从何处爬网”和“从何处获取数据”部分(您需要单击“爬网程序”中的“高级设置”按钮)。
确保打开0深度抓取。 (这会将Crawler变为提取器;即没有发现其他URL)
增加页面之间的暂停。
这是我之前建立的一个截图。 http://i.gyazo.com/92de3b7c7fbca2bc4830c27aefd7cba4.png