Import.io - 它可以取代Kimonolabs

时间:2016-02-16 09:38:59

标签: web-scraping import.io

我现在使用Kimonolabs来搜索具有相同目标的网站中的数据。为了方便起见,我们可以说这些网站是在线商店在网上销售的东西(实际上它们是具有在线应用程序可能性的工作网站,但从技术上讲,它看起来很像网店)。

这很有效。对于每个网站,都会创建一个scraper-API,通过可用的高级搜索页面来抓取所有产品网址。我们将此API称为“URL列表”。然后为product-detail-page创建一个'product-API',用于擦除所有必需的元素。例如。标题,产品文本以及品牌,类别等规格。产品API设置为每天使用“网址列表”中收集的所有网址进行抓取。

然后使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。

然而,Kimonolabs将于2016年2月退出服务:-(。所以,我正在寻找一个简单的替代方案。我一直在寻找import.io,但我想知道:

  • 它是否支持自动更新(让API每小时/每天/每天等)?
  • 是否支持从分页高级搜索页面中提取所有产品网址?

我正在修补这项服务。基本上,它似乎通过与Kimonolabs相同的简单过程来提取数据。只是,我不清楚是否对URL的产品API的必要性进行分页并自动保持最新状态。

如果import.io是一个有用的替代方案,那么这里的任何import.io用户都可以提供建议吗?甚至可能在正确的方向上给出一些指示?

4 个答案:

答案 0 :(得分:3)

查看Portia。它是一个open source视觉抓取工具,与Kimono一样。

Portia也可作为服务提供,它满足您对import.io:

的要求
  • 自动更新,通过安排定期作业来抓取您想要的网页,使您的数据保持最新状态。
  • 根据您可以定义的网址格式浏览分页链接。

完全披露:我在Portia的主要维护者Scrapinghub工作。

答案 1 :(得分:2)

也许你想试试Extracty。它是一个免费的网络抓取工具,允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索。

如果您了解一点JS,您可以编写CasperJS端点并集成提取数据所需的任何逻辑。它有与Kimonolabs类似的目标,可以解决相同的问题(如果不是更多,可以编程)。

如果Extracty无法解决您的需求,您可以查看这些旨在实现类似目标的其他市场参与者:

  • Import.io(正如您已经提到的)
  • Mozenda
  • Cloudscrape
  • TrooclickAPI
  • FiveFilters

免责声明:我是Extracty公司的联合创始人。

答案 2 :(得分:1)

我对Import.io并不那么喜欢,但在我看来,它允许通过批量输入网址进行分页。阅读here

到目前为止,通过API获取整个网站的进展并不多:

  

链接多个API /数据集目前无法使用Chain API完全自动化整个网站的提取。   例如,如果我想要在类别页面或分页列表中找到的数据。我首先要创建一个URL列表,运行批量提取,将结果保存为导入数据集,然后将其链接到另一个Extractor。一旦设置,我希望能够更自动地一键完成

P.S。如果你对JS很熟悉,你可能会发现this很有用。

答案 3 :(得分:0)

关于自动更新: 现在是beta feature。从kimonolabs迁移后,我正在为自己测试...您可以通过将&bulkSchedule=1附加到API网址来为自己的API启用此功能。然后,您将看到“计划”选项卡。在“配置”标签中选择“批量提取”,然后在每天或每周运行调度程序后添加您的网址。