应用错误收集

Import.io - 它可以取代Kimonolabs

时间：2016-02-16 09:38:59

标签： web-scraping import.io

我现在使用Kimonolabs来搜索具有相同目标的网站中的数据。为了方便起见，我们可以说这些网站是在线商店在网上销售的东西（实际上它们是具有在线应用程序可能性的工作网站，但从技术上讲，它看起来很像网店）。

这很有效。对于每个网站，都会创建一个scraper-API，通过可用的高级搜索页面来抓取所有产品网址。我们将此API称为“URL列表”。然后为product-detail-page创建一个'product-API'，用于擦除所有必需的元素。例如。标题，产品文本以及品牌，类别等规格。产品API设置为每天使用“网址列表”中收集的所有网址进行抓取。

然后使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。

然而，Kimonolabs将于2016年2月退出服务:-(。所以，我正在寻找一个简单的替代方案。我一直在寻找import.io，但我想知道：

它是否支持自动更新（让API每小时/每天/每天等）？
是否支持从分页高级搜索页面中提取所有产品网址？

我正在修补这项服务。基本上，它似乎通过与Kimonolabs相同的简单过程来提取数据。只是，我不清楚是否对URL的产品API的必要性进行分页并自动保持最新状态。

如果import.io是一个有用的替代方案，那么这里的任何import.io用户都可以提供建议吗？甚至可能在正确的方向上给出一些指示？

4 个答案:

答案 0 :(得分：3)

查看Portia。它是一个open source视觉抓取工具，与Kimono一样。

Portia也可作为服务提供，它满足您对import.io：

的要求

自动更新，通过安排定期作业来抓取您想要的网页，使您的数据保持最新状态。
根据您可以定义的网址格式浏览分页链接。

完全披露：我在Portia的主要维护者Scrapinghub工作。

答案 1 :(得分：2)

也许你想试试Extracty。它是一个免费的网络抓取工具，允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索。

如果您了解一点JS，您可以编写CasperJS端点并集成提取数据所需的任何逻辑。它有与Kimonolabs类似的目标，可以解决相同的问题（如果不是更多，可以编程）。

如果Extracty无法解决您的需求，您可以查看这些旨在实现类似目标的其他市场参与者：

Import.io（正如您已经提到的）
Mozenda
Cloudscrape
TrooclickAPI
FiveFilters

免责声明：我是Extracty公司的联合创始人。

答案 2 :(得分：1)

我对Import.io并不那么喜欢，但在我看来，它允许通过批量输入网址进行分页。阅读here。

到目前为止，通过API获取整个网站的进展并不多：

链接多个API /数据集目前无法使用Chain API完全自动化整个网站的提取。例如，如果我想要在类别页面或分页列表中找到的数据。我首先要创建一个URL列表，运行批量提取，将结果保存为导入数据集，然后将其链接到另一个Extractor。一旦设置，我希望能够更自动地一键完成

P.S。如果你对JS很熟悉，你可能会发现this很有用。

答案 3 :(得分：0)

关于自动更新：现在是beta feature。从kimonolabs迁移后，我正在为自己测试...您可以通过将&bulkSchedule=1附加到API网址来为自己的API启用此功能。然后，您将看到“计划”选项卡。在“配置”标签中选择“批量提取”，然后在每天或每周运行调度程序后添加您的网址。