我现在使用Kimonolabs来搜索具有相同目标的网站中的数据。为了方便起见,我们可以说这些网站是在线商店在网上销售的东西(实际上它们是具有在线应用程序可能性的工作网站,但从技术上讲,它看起来很像网店)。
这很有效。对于每个网站,都会创建一个scraper-API,通过可用的高级搜索页面来抓取所有产品网址。我们将此API称为“URL列表”。然后为product-detail-page创建一个'product-API',用于擦除所有必需的元素。例如。标题,产品文本以及品牌,类别等规格。产品API设置为每天使用“网址列表”中收集的所有网址进行抓取。
然后使用我们自己的服务使用Kimonolabs JSON端点获取所有产品的收集信息。
然而,Kimonolabs将于2016年2月退出服务:-(。所以,我正在寻找一个简单的替代方案。我一直在寻找import.io,但我想知道:
我正在修补这项服务。基本上,它似乎通过与Kimonolabs相同的简单过程来提取数据。只是,我不清楚是否对URL的产品API的必要性进行分页并自动保持最新状态。
如果import.io是一个有用的替代方案,那么这里的任何import.io用户都可以提供建议吗?甚至可能在正确的方向上给出一些指示?
答案 0 :(得分:3)
查看Portia。它是一个open source视觉抓取工具,与Kimono一样。
Portia也可作为服务提供,它满足您对import.io:
的要求完全披露:我在Portia的主要维护者Scrapinghub工作。
答案 1 :(得分:2)
也许你想试试Extracty。它是一个免费的网络抓取工具,允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索。
如果您了解一点JS,您可以编写CasperJS端点并集成提取数据所需的任何逻辑。它有与Kimonolabs类似的目标,可以解决相同的问题(如果不是更多,可以编程)。
如果Extracty无法解决您的需求,您可以查看这些旨在实现类似目标的其他市场参与者:
免责声明:我是Extracty公司的联合创始人。
答案 2 :(得分:1)
我对Import.io并不那么喜欢,但在我看来,它允许通过批量输入网址进行分页。阅读here。
到目前为止,通过API获取整个网站的进展并不多:
链接多个API /数据集目前无法使用Chain API完全自动化整个网站的提取。 例如,如果我想要在类别页面或分页列表中找到的数据。我首先要创建一个URL列表,运行批量提取,将结果保存为导入数据集,然后将其链接到另一个Extractor。一旦设置,我希望能够更自动地一键完成
P.S。如果你对JS很熟悉,你可能会发现this很有用。
答案 3 :(得分:0)
关于自动更新:
现在是beta feature。从kimonolabs迁移后,我正在为自己测试...您可以通过将&bulkSchedule=1
附加到API网址来为自己的API启用此功能。然后,您将看到“计划”选项卡。在“配置”标签中选择“批量提取”,然后在每天或每周运行调度程序后添加您的网址。