应用错误收集

时间：2014-10-06 09:50:19

标签： web-scraping

我多次使用scrapy和美丽的汤，但是更容易和更快地找到kimonolabs解决方案。唯一的问题是，有时候工作确实需要一些调整，这是不可能的（例如，使用独特的模式进行爬行）。

还有其他解决方案将易用性与可选复杂性相结合吗？主要是我想使用WYSIWYG接口定义页面抓取模板，然后以编程方式编写爬虫。

答案 0 :(得分：3)

使用Import.io提取器。

答案 1 :(得分：1)

完全披露：我是ParseHub的创始人之一。

ParseHub试图解决这个问题。它为您提供了一个gui和强大的工具，用于直观地定义模板，如果您需要更细粒度的控制，则可以回退到javascript的子集。您可以使用所有熟悉的编程原语（if，for，break，recursion等）。

您可以在www.parsehub.com找到它

答案 2 :(得分：1)

Agenty具有与抓取网站完全相同的功能，以及用于设置抓取代理的Chrome扩展程序。您只需安装扩展程序并创建代理程序即可抓取任何网站。

仅供参考：我们还计划在2016年4月之前推出托管解决方案和REST API （更新 - API is available now）

您可以在网站上查看更多详情~~（www.datascraping.co）~~现在Agenty.com

披露：我是创始成员之一