我多次使用scrapy和美丽的汤,但是更容易和更快地找到kimonolabs解决方案。唯一的问题是,有时候工作确实需要一些调整,这是不可能的(例如,使用独特的模式进行爬行)。
还有其他解决方案将易用性与可选复杂性相结合吗?主要是我想使用WYSIWYG接口定义页面抓取模板,然后以编程方式编写爬虫。
答案 0 :(得分:3)
使用Import.io提取器。
答案 1 :(得分:1)
完全披露:我是ParseHub的创始人之一。
ParseHub试图解决这个问题。它为您提供了一个gui和强大的工具,用于直观地定义模板,如果您需要更细粒度的控制,则可以回退到javascript的子集。您可以使用所有熟悉的编程原语(if,for,break,recursion等)。
您可以在www.parsehub.com找到它
答案 2 :(得分:1)
尝试Agenty
Agenty具有与抓取网站完全相同的功能,以及用于设置抓取代理的Chrome扩展程序。您只需安装扩展程序并创建代理程序即可抓取任何网站。
仅供参考:我们还计划在2016年4月之前推出托管解决方案和REST API (更新 - API is available now)
您可以在网站上查看更多详情(www.datascraping.co)现在Agenty.com
披露:我是创始成员之一