应用错误收集

时间：2017-08-02 06:58:57

标签： ajax web-scraping scrapy screen-scraping pinterest

我一直试图为我的研究刮掉一些网站（基于AJAX）。我有一个条件，我应该刮掉内容而不登录相应网站的帐户。

DOUBT

我可以看到有和没有登录的页面源代码的巨大差异。我知道这是因为AJAX但我需要抓住其中一个网站，最好是以某种方式引起攻击。我是网络抓取的新手，所以让我知道如果你们有任何想法如何去做这个

附加条件
没有硒解决方案或基于Web驱动程序的解决方案。

答案 0 :(得分：0)

我会尝试遵循这条道路：

如果有API，请使用API。您既可以保存远程资源也可以保存远程资源，因为您不需要渲染任何内容。您可能会发现网站是否使用API，例如浏览器的开发人员工具（网络选项卡，XHR）。
使用Splash作为渲染服务。它使用scrapy-splash包与Scrapy无缝集成，根据我的经验，它比Selenium更可靠。