爬行pinterest和quora像站点的可能性

时间:2017-08-02 06:58:57

标签: ajax web-scraping scrapy screen-scraping pinterest

我一直试图为我的研究刮掉一些网站(基于AJAX)。我有一个条件,我应该刮掉内容而不登录相应网站的帐户。


DOUBT

我可以看到有和没有登录的页面源代码的巨大差异。我知道这是因为AJAX但我需要抓住其中一个网站,最好是以某种方式引起攻击。我是网络抓取的新手,所以让我知道如果你们有任何想法如何去做这个


附加条件
没有硒解决方案或基于Web驱动程序的解决方案。

1 个答案:

答案 0 :(得分:0)

我会尝试遵循这条道路:

  1. 如果有API,请使用API​​。您既可以保存远程资源也可以保存远程资源,因为您不需要渲染任何内容。您可能会发现网站是否使用API​​,例如浏览器的开发人员工具(网络选项卡,XHR)。
  2. 使用Splash作为渲染服务。它使用scrapy-splash包与Scrapy无缝集成,根据我的经验,它比Selenium更可靠。