我一直试图为我的研究刮掉一些网站(基于AJAX)。我有一个条件,我应该刮掉内容而不登录相应网站的帐户。
DOUBT
我可以看到有和没有登录的页面源代码的巨大差异。我知道这是因为AJAX但我需要抓住其中一个网站,最好是以某种方式引起攻击。我是网络抓取的新手,所以让我知道如果你们有任何想法如何去做这个
附加条件
没有硒解决方案或基于Web驱动程序的解决方案。
答案 0 :(得分:0)
我会尝试遵循这条道路:
scrapy-splash
包与Scrapy无缝集成,根据我的经验,它比Selenium更可靠。