如何使用scrapy或Selenium抓取动态页面?

时间:2019-06-13 09:02:57

标签: javascript python html parsing screen-scraping

我正在尝试抓取Web动态页面,但是使用scrapy时,由于我想要的信息是动态的,因此无法检索所有信息。

我尝试使用Selenium,但与Scrapy不同,您无法指定标题,并且网站阻止了我。 (我无法命名该网站,因为抓取是非法的,但它是著名的旅行元搜索引擎...)。我的网页上有一个验证码求解器(重新验证码很难用脚本解析),因为该网站将我检测为机器人。

我想拥有所有动态信息并可以访问该网站,但是硒和scrapy不可能提供给我所有我想要的信息,我认为这是因为scrapy读取时页面未完全加载。

1 个答案:

答案 0 :(得分:0)

您可以将硒与漂亮的汤一起使用,还可以抓取所有数据。”   请像这样跟随。  https://code.tutsplus.com/tutorials/modern-web-scraping-with-beautifulsoup-and-selenium--cms-30486