我正在尝试抓取Web动态页面,但是使用scrapy
时,由于我想要的信息是动态的,因此无法检索所有信息。
我尝试使用Selenium,但与Scrapy不同,您无法指定标题,并且网站阻止了我。 (我无法命名该网站,因为抓取是非法的,但它是著名的旅行元搜索引擎...)。我的网页上有一个验证码求解器(重新验证码很难用脚本解析),因为该网站将我检测为机器人。
我想拥有所有动态信息并可以访问该网站,但是硒和scrapy不可能提供给我所有我想要的信息,我认为这是因为scrapy读取时页面未完全加载。
答案 0 :(得分:0)
您可以将硒与漂亮的汤一起使用,还可以抓取所有数据。” 请像这样跟随。 https://code.tutsplus.com/tutorials/modern-web-scraping-with-beautifulsoup-and-selenium--cms-30486。