应用错误收集

时间：2019-06-13 09:02:57

标签： javascript python html parsing screen-scraping

我正在尝试抓取Web动态页面，但是使用scrapy时，由于我想要的信息是动态的，因此无法检索所有信息。

我尝试使用Selenium，但与Scrapy不同，您无法指定标题，并且网站阻止了我。（我无法命名该网站，因为抓取是非法的，但它是著名的旅行元搜索引擎...）。我的网页上有一个验证码求解器（重新验证码很难用脚本解析），因为该网站将我检测为机器人。

我想拥有所有动态信息并可以访问该网站，但是硒和scrapy不可能提供给我所有我想要的信息，我认为这是因为scrapy读取时页面未完全加载。

答案 0 :(得分：0)

您可以将硒与漂亮的汤一起使用，还可以抓取所有数据。” 请像这样跟随。 https://code.tutsplus.com/tutorials/modern-web-scraping-with-beautifulsoup-and-selenium--cms-30486。