如何使用硒与scrapy爬行某个网页?

时间:2018-01-21 13:27:27

标签: javascript python html selenium scrapy

问题是网站中有某些部分无法通过scrapy直接抓取。因此,我需要使用selenium来获取页面源,以便我可以访问该特定内容。

我试过了:

from selenium import webdriver
driver = webdriver.Chrome()
driver.get(url)
print(driver.page_source)

我没有在结果页面源中找到某些内容, 虽然我可以通过driver.find_element_by_css_selector()

获取内容

为什么会这样? 以及如何使用selenium和scrapy来抓取某个网站,例如:http://tieba.baidu.com/p/5513911529

我遇到困难的部分如下图所示,在红圈内,我需要其中的文字内容

感谢您的帮助,或者至少给我一份文档来阅读。

I need the text in the red circle

1 个答案:

答案 0 :(得分:2)

用户向下滚动后将显示内容。所以你必须使用JS Executor向下滚动。请参阅下面的代码。

registerModule(DefaultScalaModule)