Question

我正在使用Selenium来呈现网页，然后进行内容提取。但是，我发现硒的回归与我使用的Chrome DevTools不同。

我使用的python代码很简单：

driver = webdriver.Chrome() #.PhantomJS()

driver.get(url)
content = driver.page_source.encode('utf-8')

基本上，我发现我正在看的那个领域大部分时间都没有出现在Selenium的结果中。它有时会起作用，但大多数时候，它只是不能呈现真正的Chrome浏览器所做的事情。我正在使用Mackbook Pro。感谢〜

Answer 1

page_source只会为您提供右键单击并获得View Page Source原始文档的内容。通过javascript等动态加载的任何东西都不会在那里。如果您想在硒中使用它，您可以这样做：

driver.find_element_by_css_selector('body').get_attribute('outerHTML')