我正在使用Selenium来呈现网页,然后进行内容提取。但是,我发现硒的回归与我使用的Chrome DevTools不同。
我使用的python代码很简单:
driver = webdriver.Chrome() #.PhantomJS()
driver.get(url)
content = driver.page_source.encode('utf-8')
基本上,我发现我正在看的那个领域大部分时间都没有出现在Selenium的结果中。它有时会起作用,但大多数时候,它只是不能呈现真正的Chrome浏览器所做的事情。我正在使用Mackbook Pro。 感谢〜
答案 0 :(得分:1)
page_source
只会为您提供右键单击并获得View Page Source
原始文档的内容。通过javascript等动态加载的任何东西都不会在那里。如果您想在硒中使用它,您可以这样做:
driver.find_element_by_css_selector('body').get_attribute('outerHTML')