使用Chrome DevTools,您可以看到页面的DOM树。有没有办法使用python访问和提取该树?
答案 0 :(得分:3)
我发现的最好方法是使用selenium.webdriver
:
import selenium.webdriver as webdriver
import lxml.html as lh
import lxml.html.clean as clean
browser = webdriver.Chrome() # Get local session of Chrome
browser.get("http://www.webpage.com") # Load page
content=browser.page_source
cleaner=clean.Cleaner()
content=cleaner.clean_html(content)
doc=lh.fromstring(content)
doc将DOM设为lxml.html.HtmlElement
答案 1 :(得分:1)
您使用过BeautifulSoup库吗?本教程的这一部分可能会回答您的问题。 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#The解析树
然后,您还需要导入请求库。
from BeautifulSoup import BeautifulSoup
import requests
url = 'http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html'
page = requests.get(url)
soup = BeautifulSoup(page.content)
print soup