我尝试的内容如下:
1)
response = urllib2.urlopen(url)
html = response.read()
这样,我无法在浏览器中打开网址。
2)
webbrowser.open(url)
通过这种方式,我无法获得网址的源代码。
那么,如何打开URL并同时获取源代码?
感谢您的帮助。
答案 0 :(得分:1)
看一下BeautifulSoup:https://www.crummy.com/software/BeautifulSoup/
您可以请求网站,然后从中读取HTML源代码:
import requests
from bs4 import BeautifulSoup
r = requests.get(YourURL)
soup = BeautifulSoup(r.content)
print soup.prettify()
如果您想阅读JavaScript,请查看Headless Browsers。