所以我的硬盘驱动器上有一个静态HTML文件,我想从Python中提取源代码。我尝试了urllib2,但我收到一个错误,说urlopen错误未知的url类型。我猜它是因为我的URL实际上是硬盘驱动器上的目标而不是有效的HTTP地址。我该如何提取该代码?这就是我的尝试:
import urllib2
url = "C:\Program Files\Whatever Folder\Whatever.html"
file = urllib2.urlopen(url)
data = file.read()
OUT = data
答案 0 :(得分:1)
您应该使用内置的open功能,例如:
url = "C:\Program Files\Whatever Folder\Whatever.html"
with open(url, 'r') as f:
data = f.read()
你也可以使用一些库来帮助你解析html,例如BeautifulSoup