Question

所以我的硬盘驱动器上有一个静态HTML文件，我想从Python中提取源代码。我尝试了urllib2，但我收到一个错误，说urlopen错误未知的url类型。我猜它是因为我的URL实际上是硬盘驱动器上的目标而不是有效的HTTP地址。我该如何提取该代码？这就是我的尝试：

import urllib2
url = "C:\Program Files\Whatever Folder\Whatever.html"
file = urllib2.urlopen(url)
data = file.read()

OUT = data

Answer 1

您应该使用内置的open功能，例如：

url = "C:\Program Files\Whatever Folder\Whatever.html"
with open(url, 'r') as f:
    data = f.read()

你也可以使用一些库来帮助你解析html，例如BeautifulSoup