使用Python解析静态HTML文件

时间:2014-05-28 02:08:53

标签: python html parsing

所以我的硬盘驱动器上有一个静态HTML文件,我想从Python中提取源代码。我尝试了urllib2,但我收到一个错误,说urlopen错误未知的url类型。我猜它是因为我的URL实际上是硬盘驱动器上的目标而不是有效的HTTP地址。我该如何提取该代码?这就是我的尝试:

import urllib2
url = "C:\Program Files\Whatever Folder\Whatever.html"
file = urllib2.urlopen(url)
data = file.read()

OUT = data

1 个答案:

答案 0 :(得分:1)

您应该使用内置的open功能,例如:

url = "C:\Program Files\Whatever Folder\Whatever.html"
with open(url, 'r') as f:
    data = f.read()

你也可以使用一些库来帮助你解析html,例如BeautifulSoup