读取本地保存的HTML文件

时间:2019-07-28 21:11:32

标签: python html

我希望读取一堆本地保存在C驱动器中的HTML文件。

错误消息-

“'charmap'编解码器无法解码位置248963的字节0x90:字符映射到”

我尝试使用BeautifulSoup库,但出现错误。

from bs4 import BeautifulSoup
f = open("C:\Ada_Lovelace.html", "r")

soup = BeautifulSoup(f, 'html.parser')

for link in soup.find_all('a'):
    print(link.get('href'))

请帮助我提供优化的代码。

1 个答案:

答案 0 :(得分:0)

添加“ Unicode转换格式”后,它可以工作。

from bs4 import BeautifulSoup
f = open("C:\Ada_Lovelace.html", 'r', encoding="utf8")

soup = BeautifulSoup(f, 'html.parser')

for link in soup.find_all('a'):
    print(link.get('href'))