我一直在尝试使用BeautifulSoup从HTML页面中提取数据,但其他语言中的字符无法正确读取。
我正在使用的代码:
soup=BeautifulSoup("C:\Myfile.html","html.parser")
htmlText=soup.body.get_text()
错误示例:ß打印为ß
html元:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8 ">
我也试过soup.decode("utf-8")
使用Python 3.6
为什么会这样? 请帮助。