你能帮助我吗?
非常感谢
soup = BeautifulSoup(html_page)
titulo=soup.find('h3').get_text()
titulo=titulo.replace('§','')
titulo=titulo.replace('§','')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
答案 0 :(得分:3)
Define the coding
并使用 unicode字符串:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
html_page = u"<h3>§ title here</h3>"
soup = BeautifulSoup(html_page, "html.parser")
titulo = soup.find('h3').get_text()
titulo = titulo.replace(u'§', '')
print(titulo)
打印title here
。
答案 1 :(得分:0)
我会清楚地解释你的问题:
默认情况下,Python无法识别“à”或“ò”等特定字符。要让Python识别出你必须放在脚本顶部的那些字符:
# -*- coding: utf-8 -*-
此代码使Python识别默认情况下无法识别的特定字符。 使用编码的另一种方法是使用“sys”库:
# sys.setdefaultencoding() does not exist, here!
import sys
reload(sys) #This reloads the sys module
sys.setdefaultencoding('UTF8') #Here you choose the encoding