Python selenium解码iso-8859-1到UTF-8

时间:2015-12-17 15:24:24

标签: python selenium unicode encoding utf-8

我使用selenium从网页中提取数据。 我试图将这些数据写入文件,但我这样做有些麻烦,当我写'é'之类的特殊字符时,它会在我的文件中创建不可读的字符(é)。 获取页面的网站编码在iso-8859-1和im使用python 2.7。

browser = webdriver.Firefox()  
browser.get(URL_SITE_ENCODED_IN_iso-8859-1)
html = browser.page_source.decode('iso-8859-1') //error

根据我的理解,我必须从iso-8859-1解码页面,然后它将在utf-8中对其进行编码,但是当我尝试出现错误时会引发错误:UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 246: ordinal not in range(128)

0 个答案:

没有答案