Question

我正在使用python进行exel解析到现在为止我使用过英语，但是当我遇到地区语言时，我收到了错误。

示例：

IR05 měsíční (monthly)

它给我的错误是

UnicodeEncodeError: 'ascii' codec can't encode character u'\u011b' in position 6: ordinal not in range(128)

我如何解析它，我可以再次在输出文件中使用相同的语言编写？

我的代码：

for j in val:
    print 'j is - ', j
    str(j).replace("'", "")

我在替换声明中收到错误。

Answer 1

>>> "IR05 měsíční (monthly)".decode('utf8')
u'IR05 m\u011bs\xed\u010dn\xed (monthly)'

是原始字符串的unicode版本（以utf8编码）。

现在您可以将它与您解码的其他字符串（来自文件）进行比较（来自utf8或latin2或其他格式），您可以将它们进行比较。

>>> 'IR05 m\xecs\xed\xe8n\xed (monthly)'.decode('latin2')
u'IR05 m\u011bs\xed\u010dn\xed (monthly)'

现在你可以比较两个unicode字符串：

>>> s_utf8 = "IR05 měsíční (monthly)"
>>> s_latin2 = 'IR05 m\xecs\xed\xe8n\xed (monthly)'
>>> s_utf8.decode('utf8') == s_latin2.decode('latin2')
True

要将字符串写入文件，再次encode：

>>> s = s_utf8.decode('utf8')

>>> filehandle.write(s.encode('utf8'))

Answer 2

错误可能是由str（j）引起的，试试这个：

for j in val:
    print 'j is - ', j
    j.replace("'", "")