如何让Python识别德语符号,比如变音符号?

时间:2014-06-26 22:16:50

标签: python unicode

我正在读这个:python: open and read a file containing germanic umlaut as unicode

我正在使用pd.read_csv()

从CSV文件中读取数据框

\x9f应该是变音符号:

'Heiner Dr\x9fke "Weil, Gotshal & Manges"'

我试着无济于事:

person1.encode('utf-8')

UnicodeDecodeError: 'ascii' codec can't decode byte 0x9f in position 9: ordinal not in range(128)

受审

I get this when i use macroman person1.decode('macroman')
Out[511]:
u'Heiner Dr\xfcke "Weil, Gotshal & Manges"'

然而,当我打印person1.decode('macroman')时,打印出变音符号。 如何将其捕获为字符串?

person1.decode("cp1251")
Out[512]:
u'Heiner Dr\u045fke "Weil, Gotshal & Manges"'

2 个答案:

答案 0 :(得分:4)

不知何故,你被编码为宏人......你不应该

>>> print 'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman")
Heiner Drüke "Weil, Gotshal & Mages"

这会将它解码为python理解的unicode ......

如果您想为Google搜索进行编码

'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman").encode('ascii', 'xmlcharrefreplace')

应该可以正常工作

答案 1 :(得分:1)

根据{{​​3}}

u = u"profileDir_(\u00fc)"(根据你的意见)