我正在读这个:python: open and read a file containing germanic umlaut as unicode
我正在使用pd.read_csv()
\x9f
应该是变音符号:
'Heiner Dr\x9fke "Weil, Gotshal & Manges"'
我试着无济于事:
person1.encode('utf-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0x9f in position 9: ordinal not in range(128)
受审
I get this when i use macroman person1.decode('macroman')
Out[511]:
u'Heiner Dr\xfcke "Weil, Gotshal & Manges"'
然而,当我打印person1.decode('macroman')
时,打印出变音符号。
如何将其捕获为字符串?
person1.decode("cp1251")
Out[512]:
u'Heiner Dr\u045fke "Weil, Gotshal & Manges"'
答案 0 :(得分:4)
不知何故,你被编码为宏人......你不应该
>>> print 'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman")
Heiner Drüke "Weil, Gotshal & Mages"
这会将它解码为python理解的unicode ......
如果您想为Google搜索进行编码
'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman").encode('ascii', 'xmlcharrefreplace')
应该可以正常工作
答案 1 :(得分:1)
u = u"profileDir_(\u00fc)"
(根据你的意见)