Question

我正在使用pd.read_csv()

从CSV文件中读取数据框

\x9f应该是变音符号：

'Heiner Dr\x9fke "Weil, Gotshal & Manges"'

我试着无济于事：

person1.encode('utf-8')

UnicodeDecodeError: 'ascii' codec can't decode byte 0x9f in position 9: ordinal not in range(128)

受审

I get this when i use macroman person1.decode('macroman')
Out[511]:
u'Heiner Dr\xfcke "Weil, Gotshal & Manges"'

然而，当我打印person1.decode('macroman')时，打印出变音符号。如何将其捕获为字符串？

person1.decode("cp1251")
Out[512]:
u'Heiner Dr\u045fke "Weil, Gotshal & Manges"'

Answer 1

不知何故，你被编码为宏人......你不应该

>>> print 'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman")
Heiner Drüke "Weil, Gotshal & Mages"

这会将它解码为python理解的unicode ......

如果您想为Google搜索进行编码

'Heiner Dr\x9fke "Weil, Gotshal & Mages"'.decode("macroman").encode('ascii', 'xmlcharrefreplace')

应该可以正常工作

Answer 2

根据{{3}}

，

u = u"profileDir_(\u00fc)"（根据你的意见）