我正在将包含一些文本的表导入到pandas数据帧中。其中一个字符串包含文本'NF-κB' - 即'kappa'字符(表中的一些文本也包含alphas和beta等)。
当我使用以下内容阅读表格时
pd.read_table('table_processed.txt', sep='\t')
kappa字符转换为'\ xce \ xba',以便在iPython中查看时,部分字符串现在显示为'NF- \ xce \ xbaB'。
在导入期间是否有任何方法可以维护字符串编码,以便在将字符串视为数据帧的一部分时维护kappa字符?
提前致谢
答案 0 :(得分:1)
直接从文档中尝试使用编码
http://pandas.pydata.org/pandas-docs/dev/io.html#dealing-with-unicode-data
In [1079]: data = 'word,length\nTr\xe4umen,7\nGr\xfc\xdfe,5'
In [1080]: df = pd.read_csv(StringIO(data), encoding='latin-1')
In [1081]: df
word length
0 Träumen 7
1 Grüße 5
In [1082]: df['word'][1]
u'Gr\xfc\xdfe'