Question

我正在将包含一些文本的表导入到pandas数据帧中。其中一个字符串包含文本'NF-κB' - 即'kappa'字符（表中的一些文本也包含alphas和beta等）。

当我使用以下内容阅读表格时

pd.read_table('table_processed.txt', sep='\t')

kappa字符转换为'\ xce \ xba'，以便在iPython中查看时，部分字符串现在显示为'NF- \ xce \ xbaB'。

在导入期间是否有任何方法可以维护字符串编码，以便在将字符串视为数据帧的一部分时维护kappa字符？

提前致谢

Answer 1

直接从文档中尝试使用编码

http://pandas.pydata.org/pandas-docs/dev/io.html#dealing-with-unicode-data

In [1079]: data = 'word,length\nTr\xe4umen,7\nGr\xfc\xdfe,5'

In [1080]: df = pd.read_csv(StringIO(data), encoding='latin-1')

In [1081]: df

      word  length
0  Träumen       7
1    Grüße       5

In [1082]: df['word'][1]
u'Gr\xfc\xdfe'

使用pandas / python导入文本

1 个答案: