导入UTF-8文本文件(在数据框中输入&)

时间:2020-02-24 18:43:49

标签: python pandas dataframe utf-8

这是输入txt文件的示例输出。

PT AU BA CA GP RI J·加西亚·佩雷斯,吉列尔莫;罗西,Matteo A. C .; Maniscalco,Sabrina Rossi,Matteo / E-4964-2015 Rossi,Matteo / 0000-0003-4665-9284; Garcia-Perez,Guillermo / 0000-0002-9006-060X IBM Q作为模拟开放量子系统的多功能实验测试台的经验NPJ量子信息6 1 1 10.1038 / s41534-019-0235-y DEC 2020

当前,我使用以下代码:

df = pd.read_fwf('savedrecs-2.txt')
df.head()

但是,结果不会根据utf-8文本文件中提供的列进行拆分。

当前输出:

0
0   PT\tAU\tBA\tCA\tGP\tRI\tOI\tBE\tZ2\tTI\tX1\tY...
1   J\tGarcia-Perez, Guillermo; Rossi, Matteo A. C...
2   J\tScholes, Colin A.; Kentish, Sandra E.; Qade...
3   J\tVillain-Gambier, M.; Courbalay, M.; Klem, A...
4   J\tShahmahdi, Najmeh; Dehghanzadeh, Reza; Asla...

预期输出(示例)

PT            AU    BA  CA  GP  RI
Garcia-Perez  xy    xy  xy  xy  xy
Guillermo     xy    xy  xy  xy  xy

1 个答案:

答案 0 :(得分:1)

以下代码似乎可以返回预期的结果。

filename = 'savedrecs-8.txt'

doc = codecs.open(filename,'rU','UTF-8')
df = pd.read_csv(doc, sep='\t')