这是输入txt文件的示例输出。
PT AU BA CA GP RI J·加西亚·佩雷斯,吉列尔莫;罗西,Matteo A. C .; Maniscalco,Sabrina Rossi,Matteo / E-4964-2015 Rossi,Matteo / 0000-0003-4665-9284; Garcia-Perez,Guillermo / 0000-0002-9006-060X IBM Q作为模拟开放量子系统的多功能实验测试台的经验NPJ量子信息6 1 1 10.1038 / s41534-019-0235-y DEC 2020
当前,我使用以下代码:
df = pd.read_fwf('savedrecs-2.txt')
df.head()
但是,结果不会根据utf-8文本文件中提供的列进行拆分。
当前输出:
0
0 PT\tAU\tBA\tCA\tGP\tRI\tOI\tBE\tZ2\tTI\tX1\tY...
1 J\tGarcia-Perez, Guillermo; Rossi, Matteo A. C...
2 J\tScholes, Colin A.; Kentish, Sandra E.; Qade...
3 J\tVillain-Gambier, M.; Courbalay, M.; Klem, A...
4 J\tShahmahdi, Najmeh; Dehghanzadeh, Reza; Asla...
预期输出(示例)
PT AU BA CA GP RI
Garcia-Perez xy xy xy xy xy
Guillermo xy xy xy xy xy
答案 0 :(得分:1)
以下代码似乎可以返回预期的结果。
filename = 'savedrecs-8.txt'
doc = codecs.open(filename,'rU','UTF-8')
df = pd.read_csv(doc, sep='\t')