我正在使用Python 3.7。我正在尝试使用pandas将双管分隔的.txt文件导入Python。
我的代码如下:
import pandas as pd
avm_sample = pd.read_csv(_avm_sample_file,sep='|')
由于双管分隔符,我最终获得了多个空白列。
如果有简单的方法来分隔文件?或者,或者,更好的方法将数据导入到pandas数据框中?文件本身超过GB。
谢谢,
麦克
答案 0 :(得分:1)
当您将'|'
设置为分隔符时,自然地,||
将被解释为两个分隔符,其间包含空白列。您只需将代码更改为
avm_sample = pd.read_csv(_avm_sample_file,sep='\|\|')
(正如pault在下面正确评论的那样,这里需要反斜杠,因为如果分隔符不是单个字符,则将其视为正则表达式,|
在正则表达式中具有特殊含义。)
示例强>
from io import StringIO
import pandas as pd
TESTDATA = StringIO("""a||b
1||4
2||6
""")
>>> pd.read_csv(TESTDATA, sep="\|\|")
a b
0 1 4
1 2 6