我有一个40列和600 000行的文件。在pandas数据帧中处理之后,我想将数据帧保存到具有不同间距长度的csv。在df.to_csv中有一个sep kwarg,我尝试使用正则表达式,但我收到错误
TypeError:"分隔符"必须是1个字符的字符串。
我希望输出具有不同的列间距,如下所示
A B C D E F G
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
使用以下代码,我可以使用制表符分隔。它们都具有相同的间距。
df.to_csv("D:\\test.txt", sep = "\t", encoding='utf-8')
A B C D E F G
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
1 3 5 8 8 9 8
我不想做循环,600k行可能需要很多时间。
答案 0 :(得分:0)
感谢您的评论,它帮助了我。 以下是代码。
import pandas as pd
#Create DataFrame
df = pd.DataFrame({'A':[0,1,2,3],'B':[0,11,2,333],'C':[0,1,22,3],'D':[00,1,2,33]})
#Convert the Columns to string
df[df.columns]=df[df.columns].astype(str)
#Create the list of column separator width
SepWidth = [5,6,3,8]
#Temp dict
tempdf = {}
#Convert all the column to series
for i, eCol in enumerate(df):
tempdf[i] = pd.Series(df[eCol]).str.pad(width=SepWidth[i])
#Final DataFrame
Fdf = pd.concat(tempdf, axis=1)
#print Fdf
#Export to csv
Fdf.to_csv("D:\\test.txt", sep='\t', index=False, header=False, encoding='utf-8')
test.txt的输出
0 0 0 0
1 11 1 1
2 2 22 2
3 333 3 33
<强>更新强>
制表符分隔(&#39; \ t&#39;)包含在间距中,同时使用pandas.to_csv。代表pandas.to_csv我使用以下代码保存为txt。
numpy.savttxt(file, df.values, fmt='%s')