Question

我有一个40列和600 000行的文件。在pandas数据帧中处理之后，我想将数据帧保存到具有不同间距长度的csv。在df.to_csv中有一个sep kwarg，我尝试使用正则表达式，但我收到错误

TypeError：＆＃34;分隔符＆＃34;必须是1个字符的字符串。

我希望输出具有不同的列间距，如下所示

A    B  C   D    E F  G
1    3  5   8    8 9  8
1    3  5   8    8 9  8
1    3  5   8    8 9  8
1    3  5   8    8 9  8
1    3  5   8    8 9  8

使用以下代码，我可以使用制表符分隔。它们都具有相同的间距。

df.to_csv("D:\\test.txt", sep = "\t", encoding='utf-8')

A  B  C  D  E  F  G
1  3  5  8  8  9  8
1  3  5  8  8  9  8
1  3  5  8  8  9  8
1  3  5  8  8  9  8
1  3  5  8  8  9  8

我不想做循环，600k行可能需要很多时间。

Answer 1

感谢您的评论，它帮助了我。以下是代码。

import pandas as pd

#Create DataFrame
df = pd.DataFrame({'A':[0,1,2,3],'B':[0,11,2,333],'C':[0,1,22,3],'D':[00,1,2,33]})

#Convert the Columns to string
df[df.columns]=df[df.columns].astype(str)

#Create the list of column separator width 
SepWidth = [5,6,3,8]

#Temp dict
tempdf = {}
#Convert all the column to series
for i, eCol in enumerate(df):
    tempdf[i] = pd.Series(df[eCol]).str.pad(width=SepWidth[i])

#Final DataFrame
Fdf = pd.concat(tempdf, axis=1)
#print Fdf
#Export to csv
Fdf.to_csv("D:\\test.txt", sep='\t', index=False, header=False, encoding='utf-8')

test.txt的输出

0        0    0        0
1       11    1        1
2        2   22        2
3      333    3       33

<强>更新

制表符分隔（＆＃39; \ t＆＃39;）包含在间距中，同时使用pandas.to_csv。代表pandas.to_csv我使用以下代码保存为txt。

numpy.savttxt(file, df.values, fmt='%s')

Pandas数据框to_csv具有更多分隔符

1 个答案: