Python:根据第一列

时间:2016-11-24 14:52:34

标签: python csv pandas split multiple-columns

我有一系列大型CSV文件" basename.csv"像:

B1,3,5,6

B2,2,1,5

B3,1,9,0

C1,4,7,9

C2,1,9,3

C3,8,5,2

我想将它们分成不同的文件,如:

basename_B.csv

B1,3,5,6

B2,2,1,5

B3,1,9,0

basename_C.csv

C1,4,7,9

C2,1,9,3

C3,8,5,2

我过去已经使用for循环和ifs做了类似的事情,但我想知道是否有一种更有效的方法可以使用Pandas或其他任何方法。

改编@chthonicdaemon和@jezrael的解决方案,我想出了这个:

def split_csv():
    for dfile in glob.glob('*.csv'):
        df = pd.read_csv(dfile, header=None)
        for letter, group in df.groupby(df[0].str[0]):
            group.to_csv((os.path.splitext(dfile)[0]) + '_{}.csv'.format(letter), index=False, header=False)

split_csv()

3 个答案:

答案 0 :(得分:3)

这是groupby的简单应用:

df = pandas.read_csv('basename.csv', header=None)

def firstletter(index):
    firstentry = df.ix[index, 0]
    return firstentry[0]

for letter, group in df.groupby(firstletter):
    group.to_csv('basename_{}.csv'.format(letter))

或者,结合@ jezrael使用列的明确内容进行分组:

for letter, group in df.groupby(df[0].str[0]):
    group.to_csv('basename_{}.csv'.format(letter))

答案 1 :(得分:2)

我认为您可以通过第一级索引创建MultiIndex然后groupby并使用to_csv

import pandas as pd
from pandas.compat import StringIO

temp=u"""B1,3,5,6
B2,2,1,5
B3,1,9,0
C1,4,7,9
C2,1,9,3
C3,8,5,2"""
#after testing replace StringIO(temp) to filename
df = pd.read_csv(StringIO(temp), header=None)
print (df)
    0  1  2  3
0  B1  3  5  6
1  B2  2  1  5
2  B3  1  9  0
3  C1  4  7  9
4  C2  1  9  3
5  C3  8  5  2

另一个类似的解决方案是另一个答案:

for letter, g in df.groupby([df.iloc[:, 0].str[0]]):
    #print (letter)
    #print (g)
    g.to_csv('basename_{}.csv'.format(letter))

答案 2 :(得分:1)

我测试了这段代码,应该符合您的要求。 example.csv将是csv输入文件。

with open ('example.csv') as f:
    r = f.readlines()

for i in range(len(r)):
    row = r[i]
    letter = r[i].split(',')[0][0]
    filename = "basename_"+letter.upper()+".csv"
    with open(filename,'a') as f:
        f.write(row)