组合CSV文件集python

时间:2013-06-30 22:10:29

标签: python regex csv

我有一个2000个文件的列表,我想将它们结合起来:

01-0628-11A-01D-0356-01_hg19
01-0628-11A-01D-0356-01_hg20
01-0628-11A-01D-0356-01_hg21
01-1372-11A-01D-0356-01_hg16
01-1372-11A-01D-0356-01_hg17
...


我已将文件放入glob中,并使用正则表达式将文件重命名为公共标识符(下面显示的六位数代码),但每个标识符的原始文件数量不同。

01-0628
01-0628
01-0628
01-1372
01-1372
...

我原本打算只使用一个阅读器并用常用名称打开每个文件,但我想知道是否有更有效的方法来做到这一点。

我想要的最终输出如下,每个具有公共标识符的文件合并为一个:

01-0628
01-1372
...

所有文件都包含类似格式的数据,因此只需将现有文件添加到新文件中就不会有问题。

1 个答案:

答案 0 :(得分:1)

假设这些csv具有相似或相同的字段。这段代码应该有效。它使用csv模块的DictReader和DictWriter类,它们将csv行转换为Python字典。

1)它打开并从in_csv_dir中读取globbed csv文件到(文件名,行)字典中。

2)它根据文件名和prefix_length变量将csv行分组为(前缀,行)字典。

3)它结合了每个前缀分组的字段,并在out_csv_dir中创建了一个组合的csv。

4)由于字典键是无序的,因此您的csv可能具有特定的字段顺序。这可以输入field_order。这将对csv字段进行排序,但不会在field_order中未定义的字段上失败。

import os
import sys

# Import System libraries
from csv import DictReader, DictWriter
import glob

in_csv_dir = ".\\csvs"
out_csv_dir = ".\\combined_csvs"
prefix_length = 2

field_order = ["NAME", "TITLE", "COMPANY", "LOCATION"]
field_check = lambda q: field_order.index(q) if(field_order.count(q)) else sys.maxint
csvs = {}
gotten_files = glob.glob(os.path.join(in_csv_dir, "*.csv"))
for glob_filename in gotten_files:
    print "%-11s%s" % ("Opening:", glob_filename)
    file_obj = open(glob_filename, "rb")
    cur_reader = DictReader(file_obj)
    cur_record = [q for q in cur_reader.__iter__()]
    file_obj.close()
    if(cur_record):
        (path, filename_ext) = os.path.split(glob_filename)
        (filename, ext) = os.path.splitext(filename_ext)
        csvs[filename] = cur_record

csv_prefixes = list(set([x[:prefix_length] for x in csvs.keys()]))
csv_groups = dict([(prefix, []) for prefix in csv_prefixes])
map(lambda (key, value): csv_groups[key[:prefix_length]].extend(value), csvs.items())

for (key, sub_csvs) in csv_groups.items():
    com_keys = list(reduce(lambda x, y: x|set(y.keys()), sub_csvs, set([])))
    com_keys.sort(cmp=lambda x, y: field_check(x) - field_check(y))

    filename = os.path.join(out_csv_dir, "%s.csv" % key)
    print "%-11s%s" % ("Combining:", filename)
    file_obj = open(filename, "wb")
    temp_csv = DictWriter(file_obj, com_keys)

    temp_csv.writerow(dict(zip(com_keys, com_keys)))
    map(lambda x: temp_csv.writerow(x), sub_csvs)
    file_obj.close()