从tsv文件python中提取数据

时间:2014-08-26 22:44:05

标签: python file extract tsv tab-delimited

我有一个TSV文件,如下所示:

A   B   C   D   D=1;E=2
S   D   F   G   H=2;B=4

我想以这种方式将内容写入另一个tsv文件。

A   B   C   D   D   1
A   B   C   D   E   2
S   D   F   G   H   2
S   D   F   G   B   4

我真的很感激,如果有人可以帮助/暗示我按照需要拆分第5列。

2 个答案:

答案 0 :(得分:3)

with open('path/to/input') as infile, open('path/to/output', 'w') as outfile:
    writer = csv.writer(outfile, delimiter='\t')
    for line in csv.reader(infile, delimiter='\t'):
        vals = line[-1]
        headers = line[:-1]
        for val in vals.split(';'):
            writer.writeline(headers + [val])

答案 1 :(得分:1)

如果您确定只有标签和分号,则可以使用拆分。

with open('/tmp/test.tsv') as infile, open('/tmp/test2.tsv', 'w') as outfile:
    for line in infile:
        tsplit = line.split("\t")
        firstcolumns = tsplit[:-1]
        lastitems = tsplit[-1].strip().split(";")
        for item in lastitems:
            allcolumns = firstcolumns + item.split("=")
            outfile.write("\t".join(allcolumns) + "\n")

(更新后更容易与其他答案进行比较。)

无论您在最后一列中使用以分号分隔的项目数,都可以使用此功能。但是,这对格式的微小变化(例如添加的空格)很敏感。