Python - 从数据行中提取和重新格式化字段名称

时间:2013-05-08 15:27:09

标签: python regex text dictionary header

我有一个平面文本文件(infile),我想重组。它有一些制表符分隔的列,看起来像这样:

 Person1    HEIGHT=60;WEIGHT=100;AGE=22
 Person2    HEIGHT=62;WEIGHT=101;AGE=25
 Person3    HEIGHT=64;WEIGHT=110;AGE=29

我希望它看起来像这样:

 PERSON    HEIGHT    WEIGHT    AGE
 1         60        100       22
 2         62        101       25
 3         64        110       29

您可以看到第二列实际上包含多个以分号分隔的标题/值字段,我想将它们重组为典型的列标题行。

现在我有:

for line in infile:
        line = line.split("\t")
        line_meta = line[1].split(";")
        print line_meta

我认为最好的解决方案现在将循环遍历line_meta变量,使用正则表达式来检测标题名称(检测以多个大写字母开头并以“=”_结尾的字符串),将每个标题添加到字典中作为键,然后将其余的字符串存储为值。然后,对于下一行,如果检测到相同的标题,则只附加到现有字典。

任何人都可以帮助解决此代码或有关如何继续的建议反馈吗?

谢谢

编辑:感谢您的回复。我为这个例子简化了我的数据,但是这里有一个实际的meta列是什么样的(仍然是分隔的,但值类型是混合的):

       P=0.9626;IPU=.$.+1T.+1T.+;IRF=ncRNA;IUC=UTR3;IGN=NCRNA00115;IGI=NCRNA00115,RP11-206L10.16-001;IET=0;IEO=0;IEN=.;IHT=0;IHVC=0;IHD=.;IHI=.;IHN=.;IDI=.;IDN=.;ITMAF=.;ITAMR=.;ITASN=.;ITAFR=.;ITEUR=.;ITNRB=+A;ISF=.;ISD=.;ISM=.;ISX=.;

2 个答案:

答案 0 :(得分:3)

你可以使用一个正则表达式来分割出key = value对:

import re

key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>\[^\s=;]+)(?:(?=;)|$)')

此表达式使用命名组,但如果您觉得更容易阅读,则可以不使用这些组:

key_value = re.compile('([A-Z]+)=([^\s=;])(?:(?=;)|$)')

(?:..)组是非捕获组;它仅用于标记|或符号适用的内容。模式匹配=符号前面的大写字符,以及空格,=;字符的任何内容,只要有{{1} } 字符串的结尾,紧跟在值之后。

这会拆分每行的键和值:

;

这很容易变成字典:

>>> key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)')
>>> key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22')
[('HEIGHT', '60'), ('WEIGHT', '100'), ('AGE', '22')]

然后,您可以使用csv.DictWriter()

编写这些内容
>>> dict(key_value.findall('Person1\tHEIGHT=60;WEIGHT=100;AGE=22'))
{'AGE': '22', 'WEIGHT': '100', 'HEIGHT': '60'}

根据您的真实数据样本进行演示:

import csv
import re

key_value = re.compile('(?P<key>[A-Z]+)=(?P<value>[^\s=;]+)(?:(?=;)|$)')

with open(inputfilename) as infile, open(outputfilename, 'wb') as outfile:
    writer = csv.DictWriter(outfile, ('PERSON', 'HEIGHT', 'WEIGHT', 'AGE'), delimiter='\t')
    writer.writeheader()

    for line in infile:
        person = line.split('\t', 1)[0]
        row = dict(key_value.findall(line))
        row['PERSON'] = person
        writer.writerow(row)

答案 1 :(得分:1)

你可以试试这个

data = open('testfile.dat').read().split('\n')

def newcmp(x,y): 
    rv = cmp(len(x[1]), len(y[1]))
    if rv: return rv
    else: return cmp(x[0], y[0]) # alphabetical 

persons = {}
attributes = {}
nAttrs = 0
for l in data:
    pname , pvals = line.split('\t')[:2]
    for atName, atVal in (x.split('=') for x in pvals.psplit(';'))
        try:
            persons[pName][attributes[atName]] = atVal
        except KeyError:
            attributes[aName] = nAttrs
            persons[pName][attributes[atName]] = atVal
            nAttr += 1

headers = ['NAME'] + range(nAttrs)
for x in attributes.keys(): headers[attributes[x]+1] = x
values = []
for pName, pVals in sorted(persons.items(), cmp=newcmp)
    if len(pVals) < nAttrs: pVals += [0 for x in xrange(nAttrs - len(pVals))]
    values.append('\t'.join(('%d'%x for x in pVals)))

outfh = open('outputfile.dat', 'w')
outfh.write('%s\n%s\n'%('\t'.join(headers), '\n'.join(values)))
outfh.close()