Python - 比较在行中分隔字符的文件

时间:2016-09-26 18:29:33

标签: python python-2.7 bioinformatics text-manipulation

那里。 我是python的初学者,我正在努力做到以下几点:

我有一个这样的文件(+ 10k行):

EgrG_000095700 /product="ubiquitin carboxyl terminal hydrolase 5"
EgrG_000095800 /product="DNA polymerase epsilon subunit 3"
EgrG_000095850 /product="crossover junction endonuclease EME1"
EgrG_000095900 /product="lysine specific histone demethylase 1A"
EgrG_000096000 /product="charged multivesicular body protein 6"
EgrG_000096100 /product="NADH ubiquinone oxidoreductase subunit 10"

和这一个(+600行):

EgrG_000076200.1
EgrG_000131300.1
EgrG_000524000.1
EgrG_000733100.1
EgrG_000781600.1
EgrG_000094950.1

第二个文件的所有ID都在第一个文件中,所以我希望第一个文件的行与第二个文件的ID相对应。

我写了以下脚本:

f1 = open('egranulosus_v3_2014_05_27.tsv').readlines()
f2 = open('eg_es_final_ids').readlines()
fr = open('res.tsv','w')

for line in f1:
     if line[0:14] == f2[0:14]:
        fr.write('%s'%(line))

fr.close()
print "Done!"

我的想法是搜索id分隔每行上的字符以匹配一个文件的EgrG_XXXX到另一个文件,然后将这些行写入新文件。 我尝试了一些修改,这只是我想法的“核心”。 我一无所获。在其中一个修改中,我只有一行。

3 个答案:

答案 0 :(得分:4)

我会将f2中的ID存储在一个集合中,然后针对该f1进行检查。

id_set = set()
with open('eg_es_final_ids') as f2:
    for line in f2:
        id_set.add(line[:-2]) #get rid of the .1

with open('egranulosus_v3_2014_05_27.tsv') as f1:
    with open('res.tsv', 'w') as fr:
        for line in f1:
            if line[:14] in id_set:
                fr.write(line)

答案 1 :(得分:0)

f2是file-2中的行列表。你在哪里迭代列表,就像你在文件-1(f1)中的行。 这似乎是个问题。

答案 2 :(得分:0)

with open('egranulosus_v3_2014_05_27.txt', 'r') as infile:
    line_storage = {}
    for line in infile:
        data = line.split()
        key = data[0]
        value = line.replace('\n', '')
        line_storage[key] = value

with open('eg_es_final_ids.txt', 'r') as infile, open('my_output.txt', 'w') as outfile:
    for line in infile:
        lookup_key = line.split('.')[0]
        match = line_storage.get(lookup_key)
        outfile.write(''.join([str(match), '\n']))