我有2个代码执行了与我要求相同的工作,但我仍然没有为我的数据集获取任何有用或更好的代码以使其对我有用,首先让我明白我的意思做。
我有2 TEXT
个文件,其中一个名称为input_num
,第二个名称为input_data
,因为input_num.txt
中包含数字的名称很清楚,input_data
有其中的数据,这两个文件是8到10 MB,让我告诉你他们的一些部分,
这是' input_num.txt'
ASA5.txt DF4E6.txt DFS6Q7.txt
和input_data.txt
>56|61|83|92|ASA5
Dogsarebarking
这两个文本文件的某些部分,input_data.txt
包含ASA5
的最后一列,依此类推,这些是来自input_num.txt
的数据,因此程序首先检查最后一列>56|61|83|92|ASA5
的{{1}}比goto ASA5
input_num.txt
的{{1}},5
中包含input_num.txt
中的某些值,如上所述,所以它回到4
转到单词并将它们切换为4,
我有两个代码: 1是
input_data.txt
,第二个是
import os
import re
file_c = open('num_data.txt')
file_c = file_c.read()
lines = re.findall(r'\w+\.txt \d+', file_c)
numbers = {}
for line in lines:
line_split = line.split('.txt ')
hash_name = line_split[0]
count = line_split[1]
numbers[hash_name] = count
file_i = open('input_data.txt')
file_i = file_i.read()
for hash_name, count in numbers.iteritems():
regex = '(' + hash_name.strip() + ')'
result = re.findall(r'>.*\|(' + regex + ')(.*?)>', file_i, re.S)
if len(result) > 0:
data_original = result[0][2]
stripped_data = result[0][2][int(count):]
file_i = file_i.replace(data_original, '\n' + stripped_data)
f = open('input_new.txt', 'wt')
f.write(file_i)
f.close()
答案 0 :(得分:5)
据我从第一个代码的问题描述中我可以理解,你想要输出中的第一个N
字母,而实际上除了第一个N
字母之外你还得到了所有字母。这可以通过改变
stripped_data = result[0][2][int(count):]
到
stripped_data = result[0][2][:int(count)]
我还认为使用的正则表达式并不完全准确。我建议以下数字:
with open('num.txt') as nums:
lines = re.findall(r'\w+\.txt\s+\d+', nums.read())
numbers = {}
for line in lines:
line_split = re.split(r'\.txt\s+', line)
count = line_split[1]
numbers[line_split[0]] = int(line_split[1])
以及数据的以下内容:
with open('input_data.txt') as file_i:
data = file_i.read()
for name, count in numbers.iteritems():
result = re.search(r'\|{}\n(.*?)(>|$)'.format(name), s, re.S)
if result:
data_original = result.group(1)
stripped_data = data_original[:count]
data = data.replace(data_original, stripped_data)
with open('input_new.txt', 'w') as f:
f.write(data)
但请注意,这个想法仍有缺陷,因为在执行replace
时您可能会意外更改多个序列。此方法也是内存效率低的,因为文件作为一个字符串被读入内存。我建议对数据使用迭代解析器,就像我在下面提到的那样。
无论如何,如果我必须解决这个问题,我会使用pyteomics
来读写FASTA文件(因为我写了它并且总是很方便)。
input_num.txt
的格式非常糟糕,所以我认为第一个示例中的代码是提取信息的最佳代码。我虽然做了一些修正:
import re
from pyteomics import fasta
with open('num.txt') as nums:
lines = re.findall(r'\w+\.txt\s+\d+', nums.read())
numbers = {}
for line in lines:
line_split = re.split(r'\.txt\s+', line)
count = line_split[1]
numbers[line_split[0]] = int(line_split[1])
with fasta.read('data.txt') as data:
new_data = ((header, seq[:numbers.get(header.rsplit('|', 1)[-1])])
for header, seq in data)
fasta.write(new_data, 'new_data.txt')
另一方面,由于您的数据看起来更像DNA序列而pyteomics用于蛋白质组学,因此使用BioPython.SeqIO
更有意义:
import re
from Bio import SeqIO
with open('num.txt') as nums:
lines = re.findall(r'\w+\.txt\s+\d+', nums.read())
numbers = {}
for line in lines:
line_split = re.split(r'\.txt\s+', line)
count = line_split[1]
numbers[line_split[0]] = int(line_split[1])
data = SeqIO.parse(open('data.txt'), 'fasta')
def new_records():
for record in data:
record.seq = record.seq[:numbers.get(record.description.rsplit('|', 1)[-1])]
yield record
with open('new_data.txt', 'w') as new_data:
SeqIO.write(new_records(), new_data, 'fasta')