我有一个DNA序列列表(每行一个):
ACTGCTCGGGGG .....
... CGCTCGCTTCTCTC
等
大多数序列包含两个特定的图案,一个接近开始,一个接近结尾。我在中间提取序列:
grep "motif1.*motif2" inputfile > outputfile
,其中sequences
是一系列DNA序列:
sequences.each do |seq|
tmp=seq.scan(/motif1.*motif2/)[0]
outputfile << tmp if tmp
end
问题是我得到了不同数量的提取序列。 为什么呢?