删除文件中的图案

时间:2019-01-15 05:03:42

标签: linux fasta

我有一个包含数千个序列的fasta文件。 它以这种格式出现

>3276_2258569   M05025:154:000000000-BVP4M:1:1101:17272:1161 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570   M05025:154:000000000-BVP4M:1:1101:22227:1193 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571   M05025:154:000000000-BVP4M:1:1101:13340:1215 1:N:0:TGGTGG       orig_bc=TGCGA   new_bc=TGCGA    bc_diffs=0
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

我要删除标题的大部分内容,如下所示

>3276_2258569
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570 
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

我尝试使用

sed -e "s/M.bc_diffs=0//g" myfile.fasta

但是我没有获得期望的结果。 怎么删除我序列头上的那些模式?

2 个答案:

答案 0 :(得分:0)

您可以使用此:

sed -E 's/([[:space:]]+).*/\1/' in.fa > out.fa

或者,甚至更容易使用awk

awk '{ print $1 }' in.fa > out.fa

答案 1 :(得分:0)

尝试使用此Perl命令

$ perl -ne  ' s/(\S+)(.*)/$1/g if /^>/; print ' bing.fasta
>3276_2258569
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258570
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT
>3276_2258571
AAGTCGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTATTGAATAACCTGGTACTGATGCTGGCCCTTTAAC
TGAGGGCATGTGCTCGTATCATCTTATTTATCTCCTCTTGTGCACCTTTTGTAGTCTTTGAAGCTTTCGCAGTCAAATGC
GGTTTGGGGGCTTGAGCTTGCAAAAGTCCTTCCCCTGCTT

$