我有一个这种结构的文件:
File1中
>seq1
AGGGTGTG
AGGGTGTG
AGTG
>seq2
AAAGGTGT
AAGTG
>seq3
AAGGTGT
GTGTGT
文件2
>seq1
AGGGTGTG
AGGGTGTG
AGTGGGT
>seq2
AAAGGTGT
AA
>seq5
AAGGTGT
GTGTGT
我需要连接这两个文件,根据标识符“>”删除重复的行得到联合,输出应该是这样的:
>seq1
AGGGTGTG
AGGGTGTG
AGTG
>seq2
AAAGGTGT
AAGTG
>seq3
AAGGTGT
GTGTGT
>seq5
AAGGTGT
GTGTGT
只有序列ID,即以“>”开头的行,我设法在shell中执行此操作但以下命令:
cat file1 file1 | sort -n | uniq > output
但现在这不起作用,因为排序将最终将所有序列一个接一个地放入。我想知道如何解决这个问题?感谢。