提取多列并在之间添加空字符

时间:2019-04-04 20:13:45

标签: awk sed fasta

我有一个具有以下格式的文件:

TRINITY_DN119001_c0_g1_i1   4   *   0   0   *   *   0   0   GAGCCTCCCTCATGAATGTACCAGCATTTACCTCATAAAGAGCT    *   XO:Z:NM 
TRINITY_DN119037_c0_g1_i1   4   *   0   0   *   *   0   0   TAAGATTAGGTTGTATTCCAG   *   XO:Z:NM 
TRINITY_DN119099_c0_g1_i1   4   *   0   0   *   *   0   0   AGGCAGGCGCTAAACGATTTGCATTTCTCTAATGATTACGCCAG    *   XO:Z:NM

我正在尝试提取第一列和第十列,并以以下格式(输出文件)存储它:

>TRINITY_DN119099_c0_g1_i1  
GAGCCTCCCTCATGAATGTACCAGCATTTACCTCATAAAGAGCT    
>TRINITY_DN119037_c0_g1_i1
TAAGATTAGGTTGTATTCCAG
>TRINITY_DN119001_c0_g1_i1  
AGGCAGGCGCTAAACGATTTGCATTTCTCTAATGATTACGCCAG

我现在正在执行以下代码:

cut -d "  " -f1,10 in.txt > out.txt
sed 's/^/>/' out.txt

但是,无法获取如何获得高于输出的值。

2 个答案:

答案 0 :(得分:2)

您可以使用awk

awk '{printf ">%s\n%s\n", $1, $10}' file

>TRINITY_DN119001_c0_g1_i1
GAGCCTCCCTCATGAATGTACCAGCATTTACCTCATAAAGAGCT
>TRINITY_DN119037_c0_g1_i1
TAAGATTAGGTTGTATTCCAG
>TRINITY_DN119099_c0_g1_i1
AGGCAGGCGCTAAACGATTTGCATTTCTCTAATGATTACGCCAG

但是请注意,它是显示输出中的第一和第十列,而不是第9列。

答案 1 :(得分:0)

如果您的数据位于“ d”文件中,请尝试使用gnu sed:

 sed -E 's/^(TRINITY_DN\S+).*\s([ACGT]+).*/\1\n\2/' d