为目录中的每个当前文件创建一个具有指定内容的新批处理.txt文件

时间:2015-03-13 15:16:39

标签: bash shell for-loop command-line

我在群集上有大量文件,我需要为每个"对#34;创建一个.txt文件。每对由filename_R1.fq.gzfilename_R2.fq.gz指定。对于每对R1和R2文件,我需要创建一个包含以下内容的文本文件:

#!/bin/bash

#$ -N align.$i   
#$ -j y        
#$ -l h_rt=4:00:00
#$ -pe omp 12

bowtie2 \
--phred33 \
--fast-local \
-X 1000 \
-p 12 \
-x /usr3/graduate/dhc285/reference_files/21G6 \
-1 $i -2 ${i%_R1.fq.gz}_R2.fq.gz \
| samtools view -bS - > ${i%_R1.fq.gz}.bam

$i命令引用我的文件名。我还希望每个文件都被命名为${i%_R1.fq.gz}.txt。谢谢!

1 个答案:

答案 0 :(得分:0)

使用GNU Parallel看起来像这样:

sge_jobfile() {
  i="$1"
  cat <<EOF > ${i%_R1.fq.gz}.txt
#!/bin/bash

#$ -N align.$i
#$ -j y
#$ -l h_rt=4:00:00
#$ -pe omp 12

bowtie2 \\
--phred33 \\
--fast-local \\
-X 1000 \\
-p 12 \\
-x /usr3/graduate/dhc285/reference_files/21G6 \\
-1 $i -2 ${i%_R1.fq.gz}_R2.fq.gz \\
| samtools view -bS - > ${i%_R1.fq.gz}.bam
EOF
}
export -f sge_jobfile
parallel sge_jobfile ::: *_R1.fq.gz

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。它通常可以替换for循环。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

如果没有为您的发行版打包GNU Parallel,您可以进行个人安装,不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel