如何缩短基因组序列以确保我的工作流程正常运行?

时间:2013-07-12 11:57:01

标签: workflow bioinformatics pipeline fasta genome

我是德国海德堡大学的莫里茨。

对于我的学士论文,我有肝细胞癌患者的20个大型(25-30 GB)基因组文件(.txt.gz)。我在我的Ubuntu服务器上安装了Bpipe,我必须尝试几种方法。

包括的步骤是:

  • 对齐(BWA(变换赛和山姆))对抗hg19.fasta
  • 变换(samtols)
  • Dedupe

我遇到的问题是,为了尝试我的bpipe工作流程,我必须采用30 GB的整个序列并从头开始。这需要很多时间。所以我的问题是:

如何缩短一个文件?

我在哪里可以找到一个可以用来测试管道的短序列?

1 个答案:

答案 0 :(得分:0)

您可以在NCBI SRA(序列读取存档数据库)中找到许多癌症序列数据集

http://www.ncbi.nlm.nih.gov/sra?term=cancer

可以使用“fastq-dump”将SRA格式的序列文件转换为FASTQ以与BWA对齐

http://azaleasays.com/2011/09/09/convert-sra-format-to-fastq/