我是德国海德堡大学的莫里茨。
对于我的学士论文,我有肝细胞癌患者的20个大型(25-30 GB)基因组文件(.txt.gz)。我在我的Ubuntu服务器上安装了Bpipe,我必须尝试几种方法。
包括的步骤是:
我遇到的问题是,为了尝试我的bpipe工作流程,我必须采用30 GB的整个序列并从头开始。这需要很多时间。所以我的问题是:
如何缩短一个文件?
我在哪里可以找到一个可以用来测试管道的短序列?
答案 0 :(得分:0)
您可以在NCBI SRA(序列读取存档数据库)中找到许多癌症序列数据集
http://www.ncbi.nlm.nih.gov/sra?term=cancer
可以使用“fastq-dump”将SRA格式的序列文件转换为FASTQ以与BWA对齐
http://azaleasays.com/2011/09/09/convert-sra-format-to-fastq/