Question

如果我有坐标，如何使用基因组浏览器（UCSC）的Perl脚本提取DNA序列？

Answer 1

您可以将DAS sequence request传递给Perl脚本，该脚本解析包含序列的XML元素。

例如，以下是UCSC DAS服务器的curl请求，丢弃标准错误，通过管道传输到parseSeq.pl：

$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl

curl的输出将是一个XML文档，其中包含来自人类基因组hg19组装的1000碱基DNA序列。请求从第一条染色体请求基数10000到10999（记住UCSC是0-based）。 XML将包含一些对日志记录和错误检查有用的其他内容。

将XML传递到Perl脚本后，您可以使用Perl的XML::Simple模块快速解析您想要的内容。

为了帮助您入门，您的parseSeq.pl文件可能会以：

开头

#!/usr/bin/perl -w                                                                                                                                                                                                                          

use strict;                                                                                                                                                                                                                                 
use XML::Simple;                                                                                                                                                                                                                            
use Data::Dumper;                                                                                                                                                                                                                           

my $xml = new XML::Simple;                                                                                                                                                                                                                  
my $ref = $xml->XMLin('-');                                                                                                                                                                                                                       

print Dumper $ref;

这个输出应该足以让你开始从$ref拉出DNA序列。

如果我有坐标，如何使用UCSC的Perl脚本提取DNA序列？

1 个答案: