如果我有坐标,如何使用基因组浏览器(UCSC)的Perl脚本提取DNA序列?
答案 0 :(得分:6)
您可以将DAS sequence request传递给Perl脚本,该脚本解析包含序列的XML元素。
例如,以下是UCSC DAS服务器的curl
请求,丢弃标准错误,通过管道传输到parseSeq.pl
:
$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl
curl
的输出将是一个XML文档,其中包含来自人类基因组hg19
组装的1000碱基DNA序列。请求从第一条染色体请求基数10000到10999(记住UCSC是0-based)。 XML将包含一些对日志记录和错误检查有用的其他内容。
将XML传递到Perl脚本后,您可以使用Perl的XML::Simple模块快速解析您想要的内容。
为了帮助您入门,您的parseSeq.pl
文件可能会以:
#!/usr/bin/perl -w
use strict;
use XML::Simple;
use Data::Dumper;
my $xml = new XML::Simple;
my $ref = $xml->XMLin('-');
print Dumper $ref;
这个输出应该足以让你开始从$ref
拉出DNA序列。