一种测试外显子/内含子/ utr基因组位置的方法?

时间:2013-11-20 10:44:20

标签: r annotations bioinformatics bioconductor genetics

我想测试一堆形式的基因组位置:

chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569

我想知道它们是位于UTR,内含子还是外显子还是基因间序列。我不关心哪些基因的内含子(等)这些坐标是什么。

我假设每个已知的遗传元件(如外显子)都定义了基因组位置(每条染色体上基因组的起始位置)。我知道外显子和内含子也是如此,例如Ensembl在基因组中有每个外显子的ID:参见exons and introns of Amy1 gene in Mus musclulus的例子。我想用上面的位置列表查询这些位置的数据库,如果两者之间有重叠(理想情况下我应该能够指定重叠,比如说,至少10bp,但如果不是,我可以) ,我应该受欢迎(是的,这个区域在外显子/内含子/)

这个障碍是我有几千个这样的位置,并且理想情况下想要一次性查询它们并且作为输出有一个表格,其中每个位置将被分配为“内含子/外显子/ utr / intergenic”。该生物体是Mus musculus,其位置来自整个基因组。

我现在不能提供我正在尝试做的代码示例,因为我不知道从哪里开始 - 如果我有一个包或任何构建它可以帮助我找到解决方案。

如果我可以在R中完成,那将是完美的,但AFAIK我不能在biomaRt中做到这一点,我找不到一个包来做它。我想到了Galaxy,但是考虑到他们的非常重要的做法以及他们产生的奇怪输出,我宁愿坚持R.你知道的魔鬼等。

非常感谢帮助。

4 个答案:

答案 0 :(得分:1)

好的,对不起,我花了这么长时间,但提交的文件和我最终的方式是:

1)使用Ensembl基因注释从UCSC表浏览器下载整个基因,外显子,内含子和所谓的3-UTR外显子和5'-UTR外显子的基因组坐标列表。唯一令人挑剔的一点是,您必须分别下载整个基因的文件,其余部分,并且手册没有明确说明"整个基因"是。但是如果你将它产生的坐标粘贴到Genome Browser中,你会发现它是5' UTR,所有内含子和轴突以及3' UTR。

2)使用BEDtools软件包(Quinlan和Hall 2010,https://www.ncbi.nlm.nih.gov/pubmed/20110278),一个非常好的手册,带有简单的例子:http://bedtools.readthedocs.org/en/latest/并使用带有-f标志的intersect命令让我设置一个我的坐标和UCSC之间的最小重叠(以bp或%表示)。

它就像一个魅力 - 我得到了一个列表文件,每个功能都有重叠。希望这会有所帮助。

答案 1 :(得分:0)

NCBI有染色体图谱查看器

http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?TAXID=9606&CHR=4&MAPS=ideogr,morbid [11164.00%3A11170.00]安培; QSTR = EVC%20OR %20HD%20OR%20FGFR3%20OR%20SNCA%20OR%20NRCLP%20OR%20FOP&安培; QUERY = UID(1968,2105,2886,6280,13348,20241,9026199,9026201,9026283,9026440,9027752,9027884)及变焦= 100

在左侧,您有两个搜索框,显示区域显示。

答案 2 :(得分:0)

这不是一个完整的答案,但我希望这会有所帮助。

bioconductor包BSgenome.Mmusculus.UCSC.mm10包含鼠标序列的(最后一个程序集)。这两个讲座(12)展示了如何使用这种包。您似乎可以使用与UCSC数据库交互的bioconductor包GenomicFeatures检索外显子和内含子。

我认为这是一个很好的方向。我没有时间查找更多信息,请分享您的内容。

答案 3 :(得分:0)

一如往常有几种做法,但其中一种方法是使用HOMER annotatePeaks.pl脚本。您只需下载HOMER脚本并致电:annotatePeaks.pl

  

your_bed_file基因组> your_output_file。

您可以在link中找到文档。请小心并按照HOMER识别的列结构格式化您的床文件(您所谓的"genomic locations"文件)。在输出文件中,您将获得一个名为"annotation"的列和另一个名为"detailed annotation"的列,您可以在其中找到您找到的坐标基因组区域的信息。

  

(内含子,外显子,5' UTR,3' UTR,基因间,非编码,GC岛......)

更快的方法是使用Bedtools获得的一些基因匹配可能是HOMER找不到的因为注释不存在。这种情况发生在我身上,在这种情况下,我所做的是,使用R biomaRt,下载由bedtools发现并且没有HOMER注释的这些基因的信息,并用TSS注释它们,5' UTR,外显子开始和结束,然后你的峰值r绑定位置的确切位置是"对于if"声明你可以找到基因组区域。