Question

我想测试一堆形式的基因组位置：

chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569

我想知道它们是位于UTR，内含子还是外显子还是基因间序列。我不关心哪些基因的内含子（等）这些坐标是什么。

我假设每个已知的遗传元件（如外显子）都定义了基因组位置（每条染色体上基因组的起始位置）。我知道外显子和内含子也是如此，例如Ensembl在基因组中有每个外显子的ID：参见exons and introns of Amy1 gene in Mus musclulus的例子。我想用上面的位置列表查询这些位置的数据库，如果两者之间有重叠（理想情况下我应该能够指定重叠，比如说，至少10bp，但如果不是，我可以），我应该受欢迎（是的，这个区域在外显子/内含子/）

这个障碍是我有几千个这样的位置，并且理想情况下想要一次性查询它们并且作为输出有一个表格，其中每个位置将被分配为“内含子/外显子/ utr / intergenic”。该生物体是Mus musculus，其位置来自整个基因组。

我现在不能提供我正在尝试做的代码示例，因为我不知道从哪里开始 - 如果我有一个包或任何构建它可以帮助我找到解决方案。

如果我可以在R中完成，那将是完美的，但AFAIK我不能在biomaRt中做到这一点，我找不到一个包来做它。我想到了Galaxy，但是考虑到他们的非常重要的做法以及他们产生的奇怪输出，我宁愿坚持R.你知道的魔鬼等。

非常感谢帮助。

Answer 1

好的，对不起，我花了这么长时间，但提交的文件和我最终的方式是：

1）使用Ensembl基因注释从UCSC表浏览器下载整个基因，外显子，内含子和所谓的3-UTR外显子和5'-UTR外显子的基因组坐标列表。唯一令人挑剔的一点是，您必须分别下载整个基因的文件，其余部分，并且手册没有明确说明＆＃34;整个基因＆＃34;是。但是如果你将它产生的坐标粘贴到Genome Browser中，你会发现它是5＆＃39; UTR，所有内含子和轴突以及3＆＃39; UTR。

2）使用BEDtools软件包（Quinlan和Hall 2010，https://www.ncbi.nlm.nih.gov/pubmed/20110278），一个非常好的手册，带有简单的例子：http://bedtools.readthedocs.org/en/latest/并使用带有-f标志的intersect命令让我设置一个我的坐标和UCSC之间的最小重叠（以bp或％表示）。

它就像一个魅力 - 我得到了一个列表文件，每个功能都有重叠。希望这会有所帮助。

Answer 2

NCBI有染色体图谱查看器

http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?TAXID=9606&CHR=4&MAPS=ideogr,morbid [11164.00％3A11170.00]安培; QSTR = EVC％20OR ％20HD％20OR％20FGFR3％20OR％20SNCA％20OR％20NRCLP％20OR％20FOP＆安培; QUERY = UID（1968,2105,2886,6280,13348,20241,9026199,9026201,9026283,9026440,9027752,9027884）及变焦= 100

在左侧，您有两个搜索框，显示区域显示。

Answer 3

这不是一个完整的答案，但我希望这会有所帮助。

bioconductor包BSgenome.Mmusculus.UCSC.mm10包含鼠标序列的（最后一个程序集）。这两个讲座（1和2）展示了如何使用这种包。您似乎可以使用与UCSC数据库交互的bioconductor包GenomicFeatures检索外显子和内含子。

我认为这是一个很好的方向。我没有时间查找更多信息，请分享您的内容。

Answer 4

一如往常有几种做法，但其中一种方法是使用HOMER annotatePeaks.pl脚本。您只需下载HOMER脚本并致电：annotatePeaks.pl。

your_bed_file基因组＆gt; your_output_file。

您可以在link中找到文档。请小心并按照HOMER识别的列结构格式化您的床文件（您所谓的"genomic locations"文件）。在输出文件中，您将获得一个名为"annotation"的列和另一个名为"detailed annotation"的列，您可以在其中找到您找到的坐标基因组区域的信息。

（内含子，外显子，5＆＃39; UTR，3＆＃39; UTR，基因间，非编码，GC岛......）

更快的方法是使用Bedtools获得的一些基因匹配可能是HOMER找不到的因为注释不存在。这种情况发生在我身上，在这种情况下，我所做的是，使用R biomaRt，下载由bedtools发现并且没有HOMER注释的这些基因的信息，并用TSS注释它们，5＆＃39; UTR，外显子开始和结束，然后你的峰值r绑定位置的确切位置是＆＃34;对于if＆＃34;声明你可以找到基因组区域。

一种测试外显子/内含子/ utr基因组位置的方法？

4 个答案: