Strand特定的tophat /袖扣

时间:2012-06-19 05:58:38

标签: bioinformatics

我有一个链特异性RNA-seq文库来组装(Illumina)。我想使用TopHat / Cufflinks。从TopHat的手册中可以看出,

“ - 库类型TopHat会将读取视为特定链。每个读取对齐都将具有XS属性标记。请考虑在下面提供库类型选项以选择正确的RNA-seq协议。”

这是否意味着TopHat仅支持特定于链的协议?我使用选项“--library-type fr-unstranded”来运行,是否意味着它以特定于链的方式运行?我用Google搜索并询问了开发人员,但没有得到答案......

我得到了一些结果:

enter image description here

此处重叠群由两组读数组装,左侧为反向读数,右侧为正向。 (为了可视化,我反向补充了正确的配偶)

但是一些重叠群纯粹来自反向或正向读数。如果它是链特异性的,则一个基因应该以相同的方向产生读数。它不应该像上面的图像一样报告结果,对吗?或者是否有可能一个基因被片段化然后独立排序,因此,左侧部分产生反向读取而右侧部分产生正向读数?根据我的理解,链特异性通过3'/ 5'连接保持,因此应该以基因为单位。

这是什么问题?或者我是否错误地理解了“特定链”的概念?任何帮助表示赞赏。

3 个答案:

答案 0 :(得分:0)

Tophat / Cufflinks不用于组装,它们用于与已组装的基因组或转录组对齐。你在读什么? 此外,如果您有特定于链的数据,则不应选择非链式库类型。您应该根据您的图书馆准备方法选择合适的一个。如果选择非锁定库类型,则XS标记将仅放置在拆分读取上。

答案 1 :(得分:0)

如果你想对你的转录组进行 de novo 汇编,你应该看一下汇编程序(而不是映射器),如

  • 三位一体
  • SoapDeNovo
  • 绿洲....

答案 2 :(得分:0)

Tophat可以处理搁浅的库和非搁浅的库。在快照中,中心区域确实具有+和 - 链读取。两端的偏差可能是您的文库制备或分析方法的一些特征。这个基因的方向是什么?看起来有点偏向左侧。如果左侧对应于3'末端,那么您的文库制备可能具有3'偏向特征(例如dT引发的反向转录)您分割RNA的方式也可能对您的读取分布产生影响。 我想我们需要更多信息才能找到真相。但我们也应该记住,tophat / cufflinks也可能有bug。