大家好:我对引导的理解是你
1)使用序列矩阵中的一些算法构建“树”(核苷酸,比如说)。 2)你存储那棵树。 3)从1开始扰动矩阵,并重建树。
我的问题是:从序列生物信息学的角度来看,3的目的是什么?我可以尝试“猜测”,通过更改原始矩阵中的字符,您可以删除数据中的工件---但我有一个问题:我不确定为什么需要删除这些工件 - - 通过查找长度相似的长度来支持序列对齐以处理工件....
答案 0 :(得分:6)
在其他地方的系统发育学中,引导并不能提高你想要估计的任何东西的质量(在这种情况下是一棵树)。它的作用是让您了解对您从原始数据集中获得的结果有多自信。引导程序分析回答了一个问题“如果我多次重复这个实验,每次使用不同的样本(但大小相同),我多久会得到相同的结果?”这通常是由边缘分解的(“我希望在推断的树中看到这个特定边缘的频率是多少?”)。
更准确地说,自举是一种近似测量估算中预期采样误差水平的方法。大多数进化模型具有以下属性:如果您的数据集具有无限数量的站点,则保证可以恢复正确的树和正确的分支长度*。但由于网站数量有限,这种保证会消失。您在这些情况下推断的可以被认为是正确的树加上采样误差,其中随着您增加样本大小(站点数量),采样误差趋于减小。我们想知道的是,假设我们有(比方说)1000个站点,我们应该为每个边缘期望多少抽样误差。
假设您使用了1000个站点的对齐来推断原始树。如果你能够以某种方式为你所有的分类单元排序所需数量的网站,你可以从每个网站中提取另外1000个网站并再次执行这个树推断,在这种情况下你可能得到一个类似但略有不同的树。原始树。您可以一次又一次地使用新批次的1000个站点;如果您多次这样做,那么您将生成树的分布。这称为估算的抽样分布。通常,它在真树附近具有最高密度。如果您增加样本大小(站点数量),它也会在真正的树周围变得更加集中。
这个发行版告诉我们什么?它告诉我们,这个进化过程(树+分支长度+其他参数)生成的1000个站点的任何给定样本实际上会给我们真正的树 - 换句话说,我们对原始分析的信心有多大的可能性。 。正如我上面提到的,这个获得正确答案的概率可以通过边缘来分解 - 这就是“引导概率”。
我们实际上没有能力神奇地生成任意数量的对齐列,但我们可以“假装”我们所做的,只需将原始的1000个网站集合作为我们绘制的网站池每批复制的新批次1000个网站重复。这通常会产生与真实的1000个站点采样分布不同的结果分布,但对于大型站点计数,近似值很好。
*假设数据集实际上是根据这个模型生成的 - 除非我们正在进行模拟,否则这是我们无法确定的。还有一些模型,比如未修正的简约,实际上具有矛盾的质量,在某些条件下,你拥有的网站越多,更低恢复正确树的概率!
答案 1 :(得分:1)
Bootstrapping是一种通用统计技术,具有生物信息学之外的应用。它是一种灵活的方法来处理小样本或来自复杂人群的样本(我认为在您的应用中就是这种情况。)