algorithm - 自举如何提高系统发育重建的质量

在其他地方的系统发育学中，引导并不能提高你想要估计的任何东西的质量（在这种情况下是一棵树）。它的作用是让您了解对您从原始数据集中获得的结果有多自信。引导程序分析回答了一个问题“如果我多次重复这个实验，每次使用不同的样本（但大小相同），我多久会得到相同的结果？”这通常是由边缘分解的（“我希望在推断的树中看到这个特定边缘的频率是多少？”）。

采样错误

更准确地说，自举是一种近似测量估算中预期采样误差水平的方法。大多数进化模型具有以下属性：如果您的数据集具有无限数量的站点，则保证可以恢复正确的树和正确的分支长度*。但由于网站数量有限，这种保证会消失。您在这些情况下推断的可以被认为是正确的树加上采样误差，其中随着您增加样本大小（站点数量），采样误差趋于减小。我们想知道的是，假设我们有（比方说）1000个站点，我们应该为每个边缘期望多少抽样误差。

我们想做什么，但不能

假设您使用了1000个站点的对齐来推断原始树。如果你能够以某种方式为你所有的分类单元排序所需数量的网站，你可以从每个网站中提取另外1000个网站并再次执行这个树推断，在这种情况下你可能得到一个类似但略有不同的树。原始树。您可以一次又一次地使用新批次的1000个站点;如果您多次这样做，那么您将生成树的分布。这称为估算的抽样分布。通常，它在真树附近具有最高密度。如果您增加样本大小（站点数量），它也会在真正的树周围变得更加集中。

这个发行版告诉我们什么？它告诉我们，这个进化过程（树+分支长度+其他参数）生成的1000个站点的任何给定样本实际上会给我们真正的树 - 换句话说，我们对原始分析的信心有多大的可能性。。正如我上面提到的，这个获得正确答案的概率可以通过边缘来分解 - 这就是“引导概率”。

我们可以做什么

我们实际上没有能力神奇地生成任意数量的对齐列，但我们可以“假装”我们所做的，只需将原始的1000个网站集合作为我们绘制的网站池每批复制的新批次1000个网站重复。这通常会产生与真实的1000个站点采样分布不同的结果分布，但对于大型站点计数，近似值很好。

*假设数据集实际上是根据这个模型生成的 - 除非我们正在进行模拟，否则这是我们无法确定的。还有一些模型，比如未修正的简约，实际上具有矛盾的质量，在某些条件下，你拥有的网站越多，更低恢复正确树的概率！

Bootstrapping是一种通用统计技术，具有生物信息学之外的应用。它是一种灵活的方法来处理小样本或来自复杂人群的样本（我认为在您的应用中就是这种情况。）

自举如何提高系统发育重建的质量

2 个答案:

采样错误

我们想做什么，但不能

我们可以做什么