scikit-learn - 隔离森林是基于距离的模型吗？

虽然 Anomaly detection's wikipedia page 声明它是一个 Density-based technique，但您应该参考 the original paper 和 Scikit-learn 文档。

Isolation forest 对于异常检测确实很有用，对于大型数据集尤其有效。它由树结构表示，并且假定它使用 recursive partitioning,
the number of splittings required to isolate a sample is equivalent to the path length from the root node to the terminating node.

除了 Scikit-learn docs 中提供的所有详细信息，您还可以在 source paper 中阅读：

<块引用>

除了隔离与分析的主要区别外，iForest 在以下方面与现有的基于模型、基于距离和基于密度的方法不同：

<块引用>

iTrees 的隔离特性使它们能够构建部分模型并利用子采样到在现有方法中不可行的程度。自从隔离正常点的 iTree 的很大一部分是异常检测不需要；它不需要被建造。小样本量产生更好的结果 iTrees 因为沼泽和遮蔽效果是减少。

<块引用>

iForest 不使用距离或密度度量来检测异常。这消除了主要的计算所有基于距离的方法和基于密度的方法中的距离计算成本。

<块引用>

iForest 具有线性时间复杂度常数和低内存要求。致我们最好的知识，最好的现有方法仅实现近似线性时间复杂度内存使用率高。

<块引用>

iForest 有能力扩展以处理极端大数据量和高维问题大量不相关的属性。

隔离森林是基于距离的模型吗？

1 个答案: