隔离森林是基于距离的模型吗?

时间:2021-05-18 12:20:42

标签: scikit-learn scikits

我知道五种标准的无监督异常值检测方法:

  • 概率模型
  • 基于聚类的模型
  • 基于距离的模型
  • 基于密度的模型
  • 时间序列异常值检测模型

但是隔离森林是什么类型?根据谷歌的说法,它是一个“基于树的模型”,但是否也可以说隔离森林是基于距离的模型?

1 个答案:

答案 0 :(得分:1)

虽然 Anomaly detection's wikipedia page 声明它是一个 Density-based technique,但您应该参考 the original paper 和 Scikit-learn 文档。

Isolation forest 对于异常检测确实很有用,对于大型数据集尤其有效。它由树结构表示,并且假定它使用 recursive partitioning,
the number of splittings required to isolate a sample is equivalent to the path length from the root node to the terminating node.

除了 Scikit-learn docs 中提供的所有详细信息,您还可以在 source paper 中阅读:

<块引用>

除了隔离与分析的主要区别外,iForest 在以下方面与现有的基于模型、基于距离和基于密度的方法不同:

<块引用>
  1. iTrees 的隔离特性使它们能够 构建部分模型并利用子采样到 在现有方法中不可行的程度。自从 隔离正常点的 iTree 的很大一部分是 异常检测不需要;它不需要 被建造。小样本量产生更好的结果 iTrees 因为沼泽和遮蔽效果是 减少。
<块引用>
  1. iForest 不使用距离或密度度量来检测异常。这消除了主要的计算 所有基于距离的方法和基于密度的方法中的距离计算成本。
<块引用>
  1. iForest 具有线性时间复杂度 常数和低内存要求。致我们 最好的知识,最好的现有方法 仅实现近似线性时间复杂度 内存使用率高。
<块引用>
  1. iForest 有能力扩展以处理极端 大数据量和高维问题 大量不相关的属性。