如何根据污染值计算阈值-隔离森林

时间:2019-06-17 15:49:44

标签: scikit-learn

我正在尝试在scikit-learn中研究隔离林的实现,以弄清污染值的设置与检测阈值之间的关系。

根据我的理解,并参考了GitHub上IF的scikit-learn源代码,它如下: 1-很明显,分数是根据路径长度按照原始论文所述计算的。 2-然后,决策函数的计算公式为: 决策函数=得分-偏移 3-假定阈值默认为零: (决策函数<0)的含义(得分<偏移量)表示异常 ---> a)如果在最新版本的0.1中污染='自动'=>然后(偏移= -0.5) ---> b)否则,偏移量按以下公式计算: offset_ = np.percentile(score_samples(X),100 *污染)

很高兴,我想对点(b)有所帮助,即偏移值相对于污染值如何变化。如果我的问题不重要,请问我是新的python用户。

谢谢

0 个答案:

没有答案