machine-learning - 无监督学习中的集成学习

评估离群值排名和异常值得分。
Schubert，E.，Wojdanowski，R.，Zimek，A。，＆amp; Kriegel，H。P.（2012年4月）。
在2012年SIAM国际数据挖掘会议论文集（第1047-1058页）中。工业和应用数学学会。

在本出版物中，我们并未“仅仅规范化”异常值，但我们还建议使用无监督 集合成员选择策略，称为“贪婪的合奏”。

然而，正常化至关重要，而且很难。我们在分数标准化方面发表了一些早期的进展

解释和统一离群值得分。
Kriegel，H.P.，Kroger，P.，Schubert，E。，＆amp; Zimek，A。（2011年4月）。
在2011年SIAM国际数据挖掘会议论文集（第13-24页）中。工业和应用数学学会。

如果你没有标准化你的分数（并且最小 - 最大缩放不足），你通常无法以有意义的方式组合它们，除非有非常强的前提条件。即使两个不同的子空间通常也会产生无法比拟的值，因为它们具有不同数量的特征和不同的特征尺度。

还有一些关于半监督合奏的工作，例如

学习异常组合：两个世界中最好的 - 监督和无监督。
Micenková，B.，McWilliams，B。＆amp;同意，I。（2014）。
在ACM SIGKDD 2014年数据多样性异常检测和描述研讨会（ODD2）的会议记录中。纽约，纽约，美国（第51-54页）。

还要注意过度拟合。通过调整参数和重复评估，很容易获得单一的好结果。但这会将评估信息泄露到您的实验中，即您倾向于过度拟合。在大量参数和数据集中表现良好非常很难。以下研究的一个关键观察结果是，对于每个算法，您将找到至少一个数据集和参数集，其中“优于”其他算法;但如果稍微更改参数或使用不同的数据集，“优质”新方法的好处是不可重复的。

评估无监督离群值检测：度量，数据集和实证研究。
Campos，GO，Zimek，A.，Sander，J.，Campello，RJ，Micenková ，B.，Schubert，E。，...＆amp; Houle，M。E.（2016）。
数据挖掘与知识发现，30（4），891-927。

因此，您必须非常努力地进行可靠的评估。小心如何选择参数。

无监督学习中的集成学习

1 个答案: