无监督学习中的集成学习

时间:2017-03-20 02:02:40

标签: machine-learning data-mining unsupervised-learning ensemble-learning ensembles

关于整体学习的当前文献(更具体地说是无监督学习),我有一个问题。

对于我在文献中看到的内容,当应用于无监督学习时,Ensemble Learning基本上恢复到聚类问题。但是,如果我有 x 无监督方法输出分数(类似于回归问题),是否有一种方法可以将这些结果合并为一个?

1 个答案:

答案 0 :(得分:1)

  

评估离群值排名和异常值得分。
Schubert,E.,Wojdanowski,R.,Zimek,A。,& Kriegel,H。P.(2012年4月)。
在2012年SIAM国际数据挖掘会议论文集(第1047-1058页)中。工业和应用数学学会。

在本出版物中,我们并未“仅仅规范化”异常值,但我们还建议使用无监督 集合成员选择策略,称为“贪婪的合奏”。

然而,正常化至关重要,而且很难。我们在分数标准化方面发表了一些早期的进展

  

解释和统一离群值得分。
Kriegel,H.P.,Kroger,P.,Schubert,E。,& Zimek,A。(2011年4月)。
在2011年SIAM国际数据挖掘会议论文集(第13-24页)中。工业和应用数学学会。

如果你没有标准化你的分数(并且最小 - 最大缩放不足),你通常无法以有意义的方式组合它们,除非有非常强的前提条件。即使两个不同的子空间通常也会产生无法比拟的值,因为它们具有不同数量的特征和不同的特征尺度。

还有一些关于半监督合奏的工作,例如

  

学习异常组合:两个世界中最好的 - 监督和无监督。
Micenková,B.,McWilliams,B。&同意,I。(2014)。
在ACM SIGKDD 2014年数据多样性异常检测和描述研讨会(ODD2)的会议记录中。纽约,纽约,美国(第51-54页)。

还要注意过度拟合。通过调整参数和重复评估,很容易获得单一的好结果。但这会将评估信息泄露到您的实验中,即您倾向于过度拟合。在大量参数和数据集中表现良好非常很难。以下研究的一个关键观察结果是,对于每个算法,您将找到至少一个数据集和参数集,其中“优于”其他算法;但如果稍微更改参数或使用不同的数据集,“优质”新方法的好处是不可重复的。

  

评估无监督离群值检测:度量,数据集和实证研究。
Campos,GO,Zimek,A.,Sander,J.,Campello,RJ,Micenková ,B.,Schubert,E。,...& Houle,M。E.(2016)。
数据挖掘与知识发现,30(4),891-927。

因此,您必须非常努力地进行可靠的评估。小心如何选择参数。