随机森林算法能够切换数据集

时间:2015-12-30 21:43:16

标签: machine-learning random-forest supervised-learning unsupervised-learning

我很好奇研究是否已经完成了将无监督学习与监督学习相结合的随机森林,其方式允许单个算法在多个不同数据集中查找模式并与之合作。我用Google搜索了一切可能的方法来研究这个问题,并且已经空洞了。有人能指出我正确的方向吗?

注意:我已经在数据科学论坛上提出了这个问题,但它基本上是一个死的论坛,所以我来到这里。

1 个答案:

答案 0 :(得分:1)

(也阅读评论,并将我的答案中的内容纳入其中)

从我在线之间阅读的内容是,您希望在传输学习设置中使用Deep网络。但是,这不会基于决策树。 http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf

您的问题中有很多要素:

1。)机器学习算法通常不关心数据集的来源。所以基本上你可以为学习算法提供20个不同的数据集,它将使用所有这些数据集。但是,数据应具有相同的基本概念(转移学习案例除外)。这意味着:如果您将猫/狗数据与账单数据相结合,这将无法工作或使算法更难。至少所有输入要素必须相同(存在例外),例如,很难将图像与文本组合。

2。)标记/未标记:两个重要术语:数据集是一组具有固定维数的数据点。数据点i可以被描述为{Xi1,...... Xin},其中每个Xi可以例如是像素。标签Yi来自另一个域,例如猫和狗

3。)无监督学习数据,没有任何标签。 (我有直觉,这不是你想要的。

4。)半监督学习:这个想法基本上就是你将带有标签的数据与没有标签的数据结合起来。基本上你有一组标记为猫和狗{Xi1,..,Xin,Yi}的图像和第二组包含猫/狗图像但没有标签{Xj1,..,Xjn}的图像。该算法可以使用此信息来构建更好的分类器,因为未标记的数据提供了有关图像一般外观的信息。

3。)转学习(我认为这最接近你想要的)。想法是你提供猫狗数据集并学习分类器。之后你想用猫/狗/仓鼠的图像训练分类器。训练不需要从头开始,但可以使用猫/狗分类器快速收敛

4。)功能生成 / 功能构建这个想法是算法学习像“眼睛”这样的功能。此功能将在下一步中用于学习分类器。我在深度学习的背景下主要意识到这一点。如果算法在第一步中学习像边缘和构造这样的概念越来越复杂的特征,如面对猫不容忍,它可以描述诸如“大象上的男人”之类的东西。这与转移学习相结合可能就是你想要的。但深度学习是基于神经网络,除了少数例外。

5.。异常值检测您提供了猫/狗的数据集作为已知图像。当你提供猫/狗/仓鼠分类器。分类器告诉你它之前从未见过像仓鼠这样的东西。

6。)主动学习我们的想法是,您不预先为所有示例(数据点)提供标签,但算法会要求您标记某些数据点。这样您就需要标记更少的数据。