machine-learning - 小型结构化数据集的转移学习

时间：2020-03-07 17:18:14

标签： machine-learning supervised-learning transfer-learning

我正在寻求针对基于与特定供应链领域中的费用批准相关的小数据集构建的问题实施机器学习。通常，带标签的数据不可用

我一直试图在一个我标记了数据的数据集中构建模型，然后使用在相似上下文中开发的模型-该特征集非常相似，但不完全。期望这将成为建议的起点并在新的上下文中收集带标签的数据。

我了解这是转学的本质。我在该领域阅读的大多数示例都谈到了图像数据集-有关如何使用基于树的标准分类算法在小型数据集中利用该数据的任何指导

答案 0 :(得分：1)

raghu，我相信您在说深度学习的抽象层时正在寻找一种内核方法。有几种支持内核功能的ML算法。使用内核功能，您也许可以做到；但是使用内核函数可能比解决原始问题要复杂得多。我倾向于Tdoggo使用决策树的建议。

对不起，我想添加评论，但他们不允许我这样做，所以我发布了新答案。

答案 1 :(得分：0)

我真的不能和基于树的算法对话，我也不知道如何与他们进行转移学习。但是，对于深度学习模型，转移学习的惯用方法是加载预先训练的模型，然后使用新数据重新训练数据集的最后一层，然后微调网络的其余部分。

如果没有太多数据需要处理，则可以考虑创建综合数据。

答案 2 :(得分：0)

使用基于树的算法，您可以按照您说的做：在一个数据集上训练树并将其应用于另一个相似的数据集。您所需要做的就是更改第二棵树上的术语/节点。

例如，假设您有一棵经过培训的决策树，可以过滤建筑公司的费用。您将完全拒绝任何工作靴补偿，因为工人应该自己提供这些补偿。

您想在会计师事务所上使用经过训练的树，因此将其替换为笔记本电脑，而不是工作靴，因为会计师应该自己购买。

这有意义吗，对您有帮助吗？

答案 3 :(得分：0)

经过一些研究，我们决定继续使用随机森林模型，直觉是原始模型中具有共同特征的树木将成为决策的起点。

随着我们在新环境中获得更多带标签的数据，我们将开始用包含（a）仅新功能和（b）新旧功能组合的新树替换原始树

这有助于在初步试验中提供合理的结果