我有一个1k记录的数据集,我的工作是根据这些记录做一个决策算法。 以下是我可以分享的内容:
目标是连续值。
某些预测变量(或属性)是连续值, 其中一些是离散的,一些是离散值的数组 (可以有多个选项)
我最初的想法是将离散值数组分开,并使它们成为单独的特征(预测变量)。对于预测变量中的连续值,我正在考虑随机选择一些决策边界,看看哪一个最能减少熵。然后创建一个决策树(或随机森林),在创建树时使用标准差减少。
我的问题是:我走在正确的道路上吗?有没有更好的方法呢?
答案 0 :(得分:0)
我知道这可能有点迟了但你要搜索的是 Model Trees 。模型树是具有连续评价的决策树,而不是叶子中的分类值。通常,这些值通过线性回归模型预测。 Quinlan推出的M5模型树是其中一个比较突出的模型树和一个或多或少适合您需求的模型树。 Wang和Witten重新实现了M5并扩展了其功能,以便它可以处理连续和分类属性。他们的版本名为M5',你可以找到一个实现,例如在Weka。唯一剩下的就是处理数组。但是,您的描述在这方面有点通用。根据我收集的内容,您可以选择扁平化,或者按照您的建议将其分开。
请注意,自从Wang和Witten的工作以来,已经引入了更复杂的模型树。但是,M5'坚固耐用,不需要在其原始配方中进行任何参数化,这使其易于使用。