应用错误收集

在决策树

时间：2017-10-01 07:44:27

标签： machine-learning classification decision-tree data-analysis missing-data

我有一个数据集，其中一些变量（分类变量和数值变量）具有缺失值。例如，我有一个变量＆＃34; area＆＃34;数值分为两类，＆＃34;区域（今天）＆＃34;和＆＃34;区域（-1天）＆＃34;。如果数据行分类为＆＃34;新来者＆＃34;然后它将在＆＃34;区域（-1天）和＃34;上没有价值。因此，正常的缺失值处理，如删除或意味着不在这里工作。我是否必须在＆＃34;区域（-1天）和＃34;作为变量最初是数字的类别？或者，还有其他建议吗？

1 个答案:

答案 0 :(得分：0)

将新手作为一个单独的类进行处理是有道理的，因为这是你在数据集中对待它的方式 - 你有一个单独的区域列。

否则，您可以检查各种其他Imputation技术以适合您的使用案例。回归估算可能适合您的情况。

HTH

wordpress作为决策树
为什么决策树在WEKA中没有按预期工作？
字符串作为决策树/随机森林中的特征
在决策树中查找最大值
决策树在树决策中保持使用Y变量
在决策树
决策树-是否过拟合？
bundleconfig.json：将丢失的文件视为错误？
决策树-查找遍历树时常量预测如何变化
使用决策树的顺序值预测

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？