我有这样的数据集:
label
{0,1,2,3,4}
的值可能为feature1
0
的范围从10000
到feature2
-4
的范围从3
到feature1
对于feature2
和feature1
,我想检查哪个功能可以更好地区分标签,有多少种方法可以做到?
我想到了以下计划:
feature2
和feature1
的差异?但它们有不同的范围。feature2
和feature1
拆分决策树,并检查哪个功能获得了更大的信息。feature2
和feature1
进行线性回归并检查系数?feature2
和var s = new List<string> { "a", "bk", "ca", "d" };
的分布图,但没有标签信息我想知道以下哪种方法足够扎实?还有其他更好的方法吗?哪种方法最好?提前谢谢。
答案 0 :(得分:1)
一种非常常见的方法是使用交叉验证集并执行“模型选择”,使用性能指标进行测量,例如:精度,召回和f1分数。您的工作流程将是(伪代码,而不是真实代码):
为您定义评估的每个模型“m”
在火车数据集上训练模型“m”
使用交叉验证集
这是一种非常常见的强大方法。你可以在Andrew Ng找到更多信息。关于youtube上此主题的视频