测量哪种特征区分标签的标准有多少?

时间:2016-10-18 14:48:49

标签: machine-learning statistics

我有这样的数据集:

label
  • {0,1,2,3,4}的值可能为feature1
  • 0的范围从10000feature2
  • -4的范围从3feature1

对于feature2feature1,我想检查哪个功能可以更好地区分标签,有多少种方法可以做到?

我想到了以下计划:

  • 检查标签和功能之间的皮尔森相关性
  • 检查feature2feature1的差异?但它们有不同的范围。
  • 同时使用feature2feature1拆分决策树,并检查哪个功能获得了更大的信息。
  • 使用feature2feature1进行线性回归并检查系数?
  • 绘制feature2var s = new List<string> { "a", "bk", "ca", "d" }; 的分布图,但没有标签信息

我想知道以下哪种方法足够扎实?还有其他更好的方法吗?哪种方法最好?提前谢谢。

1 个答案:

答案 0 :(得分:1)

一种非常常见的方法是使用交叉验证集并执行“模型选择”,使用性能指标进行测量,例如:精度,召回和f1分数。您的工作流程将是(伪代码,而不是真实代码):

  • 要评估的模型列表=您定义了多个模型候选项,例如
    一个特征,两个特征,多项式特征。
  • 为您定义评估的每个模型“m”

    • 在火车数据集上训练模型“m”

    • 使用交叉验证集

    • 获取效果指标
    • 根据您的性能指标(从交叉验证集中获取)选择最佳模型

这是一种非常常见的强大方法。你可以在Andrew Ng找到更多信息。关于youtube上此主题的视频