计算此功能的优点以进行二进制分类

时间:2016-05-19 04:51:14

标签: machine-learning classification feature-extraction feature-selection

最终目标是创建一个binary classifier来输出" YES"大约10%的实例(基于培训数据)。分类器将使用binary, continuous and maybe some categorical features

目前我正在提取范围[0;}中的a continuous feature 1]应描述产品的真实名称与其在文本字段中的潜在提及之间的相似性。我正在尝试different methods for extracting this feature(Levenshtein距离和其他一些算法)。

我不确定应该使用哪种feature metrics来选择(或至少近似)此功能的最佳提取方法;问题是:

应该使用哪种指标来推断特定功能的最佳提取方法,如果此功能

,该功能稍后将与不同的二进制分类算法一起使用
  1. 二进制
  2. 连续
  3. 分类
  4. 我会使用类似Pearson correlation的内容2)或Information gain是更好的指标吗?

    度量标准不应该是特定于分类器的(我想在多个算法上使用提取的特征,例如决策树,逻辑回归,带有小调整的神经网络。)。

0 个答案:

没有答案