最终目标是创建一个binary classifier
来输出" YES"大约10%的实例(基于培训数据)。分类器将使用binary, continuous and maybe some categorical features
。
目前我正在提取范围[0;}中的a continuous feature
1]应描述产品的真实名称与其在文本字段中的潜在提及之间的相似性。我正在尝试different methods for extracting this feature
(Levenshtein距离和其他一些算法)。
我不确定应该使用哪种feature metrics
来选择(或至少近似)此功能的最佳提取方法;问题是:
应该使用哪种指标来推断特定功能的最佳提取方法,如果此功能
,该功能稍后将与不同的二进制分类算法一起使用我会使用类似Pearson correlation
的内容2)或Information gain
是更好的指标吗?
度量标准不应该是特定于分类器的(我想在多个算法上使用提取的特征,例如决策树,逻辑回归,带有小调整的神经网络。)。