通过机器学习选择特征

时间:2018-03-28 19:46:32

标签: machine-learning data-mining data-analysis

我目前的研究目的是探索机器学习方法,以选择与治疗高度相关的结果,这将被视为处理多种检测的方法。

我的问题是:我可以使用哪种机器学习功能选择方法来找到响应变量和功能之间的强关联。

响应变量:组(= 1"治疗组",="对照组")

特点:急诊科就诊,就诊,肿瘤就诊,其他就诊,急诊室费用,住院费用,Onco费用,其他费用。

谢谢,

里昂

2 个答案:

答案 0 :(得分:2)

功能选择:

这是选择相关特征或变量子集的过程。

主要有三种子集类型:包装器,过滤器,嵌入式

包装器:

使用基于模型的错误率对特征子集评分的预测模型。尽管需要大量计算,但它们通常会产生最佳的功能选择。一种流行的技术称为逐步回归。

逐步回归:

这是一种在每次迭代中添加最佳功能或删除最差功能的算法。

过滤器:

过滤器使用代理度量,该代理度量的计算强度较低,但准确性稍低。因此这可能是一个不错的预测,但可能仍然不是最好的。过滤器的确可以捕获数据集的实用性,但是与错误测量相比,如果使用包装器,则所选功能集将更通用。

过滤器产生的特征集不包含基于预测模型的假设,这使其成为有用的工具,可将诸如“不良”之类的特征之间的关系公开在一起,从而使准确性和“良好”值一起下降,提高准确性。

嵌入式:

嵌入式算法了解在模型构建过程中哪些特征最有助于准确的模型。最常见的类型称为正则化模型。

实际上,我们可以从降维中选择模型,例如主判别分析,线性判别分析和核PCA。或者,您可以XGboost模型。

答案 1 :(得分:0)

决策树或提升能力将是一个不错的选择。您可以看到哪些分割产生的熵最大,并据此推断出各个特征与给定标签具有高度相关性。