功能选择& kNN的重要特征

时间:2017-02-03 03:05:36

标签: machine-learning salesforce random-forest knn

我正在kNN的帮助下开发推荐引擎。但数据稀少,有大约1500个样本和大约200个特征。我有一个序数目标,其值为1或0。

为它进行特征选择的技术是什么?我假设如果我选择随机森林进行特征选择,那么所选择的特征可能与kNN假设的重要特征不同。

此外,对包含i的样本数量是否有任何限制?

2 个答案:

答案 0 :(得分:0)

功能选择技术要么排除不相关的功能,要么/和排除冗余功能。一种经过验证的技术是使用Supervized discretization based on entropy(可以找到一些更通用的解释here)来有意义地减小数据的大小,然后使用信息增益来获得与目标变量最相关的前k个特征。您可以尝试至少5种不同的方法,它还取决于您用于实现应用程序的ml库/框架。

答案 1 :(得分:0)

我会尝试使用Relief算法,因为它的核心部分是最近邻搜索。