我正在尝试在knn
模型上逐步进行特征选择。我正在使用FSelector
包和forward.search()
函数。
在删除特征之前,数据集大约为400k行×100列。
问题在于性能最佳的功能没有很多级别,因此存在很多关联导致模型失败。
我的问题是:
如果我知道性能最佳的功能是什么,有没有办法用2个变量而不是1个变量来启动forward.search()?
换句话说,如果我有5个变量。 forward.search将通过他们搜索最好的一个,如:
depVar ~ var1
depVar ~ var2
depVar ~ var3
depVar ~ var4
depVar ~ var5
一旦确定了最好的一个(即var3
),算法就会这样做:
depVar ~ var3 + var1
depVar ~ var3 + var2
depVar ~ var3 + var4
depVar ~ var3 + var5
等等。如果我知道性能最佳的单变量,有没有办法跳到第二步?
任何建议都将不胜感激。