我想使用python和scikit-learn库进行某种功能选择。
据我所知,Lasso回归可用于特征选择,如单变量选择。
我的简单数据集是这样的。
G1 G2 G3 ... GN Class
1.0 4.0 5.0 ... 1.0 X
4.0 5.0 9.0 ... 1.0 X
9.0 6.0 3.0 ... 2.0 Y
...
我想找到前N个属性(Gs),它们可能会影响很多类,使用套索回归。虽然我必须处理参数,但套索回归可以像这样应用。
lasso = Lasso()
# A = list of [G1, G2, ..., GN], B = [X, X, Y, ...]
lasso.fit(A, B)
print (lasso.coef_)
如果属性与lasso.coef_的值更高,则判断属性是否与Class更相关是否正确? 另外,我想知道是否有一些使用回归选择top-N基因的规则。如果我使用PCC,可以使用.05之类的P值作为选择的阈值,但我不知道如何处理Lasso。 有人可以给我一个想法吗?