使用带有scikit-learn的Lasso进行特征选择

时间:2015-12-08 12:27:07

标签: python scikit-learn feature-selection

我想使用python和scikit-learn库进行某种功能选择。

据我所知,Lasso回归可用于特征选择,如单变量选择。

我的简单数据集是这样的。

G1  G2  G3  ... GN Class
1.0 4.0 5.0 ... 1.0 X
4.0 5.0 9.0 ... 1.0 X
9.0 6.0 3.0 ... 2.0 Y
...

我想找到前N个属性(Gs),它们可能会影响很多类,使用套索回归。虽然我必须处理参数,但套索回归可以像这样应用。

lasso = Lasso()
# A = list of [G1, G2, ..., GN], B = [X, X, Y, ...]
lasso.fit(A, B) 
print (lasso.coef_)

如果属性与lasso.coef_的值更高,则判断属性是否与Class更相关是否正确? 另外,我想知道是否有一些使用回归选择top-N基因的规则。如果我使用PCC,可以使用.05之类的P值作为选择的阈值,但我不知道如何处理Lasso。 有人可以给我一个想法吗?

0 个答案:

没有答案