如何找到scikit中保留的变量

时间:2015-04-29 18:02:44

标签: python numpy pandas matplotlib scikit-learn

我在scikit中运行一些算法。像目前我使用RandomisedLasso。但这个问题与scikit中的任何ml算法有关。

我的初始训练数据是149x56。现在我就是这样做的:

from sklearn.linear_model import RandomizedLasso
est_rlasso = RandomizedLasso(max_iter=1000)
# Running Randomised Lasso
x=est_rlasso.fit_transform(tourism_X,tourism_Y)
x.shape

>>> (149x36). 

因此,如果您看到它最初会从56个中保留36个最佳功能,并将数据集从149x56转换为149x36。但问题是它保留了36个功能? scikit最大的问题是它剥离了变量头。所以现在我不知道这个算法保留了哪些功能以及哪个功能被删除,因为最终X没有标头要交叉检查。

这在scikit中的任何ml算法实现中都很常见。怎么克服这个?就像我需要找到它给出的重要变量或者我运行的是回归模型一样,系数代表我可能使用Onehotencoder转换分类变量的变量,然后它会改变原始的var顺序。

有什么想法吗?

0 个答案:

没有答案