应用错误收集

sklearn的功能importances_

时间：2016-04-26 11:49:39

标签： python scikit-learn

我对sklearn的feature_importances_属性的解释感到好奇。我知道具有最高系数的特征是可以高度预测结果的特征。我的问题是 - 这些功能是否具有强烈的预测性，可以返回1（或是）或不一定？（监督学习 - 二进制响应 - 是（1）或否（0））。

例如，在建立预测模型之后，我发现这些词是最重要的特征 - 内幕交易，盗窃，挪用公款，投资。回复是“非法”（1）或“合法”（0）。

这是否意味着当某个文字有这些词时，它很可能是非法的或不一定的？而且，它只是意味着这些词的价值会导致强烈的预测（非法或合法）。感谢任何答案。

1 个答案:

答案 0 :(得分：0)

这意味着这些单词与其中一个响应“强烈关联”，在您的情况下可能是illegal(1)。根据您的分类器，强关联的确切技术定义会有所不同。它可能是单词和响应的联合概率，P(X='theft', Y='illegal'), or it could be the conditional probability P（X ='theft'| Y ='非法'）。

直观地说，只要这些术语出现在文档中，该文档属于illegal类别的概率就会增加。