我对sklearn的feature_importances_属性的解释感到好奇。我知道具有最高系数的特征是可以高度预测结果的特征。我的问题是 - 这些功能是否具有强烈的预测性,可以返回1(或是)或不一定? (监督学习 - 二进制响应 - 是(1)或否(0))。
例如,在建立预测模型之后,我发现这些词是最重要的特征 - 内幕交易,盗窃,挪用公款,投资。回复是“非法”(1)或“合法”(0)。
这是否意味着当某个文字有这些词时,它很可能是非法的或不一定的?而且,它只是意味着这些词的价值会导致强烈的预测(非法或合法)。感谢任何答案。
答案 0 :(得分:0)
这意味着这些单词与其中一个响应“强烈关联”,在您的情况下可能是illegal(1)
。根据您的分类器,强关联的确切技术定义会有所不同。它可能是单词和响应的联合概率,P(X='theft', Y='illegal'), or it could be the conditional probability
P(X ='theft'| Y ='非法')。
直观地说,只要这些术语出现在文档中,该文档属于illegal
类别的概率就会增加。