使用Chi2进行特征选择会生成nan

时间:2019-03-04 12:06:01

标签: machine-learning scikit-learn feature-selection

我想对我的数据集进行Chi2分析以进行特征评估,但是结果包含nan值。为什么nan值出现在结果中,我该如何解决该问题?例如,在下面的示例中,第二个功能的重要性得分是多少?

from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest

X = np.array([[0.        , 0.        , 0.968     , 0.57894737, 0.46666667],
       [0.        , 0.        , 0.968     , 0.65789474, 0.        ],
       [0.5       , 0.        , 0.968     , 0.65789474, 0.55      ],
       [0.        , 0.        , 0.968     , 0.65789474, 0.        ],
       [0.        , 0.        , 0.968     , 0.65789474, 0.        ],
       [0.        , 0.        , 0.968     , 0.55263158, 0.56666667],
       [0.        , 0.        , 0.968     , 0.71052632, 0.41666667],
       [0.        , 0.        , 0.968     , 0.42105263, 0.        ],
       [0.        , 0.        , 0.968     , 0.42105263, 0.        ],
       [0.        , 0.        , 0.968     , 0.55263158, 0.        ]])

y = np.array([[1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0]])

chi2_selector = SelectKBest(score_func=chi2, k=3)
X_kbest = chi2_selector.fit_transform(X, y)
chi2_selector.scores_

输出:

(array([0.33333333,        nan, 0.        , 0.00237983, 1.33333334]),
 array([0.56370286,        nan, 1.        , 0.96109184, 0.24821308]))

1 个答案:

答案 0 :(得分:1)

在该特定功能中您只有零值,因此该功能在权变表中的期望值之一将为E = 0,并且由于chi2公式的ff为:

(O-E)^ 2 / E

然后,如果E = 0,它将产生NAN值。