多项式朴素贝叶斯softmax改变

时间:2018-12-09 08:27:09

标签: python-3.x machine-learning scikit-learn deep-learning cross-entropy

在scikit学习中,我正在使用MultinomialNB对带标签的文本数据进行多类分类。 在预测时,我使用了multinomialNB的“ predict_proba”功能

clf=MultinomialNB()
print(clf.fit(X_train,Y_train))
clf.predict_proba(X_test[0])

结果,我得到了每个类的概率值向量,这些向量加起来等于1。我知道这是由于softmax交叉熵函数引起的。

  

array([[0.01245064、0.02346781、0.84694063、0.03238112、0.01833107,            0.03103464,0.03539408]])

我的问题是,在预测我需要有binary_cross_entropy的同时,我得到了0至1之间彼此独立的每个类的概率值向量。那么在scikit-learn中进行预测时如何更改功能?

1 个答案:

答案 0 :(得分:1)

您可以使用以下方法为每个班级记录对数可能性:

_joint_log_likelihood(self, X):
        """Compute the unnormalized posterior log probability of X
        I.e. ``log P(c) + log P(x|c)`` for all rows x of X, as an array-like of
        shape [n_classes, n_samples].
        Input is passed to _joint_log_likelihood as-is by predict,
        predict_proba and predict_log_proba.
        """ 

朴素贝叶斯的predict_log_proba只需通过标准化上面的函数即可工作。

def predict_log_proba(self, X):
        """
        Return log-probability estimates for the test vector X.
        Parameters
        ----------
        X : array-like, shape = [n_samples, n_features]
        Returns
        -------
        C : array-like, shape = [n_samples, n_classes]
            Returns the log-probability of the samples for each class in
            the model. The columns correspond to the classes in sorted
            order, as they appear in the attribute `classes_`.
        """
        jll = self._joint_log_likelihood(X)
        # normalize by P(x) = P(f_1, ..., f_n)
        log_prob_x = logsumexp(jll, axis=1)
        return jll - np.atleast_2d(log_prob_x).T