我尝试使用SGD构建文本分类模型,并希望查看它分配给每个类别中的归属文本的概率。
分类器是:
SGDClassifier(loss='hinge', penalty='l2',
alpha=0.00001, random_state=42,
max_iter=50, tol=None, class_weight='balanced',
learning_rate='optimal'))
我知道没有predict_proba()
方法。正在运行decision_function()
会产生类似
array([-1.28014293, -1.05676297, -1.00005418, -1.11067768, -1.06648538,
-1.59393356, -1.33659227, -1.25158992, -1.03031123, -1.66977477,
-0.47045306, -1.09032355, -1.41919423, -1.31935137, -1.14275755,
-1.32927664, -0.98199196, -1.39455488, -1.06143726, -1.12924271,
-1.48118073, -1.12691564, -0.94647774, -1.14519407, -1.04796815,
-1.7178278 , -1.11921505, -1.08271349, -1.23605639, -1.07206273,
-1.00003746])
对于特定文本,我理解为代表距离。有没有办法将其转换为属于每个类别的概率?因此,我正在寻找具有概率而非距离的数组。任何帮助将不胜感激!