SVC中的低置信度得分,例如来自训练集

时间:2018-04-05 03:20:10

标签: machine-learning scikit-learn svm

这是我的SVC分类器代码。

vectorizer = TfidfVectorizer(lowercase=False)
train_vectors = vectorizer.fit_transform(training_data)
classifier_linear = svm.LinearSVC()
clf = CalibratedClassifierCV(classifier_linear) 
linear_svc_model = clf.fit(train_vectors, train_labels)

training_data这里是英文句子列表,train_lables是相关标签。在创建training_data的最终版本之前,我会执行常用的停用词和一些预处理。以下是我的测试代码:

test_lables = ["no"]
test_vectors = vectorizer.transform(test_lables)
prediction_linear = clf.predict_proba(test_vectors)
counter = 0 
class_probability = {}
lables = []
for item in train_labels:
    if item in lables:
        continue
    else:
        lables.append(item)
for val in np.nditer(prediction_linear):
    new_val = val.item(0)
    class_probability[lables[counter]] = new_val
    counter = counter + 1
sorted_class_probability = sorted(class_probability.items(), key=operator.itemgetter(1), reverse=True)
print(sorted_class_probability)

现在,当我使用训练集中已有的短语运行代码时(在这种情况下,单词“没有”),它可以正确识别,但置信度得分甚至低于{{1 }}。输出如下:

.9

当我在网上学习时,我已经看到通常在训练集中的数据的置信度得分接近[('no', 0.8474342514152964), ('hi', 0.06830103628879058), ('thanks', 0.03070201906552546), ('confused', 0.02647134535600733), ('ok', 0.015857384248465656), ('yes', 0.005961945963546264), ('bye', 0.005272017662368208)] 或几乎1,其余部分实际上可以忽略不计。我能做些什么才能获得更好的信心?我是否应该担心,如果我增加更多课程,信心分数将进一步下降,我很难确定一个出类拔萃的课程?

1 个答案:

答案 0 :(得分:1)

只要您的分数帮助您正确分类输入,您就不必担心。如果有的话,如果您对训练数据中已有的输入信心过高,这可能意味着您的方法过度拟合数据,并且无法推广到看不见的数据。

但是,您可以通过更改惩罚参数来调整方法的复杂度。对于LinearSVC,您同时拥有penaltyC参数。尝试不同的值,并观察效果。确保您还观察到对看不见的测试集的影响。

不仅仅是C的值应该在指数空间中,例如。 [0.001, 0.01, 0.1, 1, 10, 100, 1000]让您看到有意义的效果。

如果您对此类线性模型感兴趣并调整参数,SGDClassifier可能与您的案例相关。