这是我的SVC分类器代码。
vectorizer = TfidfVectorizer(lowercase=False)
train_vectors = vectorizer.fit_transform(training_data)
classifier_linear = svm.LinearSVC()
clf = CalibratedClassifierCV(classifier_linear)
linear_svc_model = clf.fit(train_vectors, train_labels)
training_data
这里是英文句子列表,train_lables
是相关标签。在创建training_data
的最终版本之前,我会执行常用的停用词和一些预处理。以下是我的测试代码:
test_lables = ["no"]
test_vectors = vectorizer.transform(test_lables)
prediction_linear = clf.predict_proba(test_vectors)
counter = 0
class_probability = {}
lables = []
for item in train_labels:
if item in lables:
continue
else:
lables.append(item)
for val in np.nditer(prediction_linear):
new_val = val.item(0)
class_probability[lables[counter]] = new_val
counter = counter + 1
sorted_class_probability = sorted(class_probability.items(), key=operator.itemgetter(1), reverse=True)
print(sorted_class_probability)
现在,当我使用训练集中已有的短语运行代码时(在这种情况下,单词“没有”),它可以正确识别,但置信度得分甚至低于{{1 }}。输出如下:
.9
当我在网上学习时,我已经看到通常在训练集中的数据的置信度得分接近[('no', 0.8474342514152964), ('hi', 0.06830103628879058), ('thanks', 0.03070201906552546), ('confused', 0.02647134535600733), ('ok', 0.015857384248465656), ('yes', 0.005961945963546264), ('bye', 0.005272017662368208)]
或几乎1
,其余部分实际上可以忽略不计。我能做些什么才能获得更好的信心?我是否应该担心,如果我增加更多课程,信心分数将进一步下降,我很难确定一个出类拔萃的课程?
答案 0 :(得分:1)
只要您的分数帮助您正确分类输入,您就不必担心。如果有的话,如果您对训练数据中已有的输入信心过高,这可能意味着您的方法过度拟合数据,并且无法推广到看不见的数据。
但是,您可以通过更改惩罚参数来调整方法的复杂度。对于LinearSVC
,您同时拥有penalty
和C
参数。尝试不同的值,并观察效果。确保您还观察到对看不见的测试集的影响。
不仅仅是C
的值应该在指数空间中,例如。 [0.001, 0.01, 0.1, 1, 10, 100, 1000]
让您看到有意义的效果。
如果您对此类线性模型感兴趣并调整参数,SGDClassifier
可能与您的案例相关。