Question

通过documentation我读到了一个虚拟分类器可用于根据分类算法对其进行测试。

此分类器可用作与其他分析器比较的简单基线（真实的）分类器。不要将它用于实际问题。

虚拟分类器在使用分层方法时会做什么。我知道文件说：

通过尊重训练集的类来生成预测分布。

有人能给我一个更理论的解释，说明为什么这可以证明分类器的性能吗？

Answer 1

虚拟分类器为您提供＆＃34;基线＆＃34;性能 - 即。即使只是猜测，人们应该期望实现的成功率。

假设您希望确定给定对象是否拥有某个属性。如果您已经分析了大量这些对象并且发现90％包含目标属性，那么猜测对象的每个未来实例都拥有目标属性，这使您有90％的正确猜测可能性。以这种方式构建您的猜测相当于在您引用的文档中使用most_frequent方法。

因为许多机器学习任务试图提高（例如）分类任务的成功率，所以评估基线成功率可以为最小值提供最低值的最低值，而分类器应该超出。在上面讨论的假设中，您希望您的分类器获得超过90％的准确度，因为90％是即使＆＃34; dummy＆＃34;分类。

如果使用上面讨论的数据训练具有stratified参数的虚拟分类器，则该分类器将预测其遇到的每个对象具有90％的概率拥有目标属性。这与使用most_frequent参数训练虚拟分类器不同，因为后者会猜测所有未来对象都拥有目标属性。这里有一些代码可以说明：

from sklearn.dummy import DummyClassifier
import numpy as np

two_dimensional_values = []
class_labels           = []

for i in xrange(90):
    two_dimensional_values.append( [1,1] )
    class_labels.append(1)

for i in xrange(10):
    two_dimensional_values.append( [0,0] )
    class_labels.append(0)

#now 90% of the training data contains the target property
X = np.array( two_dimensional_values )
y = np.array( class_labels )

#train a dummy classifier to make predictions based on the most_frequent class value
dummy_classifier = DummyClassifier(strategy="most_frequent")
dummy_classifier.fit( X,y )

#this produces 100 predictions that say "1"
for i in two_dimensional_values:
    print( dummy_classifier.predict( [i]) )

#train a dummy classifier to make predictions based on the class values
new_dummy_classifier = DummyClassifier(strategy="stratified")
new_dummy_classifier.fit( X,y )

#this produces roughly 90 guesses that say "1" and roughly 10 guesses that say "0"
for i in two_dimensional_values:
    print( new_dummy_classifier.predict( [i]) )

Answer 2

虚拟分类器的主要动机是F分数，当正类是少数（即不平衡类）时。该分类器用于实际分类器的健全性测试。实际上，虚拟分类器完全忽略输入数据。在“最常用”方法的情况下，它检查最频繁标签的出现。

Answer 3

使用Doc来说明DummyClassifier，首先让我们创建一个不平衡的数据集：

>>>
>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> y[y != 1] = -1
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

接下来，让我们比较SVC和most_frequent的准确性：

>>>
>>> from sklearn.dummy import DummyClassifier
>>> from sklearn.svm import SVC
>>> clf = SVC(kernel='linear', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test) 
0.63...

>>> clf = DummyClassifier(strategy='most_frequent',random_state=0)
>>> clf.fit(X_train, y_train)
DummyClassifier(constant=None, random_state=0, strategy='most_frequent')
>>> clf.score(X_test, y_test)  
0.57...

我们看到SVC并没有比虚拟分类器好得多。现在，让我们更改内核：

>>>
>>> clf = SVC(gamma='scale', kernel='rbf', C=1).fit(X_train, y_train)
>>> clf.score(X_test, y_test)  
0.97...

我们看到准确性提高到几乎100％。所以这更好。

scikit-learn虚拟分类器的理论基础是什么？

3 个答案: