我正在尝试使用点击和转换数据来教我的SVM算法。主要问题是点击率约为所有数据的0.2%,因此它的不成比例很大。当我在测试阶段使用简单的SVM时,它总是只预测“视图”类而不是“点击”或“转换”。平均而言,它给出了99.8%的正确答案(因为不成比例),但如果你检查“点击”或“转换”,它会给出0%的正确预测。如何调整SVM算法(或选择另一个算法)以考虑不成比例?
答案 0 :(得分:24)
这里最基本的方法是使用所谓的"类权重方案" - 在经典SVM公式中,有一个C
参数用于控制错误分类计数。它可以分别更改为用于类1和2的C1
和C2
参数。对于给定的C1
,C2
和C
的最常见选择是放置
C1 = C / n1
C2 = C / n2
其中n1
和n2
分别是第1类和第2类的大小。所以你"惩罚" SVM用于错误分类较不频繁的类,然后更难以分类,这是最常见的类。
许多现有的库(如 libSVM )都支持使用class_weight参数的这种机制。
示例使用python和sklearn
print __doc__
import numpy as np
import pylab as pl
from sklearn import svm
# we create 40 separable points
rng = np.random.RandomState(0)
n_samples_1 = 1000
n_samples_2 = 100
X = np.r_[1.5 * rng.randn(n_samples_1, 2),
0.5 * rng.randn(n_samples_2, 2) + [2, 2]]
y = [0] * (n_samples_1) + [1] * (n_samples_2)
# fit the model and get the separating hyperplane
clf = svm.SVC(kernel='linear', C=1.0)
clf.fit(X, y)
w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - clf.intercept_[0] / w[1]
# get the separating hyperplane using weighted classes
wclf = svm.SVC(kernel='linear', class_weight={1: 10})
wclf.fit(X, y)
ww = wclf.coef_[0]
wa = -ww[0] / ww[1]
wyy = wa * xx - wclf.intercept_[0] / ww[1]
# plot separating hyperplanes and samples
h0 = pl.plot(xx, yy, 'k-', label='no weights')
h1 = pl.plot(xx, wyy, 'k--', label='with weights')
pl.scatter(X[:, 0], X[:, 1], c=y, cmap=pl.cm.Paired)
pl.legend()
pl.axis('tight')
pl.show()
特别是,在 sklearn 中,您只需设置class_weight='auto'
即可启用自动加权。
答案 1 :(得分:1)
本文介绍了各种技术。一个简单(但非常糟糕的SVM方法)就是复制少数类,直到你有一个平衡:
http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf