使用此页面上的示例 http://scikit-learn.org/stable/auto_examples/svm/plot_iris.html, 我使用标准偏差为10而不是虹膜数据的正态分布数据创建了自己的图形。
我的图表原来是这样的:
注意RBF内核图与示例中的内核图非常不同。除红色和蓝色位外,整个区域被分类为黄色。换句话说,有太多的支持向量。我试过改变C和学位,但他们没有帮助。我用来生成此图的代码如下所示。
请注意我需要使用RBF内核,因为多项式内核的运行速度明显慢于RBF内核。
import numpy as np
import pylab as pl
from sklearn import svm, datasets
FP_SIZE = 50
STD = 10
def gen(fp):
data = []
target = []
fp_count = len(fp)
# generate rssi reading for monitors / fingerprint points
# using scikit-learn data structure
for i in range(0, fp_count):
for j in range(0,FP_SIZE):
target.append(i)
data.append(np.around(np.random.normal(fp[i],STD)))
data = np.array(data)
target = np.array(target)
return data, target
fp = [[-30,-70],[-58,-30],[-60,-60]]
data, target = gen(fp)
# import some data to play with
# iris = datasets.load_iris()
X = data[:, :2] # we only take the first two features. We could
# avoid this ugly slicing by using a two-dim dataset
Y = target
h = .02 # step size in the mesh
# we create an instance of SVM and fit out data. We do not scale our
# data since we want to plot the support vectors
C = 1.0 # SVM regularization parameter
svc = svm.SVC(kernel='linear', C=C).fit(X, Y)
rbf_svc = svm.SVC(kernel='rbf', gamma=0.7, C=C).fit(X, Y)
poly_svc = svm.SVC(kernel='poly', degree=3, C=C).fit(X, Y)
lin_svc = svm.LinearSVC(C=C).fit(X, Y)
# create a mesh to plot in
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
# title for the plots
titles = ['SVC with linear kernel',
'SVC with RBF kernel',
'SVC with polynomial (degree 3) kernel',
'LinearSVC (linear kernel)']
for i, clf in enumerate((svc, rbf_svc, poly_svc, lin_svc)):
# Plot the decision boundary. For that, we will asign a color to each
# point in the mesh [x_min, m_max]x[y_min, y_max].
pl.subplot(2, 2, i + 1)
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
# Put the result into a color plot
Z = Z.reshape(xx.shape)
pl.contourf(xx, yy, Z, cmap=pl.cm.Paired)
pl.axis('off')
# Plot also the training points
pl.scatter(X[:, 0], X[:, 1], c=Y, cmap=pl.cm.Paired)
pl.title(titles[i])
pl.show()
答案 0 :(得分:4)
通常需要使用网格搜索来运行SVM,特别是如果你有一个RBF,C只会处理正则化,如果你的数据不是稀疏的,那么这将很少。
你需要对gamma和C进行网格搜索,他们在这里有一个非常好的例子:
http://scikit-learn.org/0.13/auto_examples/grid_search_digits.html#example-grid-search-digits-py
此外,他们的图书馆已经负责交叉验证。
请记住,这些示例适用于玩具数据集,当您使用新数据集输入时,没有理由相信会像示例中的那样表现。