我正在尝试通过使用scikit-learn的SVM文档分类器来预测肺癌数据,并且正在使用以下代码,但出现一些错误。我已使用matplotlib.pyplot as plt
进行数据绘制,但出现错误。
在这里,我明智地使用了肺癌数据危险因素。
输入文件
GENDER AGE SMOKING YELLOW_FINGERS ANXIETY PEER_PRESSURE CHRONIC DISEASE FATIGUE ALLERGY WHEEZING ALCOHOL CONSUMING COUGHING SHORTNESS OF BREATH SWALLOWING DIFFICULTY CHEST PAIN LUNG_CANCER
F 59 0 0 0 1 0 1 0 1 0 1 1 0 1 0
F 63 0 1 0 0 0 0 0 1 0 1 1 0 0 0
F 75 0 1 0 0 1 1 1 1 0 1 1 0 0 1
M 69 0 1 1 0 0 1 0 1 1 1 1 1 1 1
M 74 1 0 0 0 1 1 1 0 0 0 1 1 1 1
M 63 1 1 1 0 0 0 0 0 1 0 0 1 1 0
脚本SVM
# Support Vector Machine (SVM)
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
X = dataset.iloc[:, [2,3,4,5,6,7,8,9,10,11,12,13,14]].values
y = dataset.iloc[:, 15].values
# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
# Fitting SVM to the Training set
from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)
# Predicting the Test set results
y_pred = classifier.predict(X_test)
# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Training set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()
# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Test set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()
错误
ValueError: X.shape[1] = 2 should be equal to 13, the number of features at training time
这样我会出错
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
为什么我出错了,请给我一些建议。谢谢你。
编辑_1
SVM测试集输出图
SVM训练集输出图
任何人都可以让我知道。这是正确的输出吗?
预先感谢
答案 0 :(得分:3)
无论如何,我认为有几个方面需要解决。
例外本身是由于在对模型进行13个变量训练时仅向classifier.predict
提供2个变量作为输入。如果要在两个变量上绘制轮廓,则必须将其他11个变量设置为某个默认值。
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
Xpred = np.array([X1.ravel(), X2.ravel()] + [np.repeat(0, X1.ravel().size) for _ in range(11)]).T
# Xpred now has a grid for x1 and x2 and average value (0) for x3 through x13
pred = classifier.predict(Xpred).reshape(X1.shape) # is a matrix of 0's and 1's !
plt.contourf(X1, X2, pred,
alpha = 0.75, cmap = ListedColormap(('red', 'green')))
该代码段将起作用,但是可能无法满足您的需求。使用一些随机的二项式数据,您会得到如下所示的数字红绿色图。 SVC.predict
的输出是一个二进制矩阵,而不是概率。
您可以将decision_function
绘制为预测结果,从而可视化到分离超平面的距离。这可以解释为风险因素。但这不是可能性
pred = classifier.decision_function(Xpred).reshape(X1.shape)
plt.contourf(X1, X2, pred,
alpha=1.0, cmap="RdYlGn", levels=np.linspace(pred.min(), pred.max(), 100))
我发现您的数据集存在另一个问题。似乎有15列。然后,我希望行y = dataset.iloc[:, 15].values
会引发IndexError
。如果不是,请检查数据集的完整性。 pd.read_csv
是否正确导入了它?
您还丢弃了前两列GENDER和AGE的信息。对于性别,您可以将F
转换为0
,将M
转换为1
,还可以将年龄转换为X
:
dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
dataset.loc[dataset['GENDER'] == 'F', 'GENDER'] = 0
dataset.loc[dataset['GENDER'] == 'M', 'GENDER'] = 1
X = dataset.iloc[:, 0:14].values
y = dataset.iloc[:, 14].values
我希望这会有所帮助。如果在制定预期的解决方案时出现其他问题,而您自己的研究找不到答案,请随时提出:)
编辑
解决关于散点图正确性的第二个问题:我不知道您是如何制作此图的,但是使用散点图的代码,将其绘制在决策函数的顶部,得到以下信息( lung cancer data是您提供的)
y
是一个二进制变量。这就是np.unique(y_set)
与[0, 1]
相同的原因。我不知道如何用此代码获得列式数据点结构。很抱歉,我什至不知道您实际上是想用该图实现什么,所以我无法确定它是否显示了您想要显示的内容。