这是一个sample.csv文件,其中我有3列int类型数据。
在预测一列数据时可以正常工作但在预测两列col2和col3时显示错误。
col1,col2,col3
1,5,1
3,6,5
8,5,2
6,4,2
6,9,5
import pandas as pd
data = pd.read_csv('sample.csv')
input = data
objective = data[["col2","col3"]]
xtr,xtst,ytr,ytst = train_test_split(input,objective,test_size=0.25,
train_size=0.75,random_state=4)
from sklearn.svm import SVR
classifier = SVR()
classifier.fit(xtr,ytr)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Users\User\Anaconda3\lib\site-packages\sklearn\svm\base.py", line 149, in fit
X, y = check_X_y(X, y, dtype=np.float64, order='C', accept_sparse='csr')
File "C:\Users\User\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 547, in check_X_y
y = column_or_1d(y, warn=True)
File "C:\Users\User\Anaconda3\lib\site-packages\sklearn\utils\validation.py", line 583, in column_or_1d
raise ValueError("bad input shape {0}".format(shape))
ValueError: bad input shape (3, 2)
答案 0 :(得分:3)
如果您愿意使用支持向量机以外的任何其他回归程序,请查看此处:
这里检查本质上是多类的分类器并尝试相应的回归估计器。例如,这里提到DecisionTreeClassifier,因此DecisionTreeRegressos也将支持多个输出。为什么我在谈论固有的mutliclass,他们将能够使用输出值之间的相关性来获得更好的学习。
如果您想使用SVR,则可以使用MultiOutputRegressor。请参阅示例here: -
from sklearn.datasets import make_regression
from sklearn.multioutput import MultiOutputRegressor
from sklearn.svm import SVR
classifier = MultiOutputRegressor(SVR())
classifier.fit(xtr,ytr)
请记住,它只会使代码变得简单,但在内部仍然只能容纳一个输出。所以在这种情况下,它将内部适合两个svm(每个输出一个),并且可能无法使用输出之间的相关性。
答案 1 :(得分:1)
您一次只能训练一个目标/一个自变量。所以你的ytr
有两列导致错误。来自classifer.fit
上的文档字符串(请参阅形状规范):
y
: array-like, shape (n_samples,)
Target values (class labels in classification, real numbers in regression)