我正在研究多类分类问题。我已经对我的依存矢量进行了二进制编码-我希望我的SVM模型可以预测该矢量。由于我已经对“ y”进行了二进制编码,因此大约需要6列。我不确定如何从这一部分着手,因为我的拟合方法只是抱怨“输入形状不好”。 我之所以对它进行二进制编码而不是对其进行标签编码,是因为据我所知,类之间不存在任何关系,因此,标签编码可能会使机器理解到,它们之间的权重比另一种更大。 这是我拥有的代码的简化版本-
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import category_encoders as ce
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
dataset = pd.read_csv('Training205k.csv',encoding='ISO-8859-1', dtype=str)
X = dataset['Problem_Summary']
y = dataset["NormalisedCategory"]
tv = TfidfVectorizer(lowercase=True)
X = tv.fit_transform(X)
encoder = ce.BinaryEncoder()
z2 = encoder.fit_transform(y)
X_train, X_test, y_train, y_test = train_test_split(X, z2, test_size = 0.05, random_state = 42)
classifier = SVC(kernel = 'rbf')
classifier.fit(X_train,y_train)