多类分类-对相关向量进行二进制编码

时间:2020-01-23 12:18:16

标签: python machine-learning scikit-learn artificial-intelligence supervised-learning

我正在研究多类分类问题。我已经对我的依存矢量进行了二进制编码-我希望我的SVM模型可以预测该矢量。由于我已经对“ y”进行了二进制编码,因此大约需要6列。我不确定如何从这一部分着手,因为我的拟合方法只是抱怨“输入形状不好”。 我之所以对它进行二进制编码而不是对其进行标签编码,是因为据我所知,类之间不存在任何关系,因此,标签编码可能会使机器理解到,它们之间的权重比另一种更大。 这是我拥有的代码的简化版本-

import pandas as pd

import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer

import category_encoders as ce

from sklearn.model_selection import train_test_split

from sklearn.svm import SVC

dataset = pd.read_csv('Training205k.csv',encoding='ISO-8859-1', dtype=str)



X = dataset['Problem_Summary']

y = dataset["NormalisedCategory"]



tv = TfidfVectorizer(lowercase=True)

X = tv.fit_transform(X)



encoder = ce.BinaryEncoder()

z2 = encoder.fit_transform(y)



X_train, X_test, y_train, y_test = train_test_split(X, z2, test_size = 0.05, random_state = 42)



classifier = SVC(kernel = 'rbf')

classifier.fit(X_train,y_train)

0 个答案:

没有答案
相关问题