我是sklearn和机器学习的新手。我有一个包含以下类型映射的csv文件: ID-2001-0001,ID-category_1 ID-2002 - 0002,ID-category_2 。 。 我有1010个独特的ID和123个独特的类别。现在,我希望对其他1000个ID进行分类。因为我想为800/1010已经分类的ID训练分类器。我正在使用sklearn。使用SVM,我可以对剩余的200个ID进行相同的预测。使用,GradientBoosting我的准确率达到了1.4%。这是因为数据量小吗?基本上,我将100维向量和ID-2001-0001(word2vec)及其相应的类别传递给拟合方法。
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
clf = GradientBoostingClassifier()
clf.fit(IDVectorMatrix,categoryMatrix) #IDVectorMatrix is 100-dimensional matrix from pre-trained word2vec model. model['ID-2001-0001']
result = clf.predict(categoryTestingMatrix)
我做这个分类吧吗?或者我错过了什么?感谢任何帮助。感谢