应用错误收集

我有一个奇怪的问题，可能会让你大惊小怪。我的测试集上的分类率太高了。我正在使用scikit-learn软件包，我对这些分类率非常怀疑，因为它们非常接近1。

x=[]
for nums in range(1,100):   
  X=maxDataset[:,1:]
  y=maxDataset[:,0]
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
  cvIter=ShuffleSplit(X_train.shape[0], n_iter=10, test_size=0.2)
  clf=RandomForestClassifier() 
  clf.fit(X_train,y_train)
  clf.fit(X, y)
  avg=metrics.accuracy_score(y_test,clf.predict(X_test))
  x.append(avg)
xMean=np.average(x)
print(xMean)

我的评价有问题吗？我怀疑这可能是因为模型适合整个数据集。如果是这种情况，或者其他问题是什么，我该如何解决它以获得分类器的准确评估？ xMean范围从98.3到99。

由于

具有很高成功率的随机森林分类器

0 个答案: