Question

我是机器学习的新手 - 特别是分类技术。

我已经在线阅读了一些教程，并且我正在使用iris data set。我尝试将数据集拆分为train并使用

进行测试

train, test = train_test_split(df,
                               test_size=test_size,
                               train_size=train_size,
                               random_state=random_state)

随后，我发现了两种适合模型的方法（DecisionTreeClassifier＆amp; SVM）：

dt = DecisionTreeClassifier(min_samples_split=20, random_state=99)
clf = svm.SVC(kernel='linear', C=1)

两种模型都允许我使用.fit（）和.score（）方法。我尝试重新采样具有不同大小和随机状态的数据，但我得到了与2个模型完全相同的0.9852分数。难道我做错了什么？

此外，是否需要将我的目标变量（＆＃34; class＆＃34;）转换为here所述的数值？我已经尝试使用原始字符串值拟合数据框，我得到了相同的结果。非常感谢任何帮助！

Answer 1

使用train_test_split的正确方法如下：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

#Load Iris data, X: features and y:target/labels
df = load_iris()
y = df.target
X = df.data

#Split the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state= 99)

#Fit the 2 classifiers
dt = DecisionTreeClassifier(min_samples_split=20, random_state=99)
clf = SVC(kernel='linear', C=1)

dt.fit(X_train, y_train)
y_predicted_dt = dt.predict(X_test)
scores_dt = accuracy_score(y_test, y_predicted_dt)
print(scores_dt)

clf.fit(X_train, y_train)
y_predicted_clf = clf.predict(X_test)
scores_clf = accuracy_score(y_test, y_predicted_clf)
print(scores_clf)

<强>结果：

#Accuracy of dt classifier
0.933333333333

#Accuracy of clf classifier
0.983333333333

底线：

在您的情况下，您只能X df中的train_test_split传递。{/ p>

您不需要转换thr类。只需使用accuracy_score或cross_val_score函数。

Python的sklearn（DecisionTreeClassifier，SVM）之间的区别？

1 个答案: