我尝试在我的贷款数据集上运行随机森林模型,我将我的csv文件作为pandas数据框加载,并使用变量loan_amnt
,int_rate
作为我的功能,Loan_status_B
我的标签是1
或0
。
我的数据框看起来像这样:
traning_set = train[['loan_amnt','int_rate','Loan_Status_B']]
features_train = array(traning_set[['loan_amnt','int_rate']])
labels_train = array(traning_set[['Loan_Status_B']])
我以同样的方式创建了一个测试集
#Random Forest
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(features_train, labels_train)
pred = clf.predict(features_test)
from sklearn.metrics import accuracy_score
print accuracy_score(labels_test, pred)
这产生了ValueError: invalid literal for float(): 19.20%
有没有人之前遇到过这个问题或知道如何修复它?
谢谢!