我不熟悉python,并尝试使用SKLEARN库在python中运行决策树分类器,并且在运行代码时遇到错误:
ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值
我尝试使用excel数据表的较小子集,并且代码可以执行所需的结果。因此,我怀疑问题在于我的数据集太大。这是导致崩溃的代码:
df_X = data_train[['DayOfWeek', 'Promo', 'StateHoliday']]
df_Y = data_train[['Sales_band']]
X_train, X_test, y_train, y_test = train_test_split(df_X, df_Y, random_state=1)
model = tree.DecisionTreeClassifier()
model.fit(X_train, y_train) // Line that causes crash
y_predict = model.predict(X_test)
print('The accuracy of the Decision Tree is', accuracy_score(y_test, y_predict))
答案 0 :(得分:0)
您的数据集中可能缺少值。如果不影响预测质量/预测准确性,则可能需要使用dropna()删除所有包含缺失值的行