sklearn错误ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值

时间:2018-11-07 10:22:33

标签: python pandas numpy scikit-learn sklearn-pandas

我不熟悉python,并尝试使用SKLEARN库在python中运行决策树分类器,并且在运行代码时遇到错误:

  

ValueError:输入包含NaN,无穷大或对于dtype('float32')而言太大的值

我尝试使用excel数据表的较小子集,并且代码可以执行所需的结果。因此,我怀疑问题在于我的数据集太大。这是导致崩溃的代码:

df_X = data_train[['DayOfWeek', 'Promo', 'StateHoliday']]
df_Y = data_train[['Sales_band']]

X_train, X_test, y_train, y_test = train_test_split(df_X, df_Y, random_state=1)
model = tree.DecisionTreeClassifier()
model.fit(X_train, y_train) // Line that causes crash
y_predict = model.predict(X_test)

print('The accuracy of the Decision Tree is', accuracy_score(y_test, y_predict))

1 个答案:

答案 0 :(得分:0)

您的数据集中可能缺少值。如果不影响预测质量/预测准确性,则可能需要使用dropna()删除所有包含缺失值的行