Question

我不熟悉python，并尝试使用SKLEARN库在python中运行决策树分类器，并且在运行代码时遇到错误：

ValueError：输入包含NaN，无穷大或对于dtype（'float32'）而言太大的值

我尝试使用excel数据表的较小子集，并且代码可以执行所需的结果。因此，我怀疑问题在于我的数据集太大。这是导致崩溃的代码：

df_X = data_train[['DayOfWeek', 'Promo', 'StateHoliday']]
df_Y = data_train[['Sales_band']]

X_train, X_test, y_train, y_test = train_test_split(df_X, df_Y, random_state=1)
model = tree.DecisionTreeClassifier()
model.fit(X_train, y_train) // Line that causes crash
y_predict = model.predict(X_test)

print('The accuracy of the Decision Tree is', accuracy_score(y_test, y_predict))

Answer 1

您的数据集中可能缺少值。如果不影响预测质量/预测准确性，则可能需要使用dropna（）删除所有包含缺失值的行

sklearn错误ValueError：输入包含NaN，无穷大或对于dtype（'float32'）而言太大的值

1 个答案: