我正在尝试解决问题,但无法完成此阶段。
我正在研究“乳腺癌”数据集。
考虑以下两个潜在的分歧
对于这些拆分中的每一个,计算所得的均方误差。均方误差是多少 没有分裂的数据集的杂质? (请注意:如果您想知道使用的适当性 关于二元结果的均方误差,请参阅您的二元决策树中的可选讲义 课程讲义)。 根据这些结果,这两个拆分中哪一个最好?
我认为这与决策树分类器模型的(splitter =)参数有关。有人可以帮我吗?
from sklearn.tree import DecisionTreeClassifier as dt
model = dt(max_depth=1)
model.fit(X_train, y_train)
predictions = model.predict(X_test)