我使用以下代码可视化RandomForestClassifier的结果:
X, y = make_blobs(n_samples=300, centers=4,
random_state=0, cluster_std=1.0)
def visualize_classifier(model, X, y, ax=None, cmap='rainbow'):
ax = ax or plt.gca()
# Plot the training points
ax.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=cmap,
clim=(y.min(), y.max()), zorder=3)
ax.axis('tight')
ax.axis('off')
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# fit the estimator
model.fit(X, y)
xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
np.linspace(*ylim, num=200))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
# Create a color plot with the results
n_classes = len(np.unique(y))
contours = ax.contourf(xx, yy, Z, alpha=0.3,
levels=np.arange(n_classes + 1) - 0.5,
cmap=cmap, clim=(y.min(), y.max()),
zorder=1)
ax.set(xlim=xlim, ylim=ylim)
tree = DecisionTreeClassifier()
bag = BaggingClassifier(tree, n_estimators=100, max_samples=0.8, random_state=1)
bag.fit(X, y)
visualize_classifier(bag, X, y)
我很确定这种行为与我使用的数据无关,但有一些数学/图形背景......那么这个错误陈述的原因是什么?
答案 0 :(得分:1)
当我试图预测边界上的点时,它给了我合理的预测(即与边界附近的两个大区域之一相关的预测),而不是与边界颜色相关的预测。
因此我猜不同边框颜色的原因是边框没有在网格网格中表示(也就是说,网格网格没有任何一点落在边框上),而边框的两边则表示为meshgrid,因此可视化工具不知道什么应该是正确的颜色。
如果切换
xx, yy = np.meshgrid(np.linspace(*xlim, num=200),
np.linspace(*ylim, num=200))
到
xx, yy = np.meshgrid(np.linspace(*xlim, num=2000),
np.linspace(*ylim, num=2000))
(也就是说,增加200到2000.请注意,代码较慢,因为在这种情况下生成分类需要一段时间),您可以获得更准确的数字,并且重叠边框的许多部分都会消失。