以下用于绘制决策表面悬挂的代码在哪里?

时间:2018-03-25 01:35:01

标签: python scikit-learn mesh hang

作为练习,我在虹膜数据集上复制粘贴了sklearn文档中的决策表面绘图代码:

# Few differences from the original at the link below (two classes, some renamed vars):
# http://scikit-learn.org/stable/auto_examples/tree/plot_iris.html
# Parameters
n_classes = 2
plot_colors = "rb"
plot_step = 0.02

# Get my X and y - each sample is a histogram with a binary class label.
X, y, positives = Loader.load_cluster_size_histograms_singular(m=115, upper=21, norm=False, display_plot=False, pretty_print=False)

my_features = [str(i+1) for i in range(X.shape[1])]
my_features[-1] = my_features[-1] + '+'
features = np.asarray(my_features)

# Load iris data
iris = load_iris()

iris.data = iris.data[:, 100]
iris.target = iris.target[:, 100]

features = iris.feature_names  # Comment or uncomment as necessary

# Now asserting that my X and y does not contain np.nan or np.inf (wouldn't sklearn catch this though?)
# Also check for correct sizing. We're really running out of potential failures here.
for i in range(115):
    assert(np.nan not in X[i])
    assert(np.inf not in X[i])
    assert(X[i].shape[0] == 21)

# They do not. X and y are clean.

for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],
                                [1, 2], [1, 3], [2, 3]]):
    # Set local_X = X[:, pair], local_y = y, features to my_features... BOOOOOM! 
    # CPU gets nuked, doesn't terminate.
    local_X = iris.data[:, pair]
    local_y = iris.target

    # Train
    clf = Pipeline(steps=[("scaling", StandardScaler()), ("classifier", LogisticRegression(verbose=100))])
    clf.fit(local_X, local_y)

    # Plot the decision boundary
    plt.subplot(2, 3, pairidx + 1)

    x_min, x_max = local_X[:, 0].min() - 1, local_X[:, 0].max() + 1
    y_min, y_max = local_X[:, 1].min() - 1, local_X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))
    plt.tight_layout(h_pad=0.5, w_pad=0.5, pad=2.5)

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.RdYlBu)

    plt.xlabel(features[pair[0]])
    plt.ylabel(features[pair[1]])

    # Plot the training points
    for i, color in zip(range(n_classes), plot_colors):
        idx = np.where(local_y == i)
        plt.scatter(local_X[idx, 0], local_X[idx, 1], c=color, label=features[i],
                    cmap=plt.cm.RdBu, edgecolor='black', s=15)

plt.suptitle("Decision surface of a decision tree using paired features")
plt.legend(loc='lower right', borderpad=0, handletextpad=0)
plt.axis("tight")
plt.show()

使用以下输出:

iris data decision surface

好?所以代码完全没问题,只是重命名并使用/删除一些微小的位和bob。绝对没有问题。

我的问题是这个 - 当我用我自己的虹膜数据集替换虹膜数据集时,它会在行clf.fit(local_X, local_y)处完全手榴弹。无论是什么分类器,Logistic回归,SVM,GaussianNB,很多。一切都变慢到令人难以置信的缓慢爬行,点击注册需要几十秒。即使听了几分钟我的CPU得到了水底板,也不会终止。上述代码中的差异在于我设置了local_X = X[:, pair],我设置了local_y = y,并设置了features = np.asarray(my_features)(其中my_features是我自己的功能名称向量一个numpy数组)。

使用1.4 GHz Intel Core i5的Macbook Air上的CPU负载视觉:

CPU load after running on own dataset

我的数据集也不是很大 - 只是(115,21)和(115,)我自己的X和y。所以数据的大小不能成为一个因素。

现在为那些喜欢批评而不是帮助的人提供一些问答:

您没有扩展输入。

  • 假。这实际上是我管道中的第一个阶段。我会说我的特征向量是直方图。我已尝试通过将每个直方图总和设为1进行缩放。确切地说是同样的问题。

你做错了。

  • 出色的观察。你介意解释我做错了什么吗?

您是否尝试过将其关闭再打开?

  • 这会有什么帮助?是的,我有,尽管我完全没有理由为什么要这样做。我重新启动了内核,新会话。同样的问题。

当我运行我的代码并将分类器的详细程度设置为100时,我得到的唯一输出是:

[LibLinear]

不是很多,但它是打印的全部。感谢任何有用的评论,建议和理想的答案!

EDTI:

已被要求提供我的数据集的代表性样本。如上所述,样本是直方图。示例可能如下所示(np.array类型为np.float32类型的元素):

[1515. 1072.  598.  447.  307.  221.  184.  166.  121.   82.   76.   67.   69.   58.   39.   49.   40.   37.   24.   27.  590.]

更新:因此尝试使用norm=True再次加载我的数据集(意味着每个直方图总和为1,因此我的浮点值介于0和1之间,但没有进行其他规范化,这是没有StandardScaler()的管道),代码运行,但得到一个无用的结果:

result for when norm=True, no StandardScaler()

对于管道中包含StandardScaler()的情况,使用Logistic回归时我会得到类似的奇怪结果:

results for when norm=True, StandardScaler() included

当norm = False时,仍然会发生完全挂起。这很奇怪。

1 个答案:

答案 0 :(得分:2)

所以我想出了问题 - 实际上fit()功能并没有突破。那是np.meshgrid()!事实上,当输入范围为数百或数千时,plot_size参数设置为0.02。

我的猜测是,当使用值范围调用np.meshgrid()时,绝对数量的坐标会使其完全狂暴。一旦我开始使用更能反映合理步骤(例如100)的值,我的输入开始工作。

np.meshgrid()并没有对这些输入发出警告,这是非常愚蠢的。由于没有单挑,我的CPU上的负载量一度达到了475%。同样,sklearn文档可能会提到plot_step参数应该相应调整。