Question

我在使用tabpy时遇到此问题。我使用样本 - 超软件数据集，我想使用sum（[Profit]）和sum（[Sales]）对子类进行聚类，但它返回错误：

ValueError：n_samples = 1应为＆gt; = n_clusters = 2。

这是我的剧本：

SCRIPT_str("
    from sklearn.cluster import KMeans
    kmeans = KMeans(n_clusters=2)
    tmp=[]
    for i in range(len(_arg1)):   
        tmp.extend([[_arg1[i],_arg2[i]]]) 
    KMmodel = kmeans.fit(tmp)
    labels = KMmodel.labels_
    return labels", 
sum([Profit]),sum([Sales]))

Answer 1

尝试将N-clusters选项更改为1并检查

Answer 2

您可以使用numpy column_stack并使用子类别进行计算。

SCRIPT_INT(
"
import numpy as np
from sklearn.cluster import KMeans
X = np.column_stack([_arg1,_arg2])

kmeans = KMeans(n_clusters=2).fit(X)
return kmeans.labels_.tolist()
", SUM([Profit]),SUM([Sales])
)

以下是我的结果：

tabpy连接问题[tableau＆amp;蟒蛇]

2 个答案: