ValueError:标签数为1。使用silhouette_score

时间:2018-07-17 13:10:07

标签: python pandas machine-learning scikit-learn k-means

我尝试计算silhouette score时发现了要创建的最佳簇数,但是出现错误消息:

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

我无法理解其原因。这是我用来聚类和计算silhouette score的代码。

我读取了包含要聚类的文本的csv,并在K-Means聚类值上运行n。我可能会收到此错误的原因是什么?

  #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []

def split_words(text):
  return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()

def preprocess_document(text):
  sp_words = split_words(text)
  return sp_words

for i, t in enumerate(overview):
  vectors.append(loaded_model.infer_vector(preprocess_document(t)))

sse = {}
silhouette = {}


for k in range(1,15):
  km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
  sse[k] = km.inertia_
  #FOLLOWING LINE CAUSES ERROR
  silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')

best_cluster_size = 1
min_error = float("inf")

for cluster_size in sse:
    if sse[cluster_size] < min_error:
        min_error = sse[cluster_size]
        best_cluster_size = cluster_size

print(sse)
print("====")
print(silhouette)

4 个答案:

答案 0 :(得分:5)

错误是由于您有一个针对不同数量的群集int的循环而产生的。在第一次迭代期间, nn_clusters ,并且这导致1成为all(km.labels_ == 0)

换句话说,您只有一个簇,标签为0 (因此True打印np.unique(km.labels_))。


array([0], dtype=int32) 需要多个1个群集标签。这会导致错误。错误消息已清除。


示例:

silhouette_score

我们有3个不同的集群/集群标签。

from sklearn import datasets
from sklearn.cluster import KMeans
import numpy as np

iris = datasets.load_iris()
X = iris.data
y = iris.target

km = KMeans(n_clusters=3)
km.fit(X,y)

# check how many unique labels do you have
np.unique(km.labels_)
#array([0, 1, 2], dtype=int32)

该功能正常工作。


现在,让我们引起错误:

silhouette_score(X, km.labels_, metric='euclidean')
0.38788915189699597
km2 = KMeans(n_clusters=1)
km2.fit(X,y)

silhouette_score(X, km2.labels_, metric='euclidean')

答案 1 :(得分:1)

尝试更改min_samples以及算法和指标。

有关度量和算法使用的有效列表。 sklearn.neighbors.VALID_METRICS

答案 2 :(得分:0)

从文档

  

请注意,仅当标签数量为2 <= n_labels <= n_samples-1

时才定义轮廓系数

因此,解决此问题的一种方法是不使用for k in range(1,15),而是尝试从k = 2(即for k in range(2,15))开始迭代。对我有用。

答案 3 :(得分:0)

尝试增加您的eps值。我也遇到了同样的错误,但是当我选择较高的eps值时,该错误就消失了。