我有一个既包含文本又包含数值的数据集。我想对数据进行聚类,下面是数据集的示例。我正在使用熊猫和scikit学习。
all_text,amount
Check Sample row 1,-1154
Check Sample row 2,-1154
以上行的一个值是文本,另一个是数字。 我选择了文本列,并使用TF-IDF对其进行了转换。
vect =
TfidfVectorizer(ngram_range=(1,1),stop_words='english',max_features=1000)
td_matrix = vect.fit_transform(data['all_text'])
data['all_text'] = list(td_matrix)
# Calculating the distance measure derived from cosine similarity
dbscan = DBSCAN(eps=0.5, min_samples= 10)
dbscan.fit(data)
当我尝试使用td_matrix创建新的数据框并拟合数据时,它将引发以下错误。
array = array.astype(np.float64)
ValueError: setting an array element with a sequence.
如何将tf-idf矩阵与数字列结合在一起,以便可以运行聚类算法?