聚类同时具有文本和数字值的数据

时间:2018-09-25 23:18:09

标签: python pandas machine-learning scikit-learn

我有一个既包含文本又包含数值的数据集。我想对数据进行聚类,下面是数据集的示例。我正在使用熊猫和scikit学习。

all_text,amount
Check Sample row 1,-1154
Check Sample row 2,-1154

以上行的一个值是文本,另一个是数字。 我选择了文本列,并使用TF-IDF对其进行了转换。

vect =
TfidfVectorizer(ngram_range=(1,1),stop_words='english',max_features=1000)
td_matrix = vect.fit_transform(data['all_text'])

data['all_text'] = list(td_matrix)
# Calculating the distance measure derived from cosine similarity
dbscan = DBSCAN(eps=0.5, min_samples= 10)
dbscan.fit(data)

当我尝试使用td_matrix创建新的数据框并拟合数据时,它将引发以下错误。

array = array.astype(np.float64) 
ValueError: setting an array element with a sequence.

如何将tf-idf矩阵与数字列结合在一起,以便可以运行聚类算法?

0 个答案:

没有答案