我正在尝试为银行交易数据实现聚类。数据集包含有关Vendor
的{{1}}和MCC
的列。这些列中有太多不同的值,我想根据某些指标(例如,string
的{{1}}进行聚类)。 (例如cosine similarity
和Vendor or MCC
可以在同一群集中。)我认为'Hotel A'
不足以实现这一点。
我考虑为MCC寻找一个语料库,并创建一个模型来查找单词之间的相似性。这种方法对这个问题好吗?如果没有,我该如何处理这些列?如果是,请问有没有语料库?
答案 0 :(得分:1)
我已经使用GloVe word embeddings完成了与此问题类似的操作。
聚类分类文本特征的一种方法是将每个唯一值转换为平均单词向量(在删除停用词之后)。然后,您可以通过余弦相似度比较向量,并使用基于相似度矩阵的聚类方法。如果此方法在计算上过于复杂,则可以将这些值转换为向量,并通过余弦相似度获得前n个最接近的项。