基于多词相似性的聚类

时间:2020-08-08 22:49:37

标签: machine-learning nlp cluster-analysis word-embedding

我正在尝试为银行交易数据实现聚类。数据集包含有关Vendor的{​​{1}}和MCC的列。这些列中有太多不同的值,我想根据某些指标(例如,string的{​​{1}}进行聚类)。 (例如cosine similarityVendor or MCC可以在同一群集中。)我认为'Hotel A'不足以实现这一点。

我考虑为MCC寻找一个语料库,并创建一个模型来查找单词之间的相似性。这种方法对这个问题好吗?如果没有,我该如何处理这些列?如果是,请问有没有语料库?

数据源:https://data.world/oklahoma/purchase-card-fiscal-year

1 个答案:

答案 0 :(得分:1)

我已经使用GloVe word embeddings完成了与此问题类似的操作。

聚类分类文本特征的一种方法是将每个唯一值转换为平均单词向量(在删除停用词之后)。然后,您可以通过余弦相似度比较向量,并使用基于相似度矩阵的聚类方法。如果此方法在计算上过于复杂,则可以将这些值转换为向量,并通过余弦相似度获得前n个最接近的项。