应用错误收集

基于多词相似性的聚类

时间：2020-08-08 22:49:37

标签： machine-learning nlp cluster-analysis word-embedding

我正在尝试为银行交易数据实现聚类。数据集包含有关Vendor的{{1}}和MCC的列。这些列中有太多不同的值，我想根据某些指标（例如，string的{{1}}进行聚类）。（例如cosine similarity和Vendor or MCC可以在同一群集中。）我认为'Hotel A'不足以实现这一点。

我考虑为MCC寻找一个语料库，并创建一个模型来查找单词之间的相似性。这种方法对这个问题好吗？如果没有，我该如何处理这些列？如果是，请问有没有语料库？

数据源：https://data.world/oklahoma/purchase-card-fiscal-year

1 个答案:

答案 0 :(得分：1)

我已经使用GloVe word embeddings完成了与此问题类似的操作。

聚类分类文本特征的一种方法是将每个唯一值转换为平均单词向量（在删除停用词之后）。然后，您可以通过余弦相似度比较向量，并使用基于相似度矩阵的聚类方法。如果此方法在计算上过于复杂，则可以将这些值转换为向量，并通过余弦相似度获得前n个最接近的项。