可视化使用SpaCy中的预训练单词嵌入计算出的余弦相似度分数

时间:2019-10-17 18:34:21

标签: python-3.x nlp spacy word-embedding

我已经使用SpaCy的预训练模型'en_core_web_lg'来找到一组值和属性之间的余弦距离。我想形象化一个单词与另一个单词的接近程度,这与聚类非常相似。

Here is the link to the table which contains similarity scores for each value vs attribute

在这里,列是我要为其寻找相似度得分的属性,而行是我正在寻找其最有可能被归类的属性的值

This is the output i am trying to achieve. Please take a look at it

1 个答案:

答案 0 :(得分:1)

如果要绘制与此类似的图: tSNE plot 您需要将单词向量的维数减少到2维

因此,您必须将所需的降维算法应用于降维算法,例如t-SNE(也在scikit-learn中实现)。

相似度分数不足以做到这一点; 您需要整个向量

Here,有一个不错的Kaggle教程,关于t-SNE,用于可视化单词向量。您可以对其进行自定义,仅选择您感兴趣的单词。