在绘制单词嵌入TSNE结果时,单词显示不止一次。
我正在减少Word2Vec单词嵌入的维数,但是当我绘制最相似单词的子集的结果(手动输入几个我想要最相似单词的单词)时,相同单词会出现多次:
from sklearn.manifold import TSNE
words = sum([[k] + v for k, v in similar_words.items()], [])
wvs = model.wv[words]
tsne = TSNE(n_components=3, random_state=0, n_iter=10000, perplexity=29)
np.set_printoptions(suppress=True)
T = tsne.fit_transform(wvs)
labels = words
plt.figure(figsize=(16, 12))
plt.scatter(T[:, 0], T[:, 1], c='purple', edgecolors='purple')
for label, x, y in zip(labels, T[:, 0], T[:, 1]):
plt.annotate(label, xy=(x+1, y+1), xytext=(0, 0), textcoords='offset points')
这是降低PCA和TSNE单词相似性维数的正常行为,还是我的代码有什么不足?情节是否有可能将每个相似的单词子集视为彼此独立?