tsne和word2vec之间有什么关系?

时间:2017-04-02 09:29:03

标签: nlp gensim word2vec

据我所知,SQLSTATE[23000]: Integrity constraint violation: 1452 Cannot add or update a child row: a foreign key constraint fails (anthonyl_fbpj.comments, CONSTRAINT fk_comments_projects1 FOREIGN KEY (project_id) REFERENCES projects (id) ON DELETE NO ACTION ON UPDATE NO ACTION)正在减少单词向量的维度。

tsne生成包含大量数据的字嵌入模型。

两者之间有什么关系?

Word2vec内部使用Word2vec吗?

(我使用tsne中的Word2vec

1 个答案:

答案 0 :(得分:1)

在内部,他们都使用 gradient-descent 来达到最终的优化状态。两者都可以被视为降维操作。但是,word2vec在内部不使用t-SNE(反之亦然)。

为了绘制可视化的目的,

t-SNE (“t分布式随机邻域嵌入”)通常将多维数据减少到2维或3维。它涉及学习从原始维度到较少维度的映射,这仍然保持相似的点彼此靠近。

word2vec 采用了许多文本示例,并学习了一种擅长预测附近单词中单词的浅层神经网络。表示单个单词的神经网络权重的特定层然后成为学习的N维单词向量,N的值通常为100到600.

(有另一种方法来创建名为 GLoVE 的单词向量,它更像t-SNE,因为它直接从单词的高维共生矩阵中训练,而不是而不是来自许多上下文共现的例子。但它仍然不是t-SNE本身。)

您可能会运行目标维度为100-400的t-SNE。但由于最终结果尚未产生良好的情节,维持对t-SNE至关重要的“接近度”将无法实现其通常的预期效益。

你可能会学习只有2维或3维的word2vec(或GLoVE)向量,但人们从单词向量中寻找的大多数有用的相似性/安排都会在拥挤中丢失。在一个情节中,你可能不会看到相关单词类别的强烈视觉“聚集”,因为t-SNE的特定的高到低维度接近度保留目标未被应用。