我正在使用Phrases类,并想要在2D空间中可视化矢量。为了用Word2Vec做到这一点,我使用了T-SNE并且它工作得很好。当我试图用短语做同样的事情时,它没有任何意义(单词出现在不相关的单词旁边)。
有关如何可视化短语输出的任何建议?
答案 0 :(得分:0)
正如gensim mailing list所建议/报道的那样,关键问题在于只在Phrases
中包含语料库会导致迭代器只提供一次数据传递。 Word2Vec
模型需要一个语料库,通过该语料库可以进行多次传递以进行词汇发现,然后进行多次训练。 (如果仔细观察INFO级别的日志记录,应该有迹象表明“训练”在这种情况下几乎立即结束。)