解释Doc2Vec矢量簇表示

时间:2019-04-19 22:42:08

标签: text-mining word2vec doc2vec

我是Doc2Vec的新手,请忍受天真的问题。

我已经使用“段落向量”算法生成了Doc2vector得分。 每个文档都有一个数组输出。

我对doc1使用model.similar并获取输出-doc5和doc10与doc1类似。

Q1)如何使用代码总结本文档中重要的词或高级摘要是什么?

此外,如果我使用数组输出并运行K-表示可以获得5个簇。如何定义集群定义。

Q2)我可以阅读文档,但是文档数量非常多,并且无法进行手动阅读来找到群集定义。

1 个答案:

答案 0 :(得分:0)

Doc2Vec文档向量(或相同的簇)没有内置的“摘要”功能。

从理论上讲,该模型可以完成某种类似于doc-vector推断的工作。它可能需要一个doc-vector(也许是对应于现有文档的doc-vector),然后将其提供给模型,“向前”运行模型,并读出其所有输出节点的激活级别。至少在使用默认否定采样的模型中,这些节点与已知词汇一一对应,并且您可以合理地对这些激活级别进行排序/缩放,以找到与该文档相关的前N个“最相关”单词向量。

您可以查看predict_output_word()的{​​{1}}方法源,以大致了解这种计算如何进行:

https://github.com/RaRe-Technologies/gensim/blob/3514d3fb9224280edd8ddd14c46b722220df5436/gensim/models/word2vec.py#L1131

如前所述,这不是现有功能,而且我不知道用于进行此类计算的代码的在线来源。但是,如果实施了,它将是welcome contribution

(我不确定您的Word2Vec问题实际上是什么。)