比较文档的向量和一个词

时间:2019-03-10 16:48:45

标签: vector nlp word2vec doc2vec

因此,我必须比较文章的向量和单个词的向量。而且我不知道该怎么做。看起来BERT和Doc2wec可以很好地处理长文本,Word2vec可以处理单个单词。但是,如何只用一个字比较长文本呢?

2 个答案:

答案 0 :(得分:0)

您也可以按字样使用BERT。一个词只是一个很短的句子。因此,从理论上讲,您应该可以随意使用任何嵌入的句子。

但是,如果您没有任何受监督的数据,那么BERT并不是您的最佳选择,并且options更好!

我认为最好先尝试doc2vec,如果它不起作用,则切换到SkipThoughts或USE之类的其他东西。

对不起,我帮不上什么忙,这完全取决于任务和数据,您应该测试不同的东西。

答案 1 :(得分:0)

基于进一步解释问题的进一步注释,听起来您实际上是在尝试进行主题建模(按给定单词对文档进行分类等同于用该主题标记文档)。如果您正在这样做,我建议您研究LDA及其变体(例如,guidedLDA)。