应用错误收集

时间：2019-03-10 16:48:45

标签： vector nlp word2vec doc2vec

因此，我必须比较文章的向量和单个词的向量。而且我不知道该怎么做。看起来BERT和Doc2wec可以很好地处理长文本，Word2vec可以处理单个单词。但是，如何只用一个字比较长文本呢？

答案 0 :(得分：0)

您也可以按字样使用BERT。一个词只是一个很短的句子。因此，从理论上讲，您应该可以随意使用任何嵌入的句子。

但是，如果您没有任何受监督的数据，那么BERT并不是您的最佳选择，并且options更好！

我认为最好先尝试doc2vec，如果它不起作用，则切换到SkipThoughts或USE之类的其他东西。

对不起，我帮不上什么忙，这完全取决于任务和数据，您应该测试不同的东西。

答案 1 :(得分：0)

基于进一步解释问题的进一步注释，听起来您实际上是在尝试进行主题建模（按给定单词对文档进行分类等同于用该主题标记文档）。如果您正在这样做，我建议您研究LDA及其变体（例如，guidedLDA）。