因此,我必须比较文章的向量和单个词的向量。而且我不知道该怎么做。看起来BERT和Doc2wec可以很好地处理长文本,Word2vec可以处理单个单词。但是,如何只用一个字比较长文本呢?
答案 0 :(得分:0)
您也可以按字样使用BERT。一个词只是一个很短的句子。因此,从理论上讲,您应该可以随意使用任何嵌入的句子。
但是,如果您没有任何受监督的数据,那么BERT并不是您的最佳选择,并且options更好!
我认为最好先尝试doc2vec,如果它不起作用,则切换到SkipThoughts或USE之类的其他东西。
对不起,我帮不上什么忙,这完全取决于任务和数据,您应该测试不同的东西。
答案 1 :(得分:0)
基于进一步解释问题的进一步注释,听起来您实际上是在尝试进行主题建模(按给定单词对文档进行分类等同于用该主题标记文档)。如果您正在这样做,我建议您研究LDA及其变体(例如,guidedLDA)。