我正在尝试生成给定句子正确的可能性。
对于该语言中的每个标记,我都有word2vec,并且我想预测该句子正确的可能性。我无法创建合适的模型。我该如何进行?
答案 0 :(得分:1)
仅单词向量并不能帮助您做到这一点。
尽管它们的相似性和相对方位是通过预测单词共现来训练的,但单独的向量并不能明确指导共现单词。单词向量肯定不对语法使用规则进行编码,因为通常的训练输入就是单纯的接近而不是正确的排序。
也就是说,如果您碰巧正在使用gensim
的Python Word2Vec
实现,并且您自己训练了完整模型(与使用现成的预训练向量相反) ,则整个模型将在某些模式下支持score()
方法,该方法对句子与模型期望的符合程度进行分级。它不会告诉您文本是否“正确”,只是告诉您文本是否“熟悉”,并且是第一种建议/添加的,它是应用多种对比Word2Vec
模型来辅助的一种可能方式分类问题。您可以在方法文档中阅读有关此方法的更多信息,并找到激发该方法的研究论文和演示用法的链接:
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.score