合并反馈以重新培训WordToVec以查找文档相似性

时间:2019-06-17 05:20:10

标签: machine-learning deep-learning gensim cosine-similarity

我已经用文本语料库训练了Gensim的WordToVec,将其转换为DocToVec,然后使用余弦相似度来查找文档之间的相似度。我需要建议类似的文件。现在假设针对特定文档的前5条建议中,我们手动发现其中3条不相似。是否可以将此反馈纳入模型的重新训练中?

1 个答案:

答案 0 :(得分:0)

“将[Word2Vec模型]转换为DocToVec”的含义还不清楚。 gensim Doc2Vec类不使用或不需要Word2Vec模型作为输入。

但是,如果您为语料库提供了多组手工策划的“这是一个好建议”或“这是一个坏建议”对,则可以将模型的得分与所有得分进行比较以比较模型,并训练许多模型变体模型(具有不同的模型参数值,例如sizewindowmin_countsample等),选择在测试中得分最高的模型。

这种自动参数搜索是在真实评估数据上使用性能来调整诸如Word2Vec之类的无监督模型的最直接方法。

(根据数据和问题域的具体情况,您可能还开始注意到模型的优劣所在的模式,这有助于您手动调整部分数据预处理。例如,不同的处理方式错误情况可能会建议使用大写或记号化。)