我正在尝试创建一个计算2个字符串之间相似性的应用程序。 字符串不长。 3句话长达最多。 我做了一些研究,我遇到了一些可能的解决方案。
第一个使用词袋:计算单词并比较2个生成的向量(余弦相似度)
第二次使用TF-IDF并比较产生的载体。
第三种是使用word2vec并比较矢量。
现在提出问题。
性能明智是word2vec性能比短句更好吗?
训练word2vec模型的最佳方法是什么?我应该使用大量的文本(例如维基百科转储)还是仅使用被比较的句子来训练它。
如何从word2vec获得句子相似性。我应该平均每个句子中的单词还是有更好的解决方案?