用nltk计算单词相似度后的句子匹配算法

时间:2016-06-13 12:20:21

标签: machine-learning nlp nltk semantics gensim

目标 - 用户输入字符串。我需要将这个输入与句子1和句子2进行比较,并找到与这两个句子中的任何一个的最大相似度。

当前方法 - 我对输入和两个句子进行标记,找到每个标记的同义词集,并通过使用nltk .path_similarity(token1,token2)为每个标记添加相似性来比较最大相似度。

问题 - 如果句子1很短而句子2很长且有许多令牌,因为我总结了个体的相似性,如果大多数输入令牌与句子1匹配,则句子2与输入的相似性总是更均匀。

一个解决方案 - 我可以将每个句子的相似度除以句子的长度,因此我得到句子的每个标记的相似性。但这种方法过于激进。对此有行业标准方法吗?

0 个答案:

没有答案