推荐的单词相似度算法

时间:2018-03-02 15:35:56

标签: machine-learning nlp matching similarity

我研究可行的算法/解决方案来实现和解决以下问题: 根据用户的共同兴趣匹配用户

例:
U1:滑雪,亚洲文化,冥想,java,加密
U2:瑜伽,冥想,管理,旅行提示美国
U3:节目,旅游,东方美食

我正在考虑基于单词相似度的三个维度:

  • 字典同义词
  • 关闭语义相似度(编程> java,旅行>旅行提示美国)
  • 松散的语义相似性(亚洲文化>>东方美食,编程>>加密,亚洲文化>>瑜伽,瑜伽>>冥想)

基于这些方法,我想计算相关性得分并相应地匹配用户。

感谢您的投入!

1 个答案:

答案 0 :(得分:0)

Levenshtein距离对于在我的实验中捕获语义相似性并不是很有用。

Wordnet 运作良好,但对大量单词的速度很慢

Word2Vec 是wordnet的良好近似值,但在捕获所有相关词时并不全面

还建议您查看来自Facebook的Starspace 中使用的图表嵌入算法,特别是围绕Facebook页面的用例和建议