我想找到用户标签的语义/相似性。
每个用户最多可以使用四个标签。例如,用户1 ["机器学习","摄影","数据科学","神经网络"],用户-2 ["机器学习","数据科学","统计","数学"],用户-2 ["地球物理&# 34;,"机器学习","艺术与印刷","数学"]。
标签来自广泛的技能。我想找到标签之间的距离/相似度。例如:"机器学习," "数据科学,"和#34;神经网络"将会彼此接近,同样地"摄影"和"艺术和印刷"会彼此接近。
我正在考虑使用word2vec。但我在生产中使用它是犹豫不决的,因为我必须用千种类别的技能组合文档来训练它。不仅在现实生活中用户总是更改/更新他们的标签。所以我想构建/开发一个动态算法,该算法将根据用户标签进行调整。
我是机器学习世界的新手。
答案 0 :(得分:1)
每个标记都可以表示为BitMap(BitSet),单个位表示具有此标记的特定用户。然后你可以使用一些相似性函数,如Jaccard或Ochiai