我是一名软件工程专业的学生,也是Data Mining的新手,我想实现一个解决方案,根据他们的兴趣和技能(字符串集)找到类似的用户。
我想我不能使用编辑距离使用K最近的邻居(Levenshtein或..)
如果有人可以提供帮助,请
答案 0 :(得分:0)
您应该做的第一件事是将您的数据转换为某些合理的表示,这样您就可以在适当代表的用户之间找到明确定义的距离概念。
我建议将所有字符串转换为某种规范形式,然后将所有n
个不同技能和兴趣字符串排序到字典D
中。现在为每个用户u
构建一个带有v(u)
组件的向量n
,如果字典条目i
中的属性设置为i
,则组件设置为1存在,否则为0。基本上,我们为每个用户提供了她的兴趣/技能的特征向量。
现在,您可以将用户与Jaccard index进行比较(这只是一个例子,您必须找出最适合您的用户)。通过手头的距离概念,您可以开始尝试各种方法。以下是一些让人想到的东西: