根据String特性查找类似用户

时间:2016-05-13 11:50:10

标签: machine-learning data-mining

我是一名软件工程专业的学生,​​也是Data Mining的新手,我想实现一个解决方案,根据他们的兴趣和技能(字符串集)找到类似的用户。

我想我不能使用编辑距离使用K最近的邻居(Levenshtein或..)

如果有人可以提供帮助,请

1 个答案:

答案 0 :(得分:0)

您应该做的第一件事是将您的数据转换为某些合理的表示,这样您就可以在适当代表的用户之间找到明确定义的距离概念。

我建议将所有字符串转换为某种规范形式,然后将所有n个不同技能和兴趣字符串排序到字典D中。现在为每个用户u构建一个带有v(u)组件的向量n,如果字典条目i中的属性设置为i,则组件设置为1存在,否则为0。基本上,我们为每个用户提供了她的兴趣/技能的特征向量。

现在,您可以将用户与Jaccard index进行比较(这只是一个例子,您必须找出最适合您的用户)。通过手头的距离概念,您可以开始尝试各种方法。以下是一些让人想到的东西:

  • 如果用户数量足够小,则应用层次聚类;
  • 申请association rule learning(我会让您仔细考虑细节);