machine-learning - 根据String特性查找类似用户

您应该做的第一件事是将您的数据转换为某些合理的表示，这样您就可以在适当代表的用户之间找到明确定义的距离概念。

我建议将所有字符串转换为某种规范形式，然后将所有n个不同技能和兴趣字符串排序到字典D中。现在为每个用户u构建一个带有v(u)组件的向量n，如果字典条目i中的属性设置为i，则组件设置为1存在，否则为0。基本上，我们为每个用户提供了她的兴趣/技能的特征向量。

现在，您可以将用户与Jaccard index进行比较（这只是一个例子，您必须找出最适合您的用户）。通过手头的距离概念，您可以开始尝试各种方法。以下是一些让人想到的东西：