匹配两个社交媒体配置文件

时间:2012-05-25 05:19:30

标签: algorithm math graph graph-theory social-media

如何检查来自两个不同社交媒体网站的两个配置文件是否相同? 有哪些算法可以实现这一目标,从而为匹配分配权重度量?

假设我有来自LinkedIn的个人资料和来自Facebook的其他个人资料。我知道这两个配置文件的属性。我可以使用什么算法来查找这两个配置文件之间的匹配距离。

由于 Abhishek S

1 个答案:

答案 0 :(得分:6)

您可以尝试machine learning算法,特别是分类

为简单起见,我们假设你想要一个二进制答案:是或否(这可以在以后改进)。

你需要做什么:

  1. 从两个配置文件中提取您拥有的功能并创建一个 两个组合配置文件的单个实例。这将是一个实例 需要分类
  2. 创建一个训练集。训练集是一组“实例”,您知道它们的分类(通常手动标记它们)。
  3. 运行分类算法,给定训练集 - 将“猜测”您稍后将获得的未分类实例的分类。
  4. 您可能想要使用的一些算法是:

    1. SVM - 今天存在许多最佳分类算法。
    2. Decision Trees - 尤其是C4.5 - 非常直观的分类器(人类可读!)且使用简单,而且分类时间非常短。
    3. K Nearest Neighbor - 直观且易于使用,但在功能数量很大时表现不佳。

      • 您还可以使用cross validation来评估结果的效果。
      • 对于java - 有一个名为Weka的开源项目,它实现了这些分类算法等等。