聚类非数字组

时间:2015-11-04 22:25:07

标签: statistics cluster-analysis k-means hierarchical-clustering

我正在尝试将我正在使用的数据集的部分组合在一起。我有一群人,他们使用各种不同的技能。我们的想法是获得最大的代理商和技能代表。

因此,在一个完美的场景中,获得一个包含85-90%记录的代理样本以及一组代表85-90%记录的技能将会很不错。基本上,我希望获得最大百分比的样本,而不需要只使用少数技能的小型代理组,或者只有很少一部分代理可以使用的技能。

我正在尝试找到一种更加统计的方法来实现这一点并考虑群集。但根据我的理解,聚类需要距离定义。我不确定这些数据是否符合这一要求。

以下是数据外观的一小部分示例:

      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other

1 个答案:

答案 0 :(得分:2)

您正在寻找解决此问题的错误工具。

您要做的是设置封面问题的变体,而不是群集。

除了你不是在寻找一个最小的封面,而是一个近似的上盖。

您需要确定解决方案何时优于其他解决方案。您对此的描述过于模糊 - 它允许保留所有内容的简单解决方案:100%覆盖。

然后反复尝试:

  • 删除座席
  • 删除技能

取决于产生最佳改善的因素。

但同样,你需要有一个正式的质量标准。