classification - 建立群集的倾向得分

我正在进行一项练习，为我的数据集中的每个用户建立影响力分数。这意味着具有更高参与度的用户应该获得更高的分数，反之亦然。但是，我有许多不同类型的参与变量，我不确定哪一个应该更高。

所以，我首先进行了聚类分析，根据参与活动将用户划分为不同的组，使用5种不同类型的参与。基于此，我发现其中一个集群在所有不同类型的参与变量中具有高度参与度。这是我感兴趣的组。但是，我获得的组大小可能小于我将来想要使用的用户数。所以，我现在想要使用这些集群并创建倾向得分。

e.g。在聚类分析中，假设我得到5个聚类c1，c2，c3，c4，c5和c5是我感兴趣的聚类。所以，我给c5中的所有用户一个值1（=影响者），我给c1到c4的所有用户一个0的值（=不影响者）。现在，我使用这个二进制变量并构建一个逻辑回归模型（使用与聚类相同的参与变量）来使每个人都倾向于影响者。这样，我可以更改阈值以减少或增加我想要选择的用户数量。

现在，我所遇到的问题是其中一个参与变量能够非常好地预测影响因素，因此我的倾向得分非常接近1或0，这就失去了为什么我想要倾向得分的目的第一名。

S0,2个问题 - 1）这种建立无监督分类的方法，然后使用它来构建监督分类，这是我正在尝试做的一个合理的方法吗？ 2）我如何减少预测影响因子的变量的贡献，以确保我得到更平滑的曲线而不是0或1附近的值。我不想从模型中删除此变量，因为这很重要商业视角。

建立群集的倾向得分

0 个答案: