建立群集的倾向得分

时间:2017-08-02 03:20:55

标签: classification cluster-analysis

我正在进行一项练习,为我的数据集中的每个用户建立影响力分数。这意味着具有更高参与度的用户应该获得更高的分数,反之亦然。但是,我有许多不同类型的参与变量,我不确定哪一个应该更高。

所以,我首先进行了聚类分析,根据参与活动将用户划分为不同的组,使用5种不同类型的参与。基于此,我发现其中一个集群在所有不同类型的参与变量中具有高度参与度。这是我感兴趣的组。但是,我获得的组大小可能小于我将来想要使用的用户数。所以,我现在想要使用这些集群并创建倾向得分。

e.g。在聚类分析中,假设我得到5个聚类c1,c2,c3,c4,c5和c5是我感兴趣的聚类。所以,我给c5中的所有用户一个值1(=影响者),我给c1到c4的所有用户一个0的值(=不影响者)。现在,我使用这个二进制变量并构建一个逻辑回归模型(使用与聚类相同的参与变量)来使每个人都倾向于影响者。这样,我可以更改阈值以减少或增加我想要选择的用户数量。

现在,我所遇到的问题是其中一个参与变量能够非常好地预测影响因素,因此我的倾向得分非常接近1或0,这就失去了为什么我想要倾向得分的目的第一名。

S0,2个问题 - 1)这种建立无监督分类的方法,然后使用它来构建监督分类,这是我正在尝试做的一个合理的方法吗? 2)我如何减少预测影响因子的变量的贡献,以确保我得到更平滑的曲线而不是0或1附近的值。我不想从模型中删除此变量,因为这很重要商业视角。

0 个答案:

没有答案