我的聚类分析应选择哪些功能?

时间:2019-05-23 12:52:02

标签: cluster-analysis feature-selection

我想基于资产负债表数据对公司进行聚类。

我可以访问非常详细的公司资产负债表数据。数据集包含1000多个公司的1000多个要素。现在,我的目标是根据这些功能的子集将这些公司与其业务模型相关联。由于我对公司的业务模型感兴趣,因此我将按总资产来缩放要素。这应该降低公司规模对聚类结果的主要影响。

除了我将要执行的某种分析维降低之外,我还想在直观地减少要使用的特征数量之后运行聚类分析。在这里,要素的嵌套性质使我很难理解要素选择如何影响聚类结果。让我解释。

通常,我在汇总资产负债表中具有三种功能(X,Y和Z)。 X类型的要素具有子变量x1,x2和x3,这些子变量的总和恰好为X。Y类型的要素具有子变量y1和y2的总和小于Y,这意味着Y中存在一些量没有在资产负债表中明确说明,或者至少没有在直接下属职位之一中说明。最后,类型Z的要素没有任何子变量。

以下是用于描述的资产负债表示例:

Assets          Liabilities
X (100)         A (200)
 x1 (30)          a1 (150)
 x2 (30)          a2 (25)
 x3 (40)          a3 (25)
x1+x2+x3=X         a1+a2+a3=A

Y (150)         B (200)
  y1 (10)          b1 (80)
  y2 (40)          b2 (100)

Z (350)         C (100)

Tot. Ass. (500) Tot. Liab. (500)

只要在聚类分析中仅包括X,Y和Z(以及A,B和C),我就不会遇到任何问题。

现在,这是我的一系列问题:

  1. 假设我要在分析中包括x1,x2和x3。我应该排除X吗?此外,由于数字的数量现在变小了,我是否会遇到麻烦?我相信在这种情况下使用基于相关的距离是有意义的。你同意吗?

  2. 假设我要在分析中包含y1和y2。在这种情况下,我不应该从分析中删除Y,因为根据y1和y2相对于Y的大小,Y可能仍然具有很多解释力。你同意吗?

对于任何指示,以及对聚类分析/要查看的链接的一般性建议,我都将不胜感激。

P.s。我正在R中进行分析。

0 个答案:

没有答案