Question

我想基于资产负债表数据对公司进行聚类。

我可以访问非常详细的公司资产负债表数据。数据集包含1000多个公司的1000多个要素。现在，我的目标是根据这些功能的子集将这些公司与其业务模型相关联。由于我对公司的业务模型感兴趣，因此我将按总资产来缩放要素。这应该降低公司规模对聚类结果的主要影响。

除了我将要执行的某种分析维降低之外，我还想在直观地减少要使用的特征数量之后运行聚类分析。在这里，要素的嵌套性质使我很难理解要素选择如何影响聚类结果。让我解释。

通常，我在汇总资产负债表中具有三种功能（X，Y和Z）。 X类型的要素具有子变量x1，x2和x3，这些子变量的总和恰好为X。Y类型的要素具有子变量y1和y2的总和小于Y，这意味着Y中存在一些量没有在资产负债表中明确说明，或者至少没有在直接下属职位之一中说明。最后，类型Z的要素没有任何子变量。

以下是用于描述的资产负债表示例：

Assets          Liabilities
X (100)         A (200)
 x1 (30)          a1 (150)
 x2 (30)          a2 (25)
 x3 (40)          a3 (25)
x1+x2+x3=X         a1+a2+a3=A

Y (150)         B (200)
  y1 (10)          b1 (80)
  y2 (40)          b2 (100)

Z (350)         C (100)

Tot. Ass. (500) Tot. Liab. (500)

只要在聚类分析中仅包括X，Y和Z（以及A，B和C），我就不会遇到任何问题。

现在，这是我的一系列问题：

假设我要在分析中包括x1，x2和x3。我应该排除X吗？此外，由于数字的数量现在变小了，我是否会遇到麻烦？我相信在这种情况下使用基于相关的距离是有意义的。你同意吗？
假设我要在分析中包含y1和y2。在这种情况下，我不应该从分析中删除Y，因为根据y1和y2相对于Y的大小，Y可能仍然具有很多解释力。你同意吗？

对于任何指示，以及对聚类分析/要查看的链接的一般性建议，我都将不胜感激。

P.s。我正在R中进行分析。

我的聚类分析应选择哪些功能？

0 个答案: