Question

我使用HMeasure包将LDA纳入我对信用风险的分析中。我有11000名患者和我选择的年龄和收入来进行分析。我不确切知道如何解释LDA的R结果。所以，我不知道我是否根据信用风险选择了最佳变量。我告诉你下面的代码。

lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161

lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174

lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

ETA = AGE和STIPENDIO = INCOME

非常感谢！

Answer 1

LDA使用每个类的均值和方差，以便在它们之间创建线性边界（或分离）。该边界由系数界定。

您有两种不同的模型，一种取决于变量ETA，另一种取决于ETA和Stipendio。

您可以看到的第一件事是Prior probabilities of groups。这些概率是您的训练数据中已存在的概率。即47.17％的培训数据对应于评估为0的信用风险，52.82％的培训数据对应于评估为1的信用风险。（我假设0表示＆＃34;非风险＆＃34; 1表示＆＃34 ;风险＆＃34）。这两种模型的概率都相同。

你可以看到的第二件事是集团的意思，它是每个阶级中每个预测者的平均值。这些值可能表明变量ETA可能对风险信用（37.8154）的影响略大于非风险信用（34.8025）。在第二个模型中，变量Stipendio也会发生这种情况。

第一个模型中ETA的计算系数为0.1833161。这意味着两个不同类之间的边界将由以下公式指定：

y = 0.1833161 * ETA

这可以用以下line表示（x代表变量ETA）。将根据线路的哪一侧预测0或1的信用风险。

您的第二个模型包含两个因变量ETA和Stipendio，因此类之间的边界将由此公式分隔：

y = 0.148374799 * ETA + 0.001445174 * Stipendio

如您所见，此公式代表plane。（x1代表ETA，x2代表Stipendio）。与之前的模型一样，此平面代表风险信用与非风险信用之间的差异。

在第二个模型中，ETA系数远大于Stipendio系数，表明前一个变量对信用风险的影响大于后一个变量。

我希望这会有所帮助。

LDA解释

1 个答案: