我使用HMeasure包将LDA纳入我对信用风险的分析中。我有11000名患者和我选择的年龄和收入来进行分析。我不确切知道如何解释LDA的R结果。所以,我不知道我是否根据信用风险选择了最佳变量。 我告诉你下面的代码。
lda(default ~ ETA, data = train)
Prior probabilities of groups:
0 1
0.4717286 0.5282714
Group means:
ETA
0 34.80251
1 37.81549
Coefficients of linear discriminants:
LD1
ETA 0.1833161
lda(default~ ETA + Stipendio, train)
Call:
lda(default ~ ETA + Stipendio, data = train)
Prior probabilities of groups:
0 1
0.4717286 0.5282714
Group means:
ETA Stipendio
0 34.80251 1535.531
1 37.81549 1675.841
Coefficients of linear discriminants:
LD1
ETA 0.148374799
Stipendio 0.001445174
lda(default~ ETA, train)
ldaP <- predict(lda, data= test)
ETA = AGE和STIPENDIO = INCOME
非常感谢!
答案 0 :(得分:2)
LDA使用每个类的均值和方差,以便在它们之间创建线性边界(或分离)。该边界由系数界定。
您有两种不同的模型,一种取决于变量ETA
,另一种取决于ETA
和Stipendio
。
您可以看到的第一件事是Prior probabilities of groups
。这些概率是您的训练数据中已存在的概率。即47.17%的培训数据对应于评估为0的信用风险,52.82%的培训数据对应于评估为1的信用风险。(我假设0表示&#34;非风险&#34; 1表示&#34 ;风险&#34)。这两种模型的概率都相同。
你可以看到的第二件事是集团的意思,它是每个阶级中每个预测者的平均值。这些值可能表明变量ETA
可能对风险信用(37.8154)的影响略大于非风险信用(34.8025)。在第二个模型中,变量Stipendio
也会发生这种情况。
第一个模型中ETA
的计算系数为0.1833161。这意味着两个不同类之间的边界将由以下公式指定:
y = 0.1833161 * ETA
这可以用以下line表示(x
代表变量ETA)。将根据线路的哪一侧预测0或1的信用风险。
您的第二个模型包含两个因变量ETA
和Stipendio
,因此类之间的边界将由此公式分隔:
y = 0.148374799 * ETA + 0.001445174 * Stipendio
如您所见,此公式代表plane。 (x1
代表ETA
,x2
代表Stipendio
)。与之前的模型一样,此平面代表风险信用与非风险信用之间的差异。
在第二个模型中,ETA
系数远大于Stipendio
系数,表明前一个变量对信用风险的影响大于后一个变量。
我希望这会有所帮助。