我有一个非常常规的问题,很难解决这个问题。非常感谢您的帮助。
我有4个基因(特征),在这里我的分类是二进制(0和1)。经过反复的反复,我最终确定了使用LDA进行分类。我有不同的研究,每一个都比较相同的两个类别,我在每个研究中都使用这4个基因训练了我的模型。
我想以点图的形式可视化LDA分数。如下所示,其中每个部分代表不同的研究/数据集。 X轴上该数据集的样本以及我使用的LD1值-
Y轴上的lda_model = lda(formula = class ~ ., data = train)
predict(lda_model,train)
。
由于我在每个数据集上训练了不同的模型,因此我们可以清楚地看到每个数据集的决策边界(我认为是黑线)是不同的,并且规模不同。但是,我想在Y轴上缩放值的方式是使我的所有数据集都在同一比例上,并且我可以用一个决策边界来表示该图(同样,我可以在图上清楚地画出一些东西,例如红线)。
这里的LD1值是-a(GeneA)+ b(GeneB)+ c(GeneC)+ d(GeneD)-平均值(a(GeneA)+ b(GeneB)+ c(GeneC)+ d(GeneD) )。分别为每个数据集完成此操作。但是,这并不完全等于我们可以使用逻辑回归得到的(a(GeneA)+ b(GeneB)+ c(GeneC)+ d(GeneD)+截距。我正在尝试找到可以使用LDA在所有数据集中缩放我的Y轴的值或方法。
感谢您的帮助!
答案 0 :(得分:0)
我进行了最小-最大缩放,这似乎可行。它在决策边界为零的情况下跨所有数据集缩放了我所有的数据点。