LDA替代大数据集的替代方案

时间:2015-03-18 12:17:36

标签: r classification projection

我正在分析R中基因表达的大数据集,包括100个样本和50.000个基因。

我已经对样本间模式进行了一些非常有用的PCA预测。现在我想对数据做一些预测,最大化我对样本的标签之间的差异。

通常我会使用lda()包中的MASS函数执行此操作。但是,这太慢而且内存密集。

如果目标是生成样本的预测,最大化已知标签之间的差异,那么lda()有哪些好的替代方案?

谢谢!

2 个答案:

答案 0 :(得分:1)

我们在对问题的评论

中的讨论摘要

线性判别分析不适用于具有比观察更多特征的数据集,因此您需要某种形式的正则化。如果你想做分类但主要对预测模式感兴趣,而不是预测本身,你可以使用偏最小二乘判别分析(PLSDA)。

然而,在您的情况下,PLSDA的成分可能难以解释,因为它们将包含每个基因的一个系数,但是相信所有50000个基因与您正在研究的表型相关似乎是不现实的。我更喜欢的另一种方法是使用产生稀疏模型的nearest shrunken centroidselastic net(即它们只保留最佳基因并丢弃那些不重要的基因)。

答案 1 :(得分:0)

您可以在数据集的示例上运行LDA模型。