主成分分析和弹性网络回归

时间:2016-11-29 23:26:45

标签: r regression bioinformatics

我已经在微阵列基因表达集中鉴定了疾病病例和对照中感兴趣的基因,并已应用PCA。我想使用弹性网络回归来建立一个模型,该模型可以确定哪些主成分可以预测源(情况与对照),但我不确定如何做到这一点,即输入什么作为x和y变量。任何帮助都会非常感激!

1 个答案:

答案 0 :(得分:1)

某种形式的子集选择(即您所指的弹性网络回归),其中您适合“惩罚”模型并确定最有效的预测因子不适用于PCA或PCR(主成分回归)。 PCR将数据集减少到'n'个分量,并且不同的主成分指的是数据内的不同“方向”。第一个主成分是数据中具有最大方差的方向,第二个主成分是数据中具有第二多方差的方向等。

如果您输入:

summary(pcr.model)

它将返回一个表,其中包含每个主成分在响应中解释的方差量(即你的y)。您会注意到主成分解释了累积的方差总和。

PCR的想法是你可以选择这些的一个子集(如果你的数据是适用的 - 即大多数方差都是在前几个主要组件中捕获的),这样你就可以大大减少数据的维数(例如,允许您绘制PC1与PC2的关系图。请注意,PCR通常用于序数或分类数据类型的分类,因此如果您的数据不是这样,则可能使用其他内容。 但是,如果您想知道哪些预测变量有用并应用弹性网类型回归,我建议您使用Lasso。我还推荐ISLR书籍,其中包含所有基本频率论建模技术的优秀R演练。