大家好我有一个关于LASSO的问题。我变得疯狂,因为这是我根据自己的背景无法解决的问题。我是一名生物学家。简单地说,我使用R库“惩罚”运行LASSO。特别是我使用了opt1D函数,在大约30个列的数据框架(数值)上进行了大约500次模拟,这是我想要测试的生物标记(基因表达)和3000行,其中大约50个是肿瘤,所有的其他人都是正常人。不幸的是,通过使用L1正则化,500个模拟的所有和所有系数都是0.如果我检查系数的L2矩阵它们接近0.现在我的观点是我不能认为我的所有生物标记都无法区分法线和肿瘤。我不知道我所做的是否能够检查我的分子的歧视潜力。还有什么我可以做的事情来详细了解为什么它们都是0并且我还能做些什么来验证他们真的无法对我的队列进行分层?
提前谢谢
答案 0 :(得分:1)
在使用正则化之前,您是否考虑过在不受惩罚的情况下拟合数据? L1正则化自然会产生大量的零系数。
作为附注,我首先运行PCA / PCoA,看看你的基因是否根据你的类变量分开。这可以节省您一些时间,并允许您将数据集修剪为那些在您的类变量中显示最大差异的基因。此外,如果您对R的经验相对较少,我建议您使用线性建模软件包,例如Limma,因为它具有出色的文档和许多易于遵循的示例。