我拥有约数千种蛋白质的大规模数据集,其中有数百种关于其不同性质的参数。
我想建立一个模型,通过该模型我可以决定这些参数中的哪一个会影响蛋白质的聚集倾向,但是这些参数的标度差异很大(例如,分子量为数千,每个氨基酸的分数长度介于0.01-0.2之间。
我使用弹性网(glmnet软件包R)建立了Logistic回归模型,并使用standardize = T来考虑规模的可变性。
然后,我使用coef()
函数来检索这些系数,这些系数看起来很相关,但是据我所知,它们是未转换数据的系数。
我想比较不同参数的效果。
我的第一个问题是是否有一种方法可以按其系数大小对参数进行排名,以衡量其重要性(这有意义),第二个问题是如何实际实现这一目标。
代码如下:
glmnetA <- cv.glmnet(modelMatrix,FoldNoFoldResponse,alpha = 0.5,family="binomial",type.measure="auc",nfolds=10,standardize = T, parallel = TRUE)
Coefficients <- coef(glmnetA)