我有几十万个测量依赖的地方 变量是概率,并且想使用逻辑回归。 但是,我所拥有的协变量都是绝对的,更糟糕的是,都是 嵌套。我的意思是,如果某个测量具有“城市 - 凤凰城“然后显然肯定有”州 - 亚利桑那州“和 “国家 - 美国”我有四个这样的因素 - 最细粒度的 大约20k级,但如果需要,我可以做到没有那个,我想。 我也有一些非嵌套的分类协变量(只有四个左右, 每个可能有三个不同的级别。 我最感兴趣的是什么 是预测 - 鉴于某个城市的新观察,我想 知道相关的概率/因变量。我没兴趣 同样的推理机制 - 标准偏差, 等 - 至少截至目前。我希望我能负担得起草率。 但是,除非需要,否则我希望获得这些信息 计算成本更高的方法。 有没有人对如何攻击这个有任何建议?我调查过了 混合效果,但我不确定它是我正在寻找的。 p>
答案 0 :(得分:2)
我认为这更多是模型设计问题,而不是R具体;因此,我想首先讨论问题的背景,然后是适当的R包。
如果您的因变量是概率,例如[0,1] $中的$ y \,则逻辑回归不适合数据 - 特别是考虑到您有兴趣预测样本之外的概率。逻辑将模拟自变量对从属变量从零翻转到1的概率的贡献,并且由于您的变量是连续的并且被截断,因此您需要不同的规范。
我认为你对混合效应的后一种直觉是好的。由于您的观察是嵌套的,即US <-> AZ <-> Phoenix
,多级模型,或者在这种情况下是分层线性模型,可能是您数据的最佳规范。此类建模的最佳R包是multilevel
和nlme
,并且对multi-level models in R and nlme available here两者都有很好的介绍。您可能对多级建模的数据操作的讨论特别感兴趣,从第26页开始。
答案 1 :(得分:0)
我建议调查像弹性网这样的惩罚性回归。弹性网用于文本挖掘,其中每列代表单个单词的存在或不存在,并且可能存在数十万个变量,这是您的类似问题。从R开始的一个好地方是glmnet
包及其随附的JSS文件:http://www.jstatsoft.org/v33/i01/。