我目前正在使用二元逻辑回归对一些数据进行建模。因变量具有大量的正例和负例 - 它不是稀疏的。我也有一个大的训练集(> 100,000),我感兴趣的主要效果的数量大约是15,所以我不担心p> n问题。
我关注的是,我的许多预测变量(如果连续的话)在大多数情况下都为零,而且如果是标称的,则大部分时间都为零。当这些稀疏预测变量取值> 0(或不为空),我知道因为熟悉数据,它们在预测我的积极情况时应该是重要的。我一直在努力寻找有关这些预测变量稀疏度如何影响我的模型的信息。
特别是,我不希望稀疏但重要的变量的效果不包含在我的模型中,如果有另一个预测变量不是稀疏的并且是相关的但实际上并没有做好工作预测阳性病例。举一个例子,如果我试图模拟某人是否最终被某个常春藤联盟大学录取,我的三个预测因子是SAT成绩,GPA,以及"捐赠> $ 1M"作为一个二进制文件,我有理由相信"捐赠> $ 1M",如果是真的,将会非常预测接受 - 比高GPA或SAT更多 - 但它也非常稀疏。如果有的话,这将如何影响我的后勤模型,我是否需要对此进行调整?另外,另一种类型的模型(比如决策树,随机森林等)会更好地处理这个问题吗?
谢谢, 克里斯蒂