我正在研究一种基于某些因素预测保险索赔金额的多元回归模型。一个这样的(分类)因素是该人可以访问的房间类型作为保险包的一部分(例如,贵宾室)。问题在于,一些房间类型的索赔具有高度可变性,这导致它们是无关紧要的预测因素(这些级别的p值高达0.6)。我的建议是创建两个单独的模型,一个是房间类型作为预测器,一个是没有。如果一个人是其中一个房间的一部分具有高度可变性,那么应该使用没有房型作为预测器的模型,否则可以使用更好的拟合模型(具有更高的调整R ^ 2)。
我的问题是,这个程序有什么不对吗?
谢谢。
答案 0 :(得分:0)
我不知道你在那里有多少种类型的房间,但可能有些类别的房间数量与其他类别相比非常低。如果是这种情况,我宁愿尝试将具有类似特征的类型组合为新类别。这可能会增加音量并使其显着。
如果没有看到数据,很难提出建议。