某些级别的分类变量无关紧要

时间:2016-07-13 08:10:21

标签: r linear-regression

我正在研究一种基于某些因素预测保险索赔金额的多元回归模型。一个这样的(分类)因素是该人可以访问的房间类型作为保险包的一部分(例如,贵宾室)。问题在于,一些房间类型的索赔具有高度可变性,这导致它们是无关紧要的预测因素(这些级别的p值高达0.6)。我的建议是创建两个单独的模型,一个是房间类型作为预测器,一个是没有。如果一个人是其中一个房间的一部分具有高度可变性,那么应该使用没有房型作为预测器的模型,否则可以使用更好的拟合模型(具有更高的调整R ^ 2)。

我的问题是,这个程序有什么不对吗?

谢谢。

1 个答案:

答案 0 :(得分:0)

我不知道你在那里有多少种类型的房间,但可能有些类别的房间数量与其他类别相比非常低。如果是这种情况,我宁愿尝试将具有类似特征的类型组合为新类别。这可能会增加音量并使其显着。

如果没有看到数据,很难提出建议。