r - 某些级别的分类变量无关紧要

某些级别的分类变量无关紧要

时间：2016-07-13 08:10:21

标签： r linear-regression

我正在研究一种基于某些因素预测保险索赔金额的多元回归模型。一个这样的（分类）因素是该人可以访问的房间类型作为保险包的一部分（例如，贵宾室）。问题在于，一些房间类型的索赔具有高度可变性，这导致它们是无关紧要的预测因素（这些级别的p值高达0.6）。我的建议是创建两个单独的模型，一个是房间类型作为预测器，一个是没有。如果一个人是其中一个房间的一部分具有高度可变性，那么应该使用没有房型作为预测器的模型，否则可以使用更好的拟合模型（具有更高的调整R ^ 2）。

我的问题是，这个程序有什么不对吗？

谢谢。

1 个答案:

答案 0 :(得分：0)

我不知道你在那里有多少种类型的房间，但可能有些类别的房间数量与其他类别相比非常低。如果是这种情况，我宁愿尝试将具有类似特征的类型组合为新类别。这可能会增加音量并使其显着。

如果没有看到数据，很难提出建议。