我在R中有一个房屋列表的数据集。这是一个示例:
City Price Term Size Bedrooms Bathrooms Description
Appleton 3400 12 1150 1 2 Good location
Appleton 3780 12 1600 7 2 Nice area; *veranda*
Barstow 1400 6 900 3 2 Shady st
Raleigh 3700 12 1400 1 1 Quiet st, *veranda*
Ames 2200 12 1300 3 2 Good location
Ames 3400 12 1150 1 2 Good location, *veranda*
我想做的是确定哪些城市的游廊保费和折扣最高。当然,一种方法是建立两个数据集:获取没有阳台的城市(即常规清单),以及获取没有阳台的城市。然后,我可以使用汇总来获得每个城市的平均租金,并计算两个数据集之间的均值之差。
但是,我认为有更好的方法。上面的方法没有考虑大小,卧室,浴室等混杂因素。在控制其他因素的同时,我如何采用多元回归方法来研究“游廊度”的影响?我仍然想回答一个问题,那就是仅使用更定量,更可靠的方法得出哪些城市的保费/折扣最高。
谢谢!