我有一个大型数据集,我想创建一个趋势线图。
其中一个专栏保留了数年(1950年至2014年),其中一个保留了房屋销售价格,最后一个保留了GrLivArea数据。
X轴应该是销售价格,Y应该是年份或GrLivArea。
我想计算每年的平均销售价格,然后根据平均销售价格和GrLivArea创建趋势线图表,那么我该怎么做呢?
> cor(train$SalePrice,train$GrLivArea)
0.7086245
> cor(train$SalePrice,train$YearBuilt)
0.5228973
数据示例;
SalePrice GrLivArea YearBuilt
208500 1710 1950
181500 1710 1950
223500 1786 1965
140000 1717 2000
趋势线公式应该是这样的; 首先,我必须计算相同数据组的平均值
(208500 + 181500)/ 2 = 195000
聚合函数后
SalePrice GrLivArea YearBuilt
195000 1710 1950
223500 1786 1965
140000 1717 2000
结果应该是Trendline图形或条形图或任何其他有意义的图形