子集化数据框后,某些观察值不会从变量中排除

时间:2019-05-27 23:30:02

标签: r

我从Zillow收集了一个名为pricepersqft的数据集,该数据集提供了整个美国各州的公寓价格。

我的目标是在箱线图中显示哪个州的增长率更高,然后将其可视化。

主要问题是,当我排除除加利福尼亚州和纽约州以外的所有美国州时,仍会存储所有其他州,但没有数据。

首先,我排除了加利福尼亚和纽约以外的所有州,并将其存储在名为CA_NY的新数据框中。我是R的新手,但我认为这是做到这一点的方法。

CA_NY <- pricepersqft[pricepersqft$State == "CA" | pricepersqft$State == "NY",]

然后,我计算了这两个州从2011年到2016年的增长率,以对将来在这两个州之一购买房屋做出预测。

CA_NY$y2011_mean <- rowMeans(CA_NY[,9:20], na.rm = TRUE, dims = 1)
CA_NY$y2016_mean <- rowMeans(CA_NY[,69:80], na.rm = TRUE, dims = 1)
CA_NY$GrRate <- CA_NY$y2016_mean / CA_NY$y2011_mean

当我尝试可视化结果时,我得到一个箱形图,其中x轴上的所有状态都是我的自变量,但是除了我感兴趣的两个状态之外,它们都为空。

boxplot(GrRate ~ State, data = CA_NY, subset = State == "CA" | State == "NY", 
 main = "Average property GR in California and NY from 2011 to 2016", 
 xlab = "State", ylab = "Growth Rate")

如您所见,我设法为箱形图编写了一个代码,没有错误,但是我的箱形图仍然包含所有美国州,我只需要其中两个即可。

希望您能为您提供帮助。

0 个答案:

没有答案