我一直在努力理解为什么我会为更高清晰度的钻石降低平均价格?清晰度更高的钻石不是更贵吗?任何人都可以在基础数据科学层面向我解释一下吗?
谢谢!
by_clarity <- diamonds %>%
group_by(clarity) %>%
summarise(
n = n(),
mean = mean(price),
lq = quantile(price, 0.25),
uq = quantile(price, 0.75)
)
by_clarity
#> Source: local data frame [8 x 5]
#>
#> clarity n mean lq uq
#> (fctr) (int) (dbl) (dbl) (dbl)
#> 1 I1 741 3924 2080 5161
#> 2 SI2 9194 5063 2264 5777
#> 3 SI1 13065 3996 1089 5250
#> 4 VS2 12258 3925 900 6024
#> 5 VS1 8171 3839 876 6023
#> 6 VVS2 5066 3284 794 3638
#> .. ... ... ... ... ...
ggplot(by_clarity, aes(clarity, mean)) +
geom_linerange(aes(ymin = lq, ymax = uq)) +
geom_line(aes(group = 1), colour = "grey50") +
geom_point(aes(size = n))
答案 0 :(得分:1)
价格由多个组成部分决定 - 包括清晰度,尤其是克拉重量。查看数据的一种方法是
dia<-diamonds
ggplot(data=dia, aes(x=carat, y=price, color=clarity, size=carat)) +
geom_point()
在左下方,我们看到高透明度的低克拉钻石价格低于中等中等透明度的大克拉钻石。
答案 1 :(得分:0)
另一种看待@John Walker所说用户的方法是按clarity
和carat
进行分组。然后绘制结果图。
by_clarity_carat <- diamonds %>%
group_by(clarity, carat) %>%
summarise(
n = n(),
mean = mean(price),
lq = quantile(price, 0.25),
uq = quantile(price, 0.75)
)
ggplot(by_clarity_carat, aes(carat, mean)) +
geom_linerange(aes(ymin = lq, ymax = uq)) +
geom_line(aes(group = 1), colour = "grey50") +
geom_point(aes(size = n)) +
facet_wrap(~ clarity)
正如你所看到的,钻石的透明度较低,克拉的价格也很高,但是虽然没有更大清晰度的大钻石,但这些钻石的含量不超过克拉尺度的中间值,更好的清晰度也是如此价格很高。