对于具有更高透明度的钻石,平均钻石价格清晰度更低

时间:2018-05-27 17:05:23

标签: r dplyr

我一直在努力理解为什么我会为更高清晰度的钻石降低平均价格?清晰度更高的钻石不是更贵吗?任何人都可以在基础数据科学层面向我解释一下吗?

谢谢!

   by_clarity <- diamonds %>%
      group_by(clarity) %>%
      summarise(
        n = n(), 
        mean = mean(price), 
        lq = quantile(price, 0.25), 
        uq = quantile(price, 0.75)
      )
    by_clarity
    #> Source: local data frame [8 x 5]
    #> 
    #>    clarity     n  mean    lq    uq
    #>     (fctr) (int) (dbl) (dbl) (dbl)
    #> 1       I1   741  3924  2080  5161
    #> 2      SI2  9194  5063  2264  5777
    #> 3      SI1 13065  3996  1089  5250
    #> 4      VS2 12258  3925   900  6024
    #> 5      VS1  8171  3839   876  6023
    #> 6     VVS2  5066  3284   794  3638
    #> ..     ...   ...   ...   ...   ...
    ggplot(by_clarity, aes(clarity, mean)) + 
      geom_linerange(aes(ymin = lq, ymax = uq)) + 
      geom_line(aes(group = 1), colour = "grey50") +
      geom_point(aes(size = n))

2 个答案:

答案 0 :(得分:1)

价格由多个组成部分决定 - 包括清晰度,尤其是克拉重量。查看数据的一种方法是

dia<-diamonds

ggplot(data=dia, aes(x=carat, y=price, color=clarity, size=carat)) +
  geom_point()

enter image description here

在左下方,我们看到高透明度的低克拉钻石价格低于中等中等透明度的大克拉钻石。

答案 1 :(得分:0)

另一种看待@John Walker所说用户的方法是按claritycarat进行分组。然后绘制结果图。

by_clarity_carat <- diamonds %>%
      group_by(clarity, carat) %>%
      summarise(
        n = n(), 
        mean = mean(price),
        lq = quantile(price, 0.25), 
        uq = quantile(price, 0.75)
      )

ggplot(by_clarity_carat, aes(carat, mean)) + 
      geom_linerange(aes(ymin = lq, ymax = uq)) + 
      geom_line(aes(group = 1), colour = "grey50") +
      geom_point(aes(size = n)) + 
      facet_wrap(~ clarity)

enter image description here

正如你所看到的,钻石的透明度较低,克拉的价格也很高,但是虽然没有更大清晰度的大钻石,但这些钻石的含量不超过克拉尺度的中间值,更好的清晰度也是如此价格很高。