具有ggplot功能的RStudio中的散点图

时间:2018-11-03 14:35:48

标签: r variables scatter-plot exploratory

我正在尝试使用行为风险因素监测系统(2013年)数据集的数据,来了解教育水平与胆固醇意识之间是否存在任何关联。可以从下面的链接中检查数据的内容: https://d18ky98rnyall9.cloudfront.net/_e34476fda339107329fc316d1f98e042_brfss_codebook.html?Expires=1541203200&Signature=WYq5YJFg5WgVOFV4dWPV~pPtu-31ubNEVxEYlNliJZpqZYXfZ741WN9n~RC~kcF0gE6AdxzzNFbiA7nv5DtQsxeWWs1Y9obwadm2PjV8eO~W0TI0YtyU~vmaWgozEkfbzIB17LP0MFY-dUffEsyb29~~JWYnQXHAZXdm-n5q108_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A##sleptim1

我用于EDA的变量有两个:“ educa”(教育水平)和“ cholchk”(检查胆固醇的时间)。这是我创建的代码:

> q1 <- select(brfss2013, cholchk, educa) %>%
        filter(!is.na(cholchk), !is.na(educa))

> q1 %>% group_by(cholchk) %>%    summary(count=n())

> ggplot(data = q1, aes(x = educa, y = cholchk)) +
    geom_point(shape=1) +
    geom_smooth(method=1) +
    xlab("educa = Education Level") +
    ylab ("cholchk: How Long Since Cholesterol Checked")

该图已成功创建。但是图中的所有点均以规则间隔(?)散布,因此无法检查相关性。您能给我一些建议以获得更好的外观吗?

scatterplot image

我不知道如何在问题上上传“ .RData”文件。所以这是我能做的最好的事情。

cholchk
 过去一年:321955
 过去两年内:49354
 5年以内:29870
 5年前或更早:15683

educa
 从未上过学或只有幼儿园:463
 1至8年级(小学):10189
 9至11年级(某些高中):21173
 12年级或GED(高中毕业):117152
 大学1年至3年(某些大学或技术学校):113993
 大学4年以上(大学毕业):153892

0 个答案:

没有答案