我正在尝试使用行为风险因素监测系统(2013年)数据集的数据,来了解教育水平与胆固醇意识之间是否存在任何关联。可以从下面的链接中检查数据的内容: https://d18ky98rnyall9.cloudfront.net/_e34476fda339107329fc316d1f98e042_brfss_codebook.html?Expires=1541203200&Signature=WYq5YJFg5WgVOFV4dWPV~pPtu-31ubNEVxEYlNliJZpqZYXfZ741WN9n~RC~kcF0gE6AdxzzNFbiA7nv5DtQsxeWWs1Y9obwadm2PjV8eO~W0TI0YtyU~vmaWgozEkfbzIB17LP0MFY-dUffEsyb29~~JWYnQXHAZXdm-n5q108_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A##sleptim1
我用于EDA的变量有两个:“ educa”(教育水平)和“ cholchk”(检查胆固醇的时间)。这是我创建的代码:
> q1 <- select(brfss2013, cholchk, educa) %>%
filter(!is.na(cholchk), !is.na(educa))
> q1 %>% group_by(cholchk) %>% summary(count=n())
> ggplot(data = q1, aes(x = educa, y = cholchk)) +
geom_point(shape=1) +
geom_smooth(method=1) +
xlab("educa = Education Level") +
ylab ("cholchk: How Long Since Cholesterol Checked")
该图已成功创建。但是图中的所有点均以规则间隔(?)散布,因此无法检查相关性。您能给我一些建议以获得更好的外观吗?
我不知道如何在问题上上传“ .RData”文件。所以这是我能做的最好的事情。
cholchk
过去一年:321955
过去两年内:49354
5年以内:29870
5年前或更早:15683
educa
从未上过学或只有幼儿园:463
1至8年级(小学):10189
9至11年级(某些高中):21173
12年级或GED(高中毕业):117152
大学1年至3年(某些大学或技术学校):113993
大学4年以上(大学毕业):153892