我有https://www.ers.usda.gov/data-products/county-level-data-sets/download-data/的Education.csv数据集,并且已经清理了数据删除列1-5。我想绘制第一个观察结果,以显示我过去5年的数据中成人教育率的趋势。我知道ggplot函数,但是我不太确定如何在这种情况下实现。任何帮助将不胜感激。
我已经尝试过了
USA <- eduLevelsbyCounty %>%
filter(eduLevelsbyCounty$state == "US") %>%
select(eduLevelsbyCounty, 2, 3, 8:43)
ggplot(USA, aes(x=USA$state))
但是没有编译
答案 0 :(得分:0)
这些政府电子表格是一个噩梦。将其设置为正确的格式需要花费比预期更多的努力。
脚本中的注释概述了分步过程。
library(readxl)
library(dplyr)
eduLevelsbyCounty<-read_excel("/Users/Downloads/education.xls", skip=4)
USA <- eduLevelsbyCounty %>%
filter(State == "US") %>% select(c(2, 3, 8:43))
library(tidyr)
#convert to a long dataframe
df<-USA %>% pivot_longer(cols=c(3:ncol(USA)) )
#separate year from title in the first column
#(would recommend fixing the last 4 rows)
df<-df %>% separate(name, into=c("name", "year"), sep=", ")
library(ggplot2)
#make line graph
g<-ggplot(df, aes(x=year, y=value, group=name, color=name)) +
geom_line()
print(g)