我是rstudio的新手,还有一些统计信息。
我真的迷失了dbplyr和ggplot教程,因为大多数人只讲数字数据,这与我的情况有些不同。
我有一个庞大的数据集,并希望对其进行统计分析,因为它们是文本和日期数据。我将在下面发布我的数据示例。
我在``ORIGIN''列中有两个值(A和B),我想对这些值进行自动计数并在同一张图上绘制。我需要知道A和B将2019年和2020年收到的款项分开的总顺序。
我的csv示例
ORIGIN;RECEIVEMENT;DELIVERY
A;01-01-2019;12-01-2019
B;01-03-2019;13-03-2019
A;31-12-2019;11-01-2020
A;21-02-2020;04-03-2020
A;08-09-2020;19-09-2020
A;28-01-2020;09-02-2020
A;02-03-2019;13-03-2019
B;04-06-2020;16-06-2020
A;24-07-2019;04-08-2019
B;03-05-2020;15-05-2020
B;08-08-2019;19-08-2019
B;03-08-2020;14-08-2020
A;20-03-2019;31-03-2019
编辑:我删除了colunn total
请使用Google Tradutor,即agradeçosua ajuda grande。 我表示,希望自己同意所有的合规性要求。
Eu gostaria de contarQuantos A e B foram entregues em 2019 e 2020。
答案 0 :(得分:1)
很难从描述中确切知道您要查找的内容。我猜您想按来源和年份对订单进行计数:
library(dplyr)
library(ggplot2)
df %>%
mutate(across(2:3, function(x) as.POSIXct(strptime(x, "%d-%m-%Y")))) %>%
mutate(year = factor(lubridate::year(RECEIVEMENT))) %>%
group_by(ORIGIN, year) %>%
summarize(count = n()) %>%
ggplot(aes(year, count)) +
geom_col(aes(fill = ORIGIN), colour = "black", width = 0.5,
position = position_dodge()) +
scale_fill_manual(values = c("gold", "deepskyblue4")) +
theme_bw() +
labs(title = "Pedidos Anuais", x = "Ano", y = "Contagem")