如何使用Rstudio(R)对文本数据和日期进行分析?

时间:2020-09-20 18:06:27

标签: r

我是rstudio的新手,还有一些统计信息。

我真的迷失了dbplyr和ggplot教程,因为大多数人只讲数字数据,这与我的情况有些不同。

我有一个庞大的数据集,并希望对其进行统计分析,因为它们是文本和日期数据。我将在下面发布我的数据示例。

我在``ORIGIN''列中有两个值(A和B),我想对这些值进行自动计数并在同一张图上绘制。我需要知道A和B将2019年和2020年收到的款项分开的总顺序。

我的csv示例

ORIGIN;RECEIVEMENT;DELIVERY
A;01-01-2019;12-01-2019
B;01-03-2019;13-03-2019
A;31-12-2019;11-01-2020
A;21-02-2020;04-03-2020
A;08-09-2020;19-09-2020
A;28-01-2020;09-02-2020
A;02-03-2019;13-03-2019
B;04-06-2020;16-06-2020
A;24-07-2019;04-08-2019
B;03-05-2020;15-05-2020
B;08-08-2019;19-08-2019
B;03-08-2020;14-08-2020
A;20-03-2019;31-03-2019

编辑:我删除了colunn total

请使用Google Tradutor,即agradeçosua ajuda grande。 我表示,希望自己同意所有的合规性要求。

Eu gostaria de contarQuantos A e B foram entregues em 2019 e 2020。

1 个答案:

答案 0 :(得分:1)

很难从描述中确切知道您要查找的内容。我猜您想按来源和年份对订单进行计数:

library(dplyr)
library(ggplot2)

df %>% 
  mutate(across(2:3, function(x) as.POSIXct(strptime(x, "%d-%m-%Y")))) %>%
  mutate(year = factor(lubridate::year(RECEIVEMENT))) %>%
  group_by(ORIGIN, year) %>%
  summarize(count = n()) %>%
  ggplot(aes(year, count)) +
  geom_col(aes(fill = ORIGIN), colour = "black", width = 0.5,
           position = position_dodge()) +
  scale_fill_manual(values = c("gold", "deepskyblue4")) +
  theme_bw() +
  labs(title = "Pedidos Anuais", x = "Ano", y = "Contagem")

enter image description here