Question

我曾尝试使用ggalluvial和networkd3软件包创建一个Sankey Diagram，但未能及时。理想情况下，我想了解如何在两者中得到我想做的事。

数据生成如下：

dat <- data.frame(customer = c(rep(c(1, 2), each=3), 3, 3),
              holiday_loc = c("SA", "SA", "AB", "SA", "SA", "SA", "AB", "AB"),
              holiday_num = c(1, 2, 3, 1, 2, 3, 1, 2))

dat_wide <- dat %>%
        spread(key=holiday_num, value=holiday_loc`)

不确定dat或dat_wide是否更合适？我希望输出可视化以下信息（括号中的数字是频率，因此是流的宽度）

SA - （2） - SA - （1） - AB
           - (1) - SA
AB - （1） - AB

我按照此链接上的说明进行了networkd3 Sankey diagram for Discrete State Sequences in R using networkd3，但我最终在图中找到了循环。

我想要的类似图表如下图所示： [！[Sankey Diagram取自SAS VA] [2]] [2]

建议和帮助将不胜感激......

谢谢！

[2]：https://i.stack.imgur.com/wTJ1k.png enter image description here

Answer 1

您的数据的核心问题（以networkD3字词表示）是您拥有相同名称的节点，因此您需要区分它们，至少在您处理数据时。

合并位置和数字信息以制作可区分的节点，然后将您的数据转换为链接数据框，如下所示......

links <- 
  dat %>% 
  mutate("source" = paste(holiday_loc, holiday_num, sep = "_")) %>% 
  group_by(customer) %>% 
  arrange(holiday_num) %>% 
  mutate("target" =  lead(source)) %>% 
  ungroup() %>% 
  arrange(customer) %>% 
  filter(!is.na(target)) %>% 
  select(source, target)

由此，您可以构建一个节点数据框，其中包含每个不同节点的一行，如下所示......

node_names <- factor(sort(unique(c(as.character(links$source), 
                                   as.character(links$target)))))
nodes <- data.frame(name = node_names)

然后转换链接数据框以使用节点数据框中节点的索引（0索引，因为它最终传递给JavaScript），就像这样......

links <- data.frame(source = match(links$source, node_names) - 1, 
                    target = match(links$target, node_names) - 1,
                    value = 1)

此时，如果您希望节点具有不同的名称，您现在可以更改它，就像这样......

nodes$name <- sub("_[0-9]$", "", nodes$name)

现在你可以绘制它......

library(networkD3)
sankeyNetwork(links, nodes, "source", "target", "value", "name")

Answer 2

我发现冲积包对该任务很有用，但我不知道这是否是你锁定的：

library(tidyverse)
library(alluvial)
dat <- data.frame(customer = c(rep(c(1, 2), each=3), 3, 3),
                  holiday_loc = c("SA", "SA", "AB", "SA", "SA", "SA", "AB", "AB"),
                  holiday_num = c(1, 2, 3, 1, 2, 3, 1, 2))

dat_summarized <- dat %>% group_by(holiday_num, holiday_loc, customer) %>%
  summarise(n = n()) %>% mutate(color = recode(customer,
                                               `1` = "cadetblue1",
                                               `2` = "cadetblue2",
                                               `3` = "cadetblue3"))

alluvial(dat_summarized[1:3],
         freq = dat_summarized$n,
         col = dat_summarized$color)

R中Sankey Data的数据准备以获得流量频率

2 个答案: