我使用tidytext和ggplot来计算和绘制双字组频率(和tf-idfs)。 我已经绘制了四个时间段中最常见的二元组。但是,我不知道如何在所有四个图中正确地对计数进行排序。
这是我使用的代码:
bigram_tf_idf_plot %>%
arrange(desc(n)) %>%
mutate(bigram = factor(bigram, levels = rev(unique(bigram)))) %>%
group_by(period) %>%
top_n(10, n) %>%
ungroup %>%
ggplot(aes(bigram, n, fill = period)) +
geom_col(show.legend = FALSE) +
labs(x = NULL, y = "n") +
facet_wrap(~period, ncol = 2, scales = "free") +
coord_flip()