在R中按字母顺序排序单元格

时间:2017-12-15 20:47:48

标签: r dataframe text text-mining

以下是我的示例数据:

id                           text
1  1 ['a','good', 'fresh', 'apple']
2  2     ['fresh', 'apple', 'good']
3  3               ['bad', 'apple']

id <- c(1,2,3)
text <- c("['a','good', 'fresh', 'apple']","['fresh', 'apple', 'good']","
['bad', 'apple']")
data.frame(id,text)

text列需要按字母顺序排序,如下所示:

['a','apple', 'fresh', 'good']
['apple', 'fresh', 'good']
['apple', 'bad']

我已尝试过此代码,但无效。

data[lapply(strsplit(as.character(data$Lem), ','), sort)),]

1 个答案:

答案 0 :(得分:1)

大多数工作都是将它放入括号和引号中。如果子字符串包含逗号,则无效。我建议一次运行一行,以了解每一步中发生的事情。

library(stringr)
library(magrittr)
df$sorted_text = str_replace_all(text, "\\[|\\]|'", "") %>%
    str_split(",") %>%
    lapply(str_trim) %>%
    lapply(sort) %>%
    lapply(function(x) paste("'", x, "'", sep = "", collapse = ", ")) %>%
    unlist %>%
    paste0("[", ., "]")
df
#   id                           text                     sorted_text
# 1  1 ['a','good', 'fresh', 'apple'] ['a', 'apple', 'fresh', 'good']
# 2  2     ['fresh', 'apple', 'good']      ['apple', 'fresh', 'good']
# 3  3               ['bad', 'apple']                ['apple', 'bad']