以下是我的示例数据:
id text
1 1 ['a','good', 'fresh', 'apple']
2 2 ['fresh', 'apple', 'good']
3 3 ['bad', 'apple']
id <- c(1,2,3)
text <- c("['a','good', 'fresh', 'apple']","['fresh', 'apple', 'good']","
['bad', 'apple']")
data.frame(id,text)
text列需要按字母顺序排序,如下所示:
['a','apple', 'fresh', 'good']
['apple', 'fresh', 'good']
['apple', 'bad']
我已尝试过此代码,但无效。
data[lapply(strsplit(as.character(data$Lem), ','), sort)),]
答案 0 :(得分:1)
大多数工作都是将它放入括号和引号中。如果子字符串包含逗号,则无效。我建议一次运行一行,以了解每一步中发生的事情。
library(stringr)
library(magrittr)
df$sorted_text = str_replace_all(text, "\\[|\\]|'", "") %>%
str_split(",") %>%
lapply(str_trim) %>%
lapply(sort) %>%
lapply(function(x) paste("'", x, "'", sep = "", collapse = ", ")) %>%
unlist %>%
paste0("[", ., "]")
df
# id text sorted_text
# 1 1 ['a','good', 'fresh', 'apple'] ['a', 'apple', 'fresh', 'good']
# 2 2 ['fresh', 'apple', 'good'] ['apple', 'fresh', 'good']
# 3 3 ['bad', 'apple'] ['apple', 'bad']