找到最多出现的组合词

时间:2019-04-01 07:02:31

标签: r nlp

我正在尝试对一组简短说明进行文本分析:

Short description
Login failed for user
login failed
Authentication for login failed
server unavailable ping failure
Server unavailable
server not starting

,而我试图找到最大出现的问题。 我正在申请以下 创建合适的语料后,

dataset = as.data.frame(as.matrix(dtm))
dataset$Liked = sdr$Liked
dataset = as.matrix(dtm)
v = sort(colSums(dataset),decreasing=TRUE)
myNames = names(v)
d = data.frame(word=myNames,freq=v)

这里的输出给了我一个单词计数的频率。 我想找到单词组合在一起的地方。 我的预期输出是

login failed         2
server unavailable   2

这可能吗?

1 个答案:

答案 0 :(得分:1)

您可以定义一个测试字符串,并用length来计数sapply

test <- c("login failed", "server unavailable")
sapply(test, function(x) length(grep(x, tolower(dat$short))))
# login failed server unavailable 
#            3                  2 

数据

dat <- structure(list(short = structure(c(7L, 3L, 2L, 1L, 6L, 5L, 4L
), .Label = c("Authentication for login failed", "login failed", 
"Login failed for user", "server not starting", "Server unavailable", 
"server unavailable ping failure", "Short description"), class = "factor")), class = "data.frame", row.names = c(NA, 
-7L))