我正在尝试对一组简短说明进行文本分析:
Short description
Login failed for user
login failed
Authentication for login failed
server unavailable ping failure
Server unavailable
server not starting
,而我试图找到最大出现的问题。 我正在申请以下 创建合适的语料后,
dataset = as.data.frame(as.matrix(dtm))
dataset$Liked = sdr$Liked
dataset = as.matrix(dtm)
v = sort(colSums(dataset),decreasing=TRUE)
myNames = names(v)
d = data.frame(word=myNames,freq=v)
这里的输出给了我一个单词计数的频率。 我想找到单词组合在一起的地方。 我的预期输出是
login failed 2
server unavailable 2
这可能吗?
答案 0 :(得分:1)
您可以定义一个测试字符串,并用length
来计数sapply
。
test <- c("login failed", "server unavailable")
sapply(test, function(x) length(grep(x, tolower(dat$short))))
# login failed server unavailable
# 3 2
数据
dat <- structure(list(short = structure(c(7L, 3L, 2L, 1L, 6L, 5L, 4L
), .Label = c("Authentication for login failed", "login failed",
"Login failed for user", "server not starting", "Server unavailable",
"server unavailable ping failure", "Short description"), class = "factor")), class = "data.frame", row.names = c(NA,
-7L))