Question

我正在尝试在csv文件上进行Bigram Tokenization。但这需要花费很多时间。我用SO中的现有代码检查了我的代码。我无法发现任何错误。我的代码显示如下：

library(tm)
library(RWeka)
library(tmcn.word2vec)
library(openNLP)
library(NLP)

data <- read.csv("Train.csv", header=T)

corpus <- Corpus(VectorSource(data$EventDescription))
corpus <- tm_map(corpus,content_transformer(tolower))
corpus <- tm_map(corpus,removePunctuation)
corpus <- tm_map(corpus,PlainTextDocument)

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
dtm <- DocumentTermMatrix(corpus,control=list(tokenize=BigramTokenizer))

任何人都可以帮我解决这个问题吗？提前致谢

Answer 1

考虑将来源读入VCorpus而不是Corpus。见：

Document-term matrix in R - bigram tokenizer not working和Creating N-Grams with tm & RWeka - works with VCorpus but not Corpus

未获得Bigram标记化

1 个答案: