我有一堆语料库加载到R环境中,我想将每个语料库转换为术语文档矩阵。我尝试了for
循环和assign
命令的组合,但它不起作用,我无法弄清楚出了什么问题。
我将语料库的名称存储在列表中:
bNames<-ls()
制作一个命名的对象列表
corpus.n1<-mget(bNames)
> corpus.n1
$qB001
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
$qB002
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
....
库和n-gram函数
library(rJava)
.jinit(parameters="-Xmx128g")
library(RWeka)
nGra2Tok <- function(x) NGramTokenizer(x, Weka_control(min = 2, max =2))
我想把它放进循环中的那种东西:
tdm.n2.01<-TermDocumentMatrix(qB001,control=list(tokenize=nGram2Tok))
tdm.n2.02<-TermDocumentMatrix(qB002,control=list(tokenize=nGram2Tok))
tdm.n2.03<-TermDocumentMatrix(qB003,control=list(tokenize=nGram2Tok))
....
和TermDocumentMatrix
循环
for(i in corpus.n1){
tdm.n2<-paste(i)
assign(i, TermDocumentMatrix(tdm.n2,control=list(tokenize=nGram2Tok)))
}
我得到的错误:
Error in UseMethod("TermDocumentMatrix", x) :
no applicable method for 'TermDocumentMatrix' applied to an object of class "character"
我做错了什么?
答案 0 :(得分:2)
似乎corpus.n1
已经是一个命名列表。如果你想对所有元素应用相同的函数,你根本不需要循环 - 一个简单的lapply
将完成这项工作:
tdm.n2 <- lapply(corpus.n1, TermDocumentMatrix, control = list(...))
请注意,control
参数会在每次调用时传递给TermDocumentMatrix
函数。有关详细信息,请参阅?lapply
和?mapply
。