我希望获得有关选择两个或多个不连续文件以形成子语料库的建议。该代码选择1个文件:testcorpus <-文本(txtdata)[2]
如果我想形成合并文件1和25的语料库,我该怎么做:
我尝试修改在网上找到的代码,结果如下:
> my_corpus1 <- corpus(txtdata)[1]
> my_corpus2 <- corpus(txtdata)[25]
> my_corpus3 <- ( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 :
non-numeric argument to binary operator
> xx <- corpus(txtdata)[1] + corpus(txtdata)[25]
Error in corpus(txtdata)[1] + corpus(txtdata)[25] :
non-numeric argument to binary operator
> my_corpus3 <-c( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 :
non-numeric argument to binary operator
任何建议都值得赞赏,
鲍勃
答案 0 :(得分:0)
我会这样:
library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
corpus_subset(
data_corpus_inaugural,
seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.
这里的subset参数返回一个逻辑向量,其中第一个和第25个元素为true,其余元素为false,从而将这些文档选择到您的子集中。