我想知道R的文本挖掘包是否有可能具有以下功能:
myCorpus <- Corpus(DirSource(<directory-contatining-textfiles>),control=...)
# add docs
myCorpus.addDocs(DirSource(<new-dir>),control=...)
理想情况下,我希望将其他文档合并到现有语料库中。
感谢任何帮助
答案 0 :(得分:11)
您应该只能在
中使用c(,)
> library(tm)
> data("acq")
> data("crude")
> together <- c(acq,crude)
> acq
A corpus with 50 text documents
> crude
A corpus with 20 text documents
> together
A corpus with 70 text documents
您可以在tm_combine
下的tm package documentation找到更多信息。
答案 1 :(得分:0)
我在大数据文本挖掘集的上下文中也克服了这个问题。无法一次加载整个数据集。
此处,此类大数据集的另一种选择是可能的。方法是在循环内收集一个文档语料库的向量。在处理这样的所有文档之后,可以将该向量转换成一个巨大的语料库,例如在其上创建DTM。
# Vector to collect the corpora:
webCorpusCollection <- c()
# Loop over raw data:
for(i in ...) {
try({
# Convert one document into a corpus:
webDocument <- Corpus(VectorSource(iconv(webDocuments[i,1], "latin1", "UTF-8")))
#
# Do other things e.g. preprocessing...
#
# Store this document into the corpus vector:
webCorpusCollection <- rbind(webCorpusCollection, webDocument)
})
}
# Collecting done. Create one huge corpus:
webCorpus <- Corpus(VectorSource(unlist(webCorpusCollection[,"content"])))