我猜测这种技术类似于从任何数据帧中获取前N个字符,无论它是否是语料库。
我的尝试:
create.greetings <- function(corpus, create_df = FALSE) {
for(i in length(Charlotte.corpus.raw)) {
Doc1<-Charlotte.corpus.raw[i]
Word1<-Doc1[1:25]
Greetings[i]<-Word1
}
return(VCorpus)
}
其中Greetings
以n = 6的语料库开头。我无法弄清楚如何制作一个空语料库,或一个足够大的字符集。我这里有200个文档的语料库(Charlotte.corpus.raw
)。与向量(以及扩展,数据帧)不同,似乎并不是创建空语料库的简单方法。
问题的一部分是R似乎没有认识到&#34;文件&#34;的类。它只识别语料库。也就是说,对于R,单个文档是n = 1的语料库。
可再现样本: 你需要&#39; tm&#39;和&#39; dplyr&#39;和&#39; NLP&#39;包以及更常见的R包
read.corpus <- function(directory, pattern = "", to.lower = TRUE) {
corpus <- DirSource(directory = directory, pattern = pattern) %>%
VCorpus # Read files and create `VCorpus` object
if(to.lower == TRUE) corpus <- # Lowercase text
tm_map(corpus,
content_transformer(tolower))
return(corpus)
}
然后使用几个txt文档运行任何目录的函数,然后你就可以使用语料库了。然后将上面的Charlotte.corpus.raw替换为您为语料库命名的内容。
答案 0 :(得分:0)
每一对问候语都将包含每个文档的前25个单词:
greetings <- c()
for(i in 1:length(corpus)) {
row <- unlist(corpus[i])[1:25]
greetings <- rbind(greetings, row)
}