Question

我猜测这种技术类似于从任何数据帧中获取前N个字符，无论它是否是语料库。

我的尝试：

create.greetings <- function(corpus, create_df = FALSE) {
  for(i in length(Charlotte.corpus.raw)) {
    Doc1<-Charlotte.corpus.raw[i]
    Word1<-Doc1[1:25]
    Greetings[i]<-Word1
  }
  return(VCorpus)
}

其中Greetings以n = 6的语料库开头。我无法弄清楚如何制作一个空语料库，或一个足够大的字符集。我这里有200个文档的语料库（Charlotte.corpus.raw）。与向量（以及扩展，数据帧）不同，似乎并不是创建空语料库的简单方法。

问题的一部分是R似乎没有认识到＆＃34;文件＆＃34;的类。它只识别语料库。也就是说，对于R，单个文档是n = 1的语料库。

可再现样本：你需要＆＃39; tm＆＃39;和＆＃39; dplyr＆＃39;和＆＃39; NLP＆＃39;包以及更常见的R包

read.corpus <- function(directory, pattern = "", to.lower = TRUE) {
 corpus <- DirSource(directory = directory, pattern = pattern) %>%
   VCorpus # Read files and create `VCorpus` object
 if(to.lower == TRUE) corpus <- # Lowercase text
     tm_map(corpus, 
            content_transformer(tolower))
 return(corpus)
}

然后使用几个txt文档运行任何目录的函数，然后你就可以使用语料库了。然后将上面的Charlotte.corpus.raw替换为您为语料库命名的内容。

Answer 1

每一对问候语都将包含每个文档的前25个单词：

greetings <- c()
for(i in 1:length(corpus)) {
  row <- unlist(corpus[i])[1:25]
  greetings <- rbind(greetings, row)
}

如何取每个语料库的前25个单词（在R中）？

1 个答案: