Question

我将文本存储在多个文件中在文件中，每一行都是一个文档（博客文章的文本，推文的文本等）如果我以doc/examples中显示的默认方式使用readtext包读取，则每个文件的内容将是单个文档，而不是每行是文档。

我的目标是使用quanteda语料库，每行存储为文档我正在使用readtext，因为它是quanteda的伴随包，但使用readtext并不是一个严格的要求。

我希望避免手动将原始文件拆分为较小的文件，每个文件对应一行。

Answer 1

方法1：将readLines()与list.files()结合使用：

txt <- character()
for (f in list.files("your-folder")) {
   txt <- c(txt, readLines(f))
}
corp <- corpus(txt)

方法2：您可以使用corpus_segment()分割语料库中的行：

corp <- corpus(readtext("your-folder")) 
corp_line <- corpus_segment(corp, "\n",  extract_pattern = FALSE, pattern_position = "after")