我将文本存储在多个文件中 在文件中,每一行都是一个文档(博客文章的文本,推文的文本等) 如果我以doc/examples中显示的默认方式使用readtext包读取,则每个文件的内容将是单个文档,而不是每行是文档。
我的目标是使用quanteda语料库,每行存储为文档 我正在使用readtext,因为它是quanteda的伴随包,但使用readtext并不是一个严格的要求。
我希望避免手动将原始文件拆分为较小的文件,每个文件对应一行。
答案 0 :(得分:1)
方法1:将readLines()
与list.files()
结合使用:
txt <- character()
for (f in list.files("your-folder")) {
txt <- c(txt, readLines(f))
}
corp <- corpus(txt)
方法2:您可以使用corpus_segment()
分割语料库中的行:
corp <- corpus(readtext("your-folder"))
corp_line <- corpus_segment(corp, "\n", extract_pattern = FALSE, pattern_position = "after")