Question

我想将单个文件作为单个文档在一个语料库中读取，但没有找到任何诽谤，我已经尝试过

>fdat <- readLines(fname)
> reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en")))
> reuters
A corpus with 139 text documents

或者是否可以从语料库中的目录中选择一些选定的文件

#reading all the files within directory
Corpus(DirSource("C:/test"), readerControl=list(language="eng", reader=readPlain))

因为我想只从目录和每个文件作为文档阅读“c：/test/abc.txt”和“c：/test/xyz.txt”。任何帮助，谢谢。

Answer 1

使用pattern匹配文件名：

DirSource(directory=path_directory,pattern="abc.txt|xyz.txt")

语料库包含目录中的选定文件

1 个答案: