我想将单个文件作为单个文档在一个语料库中读取,但没有找到任何诽谤,我已经尝试过
>fdat <- readLines(fname)
> reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en")))
> reuters
A corpus with 139 text documents
或者是否可以从语料库中的目录中选择一些选定的文件
#reading all the files within directory
Corpus(DirSource("C:/test"), readerControl=list(language="eng", reader=readPlain))
因为我想只从目录和每个文件作为文档阅读“c:/test/abc.txt”和“c:/test/xyz.txt”。任何帮助,谢谢。
答案 0 :(得分:3)
使用pattern
匹配文件名:
DirSource(directory=path_directory,pattern="abc.txt|xyz.txt")