语料库包含目录中的选定文件

时间:2014-01-21 06:46:05

标签: r tm corpus

我想将单个文件作为单个文档在一个语料库中读取,但没有找到任何诽谤,我已经尝试过

>fdat <- readLines(fname)
> reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en")))
> reuters
A corpus with 139 text documents

或者是否可以从语料库中的目录中选择一些选定的文件

#reading all the files within directory
Corpus(DirSource("C:/test"), readerControl=list(language="eng", reader=readPlain))

因为我想只从目录和每个文件作为文档阅读“c:/test/abc.txt”和“c:/test/xyz.txt”。任何帮助,谢谢。

1 个答案:

答案 0 :(得分:3)

使用pattern匹配文件名:

DirSource(directory=path_directory,pattern="abc.txt|xyz.txt")