根据文档名称对语料库进行子集化

时间:2018-10-25 12:06:53

标签: r subset text-mining

我有一个语料库,其中包含100个名为d1到d100的文档。当我运行树状图时,我发现其中15个文档的内容相似。他们恰好是前15个文件。

我尝试运行一个子集来使用以下方法分别分析每组文档:

tm_filter(docs, function(x) any(grep(c(1:15), names(x), value =TRUE)))

但是,看起来我没有使用正确的过滤器。有什么方法可以根据文档名称对语料库进行子集化吗?或更像文档名称的数字位?

0 个答案:

没有答案