标签: r subset text-mining
我有一个语料库,其中包含100个名为d1到d100的文档。当我运行树状图时,我发现其中15个文档的内容相似。他们恰好是前15个文件。
我尝试运行一个子集来使用以下方法分别分析每组文档:
tm_filter(docs, function(x) any(grep(c(1:15), names(x), value =TRUE)))
但是,看起来我没有使用正确的过滤器。有什么方法可以根据文档名称对语料库进行子集化吗?或更像文档名称的数字位?