应用错误收集

根据文档名称对语料库进行子集化

时间：2018-10-25 12:06:53

标签： r subset text-mining

我有一个语料库，其中包含100个名为d1到d100的文档。当我运行树状图时，我发现其中15个文档的内容相似。他们恰好是前15个文件。

我尝试运行一个子集来使用以下方法分别分析每组文档：

tm_filter(docs, function(x) any(grep(c(1:15), names(x), value =TRUE)))

但是，看起来我没有使用正确的过滤器。有什么方法可以根据文档名称对语料库进行子集化吗？或更像文档名称的数字位？

0 个答案:

没有答案