Question

我正在使用R tm包，我试图通过索引及其元数据选择某些文档：

orbit_corpus<-Corpus( tm_corpus, readerControl = list(reader=myReader))

meta(my_corpus[[1]])

author  : a8
origin  : Department 
heading : WhiB
id      : 1
year    : 2013

我想查找2013年发布的语料库的前100个文档中的所有文档。这用于识别元数据是否“年”。第1号文件是2013年。

meta(my_corpus[[1]],"year") == 2013
[1] TRUE

我需要能够让我在前100个符合标准的前100个索引中找到的东西。我会想象类似的东西（但它不起作用，不幸的是也可能不会生成文档列表）。

meta(orbit_corpus[[1:100]],"year") == 2013
Error in x$content[[i]] : recursive indexing failed at level 4

非常感谢您的帮助！

Answer 1

您可以在语料库的前100个文档中使用tm_filter（orbit_corpus[1:100]）

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013")

来自文档

tm_filter返回包含FUN匹配
的文档的语料库

如何根据元数据过滤R中的tm语料库中的文档？

1 个答案: