如何根据元数据过滤R中的tm语料库中的文档?

时间:2016-07-12 13:08:44

标签: r metadata text-mining tm corpus

我正在使用R tm包,我试图通过索引及其元数据选择某些文档:

orbit_corpus<-Corpus( tm_corpus, readerControl = list(reader=myReader))

meta(my_corpus[[1]])

author  : a8
origin  : Department 
heading : WhiB
id      : 1
year    : 2013

我想查找2013年发布的语料库的前100个文档中的所有文档。 这用于识别元数据是否“年”。第1号文件是2013年。

meta(my_corpus[[1]],"year") == 2013
[1] TRUE

我需要能够让我在前100个符合标准的前100个索引中找到的东西。 我会想象类似的东西(但它不起作用,不幸的是也可能不会生成文档列表)。

meta(orbit_corpus[[1:100]],"year") == 2013
Error in x$content[[i]] : recursive indexing failed at level 4

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:4)

您可以在语料库的前100个文档中使用tm_filterorbit_corpus[1:100]

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013")

来自文档

  

tm_filter返回包含FUN匹配

的文档的语料库