我正在使用R tm包,我试图通过索引及其元数据选择某些文档:
orbit_corpus<-Corpus( tm_corpus, readerControl = list(reader=myReader))
meta(my_corpus[[1]])
author : a8
origin : Department
heading : WhiB
id : 1
year : 2013
我想查找2013年发布的语料库的前100个文档中的所有文档。 这用于识别元数据是否“年”。第1号文件是2013年。
meta(my_corpus[[1]],"year") == 2013
[1] TRUE
我需要能够让我在前100个符合标准的前100个索引中找到的东西。 我会想象类似的东西(但它不起作用,不幸的是也可能不会生成文档列表)。
meta(orbit_corpus[[1:100]],"year") == 2013
Error in x$content[[i]] : recursive indexing failed at level 4
非常感谢您的帮助!
答案 0 :(得分:4)
您可以在语料库的前100个文档中使用tm_filter
(orbit_corpus[1:100]
)
tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013")
来自文档
的文档的语料库
tm_filter
返回包含FUN
匹配