如何从语料库中为tm中的TermDocumentMatrix创建选择单词

时间:2016-04-29 07:45:06

标签: r text-mining tm corpus

我想从我的语料库的每个文档中仅保留模式词(即我指定的基因名称)来生成dtm。我不想在创建语料库之前预处理文档。我想只从语料库中选择并保留基因名称。我使用自定义函数仅保留“pattern”中的术语,并删除其他所有内容(How to select only a subset of corpus terms for TermDocumentMatrix creation in tm)。这是我的代码。

    library(tm)
    library(Rstem)
    library(RTextTools)

    docs <- Corpus(DirSource(path of the directory))
    # Custom function to keep only the terms in "pattern" and remove everything else
    f <- content_transformer(function(x, pattern)regmatches(x, gregexpr(pattern, x, perl=TRUE, ignore.case=TRUE)))
    # The pattern i want to search for
    gene = "IL1|IL2|IL3|IL4|IL5|IL6|IL7|IL8|IL9|IL10|TNF|TGF|AP2|OLR1|OLR2"

    docs <- tm_map(docs, f, gene)[[1]]

然而,我收到错误

  

“UseMethod中的错误(”content“,x):”内容“的适用方法没有应用于”character“类的对象”

0 个答案:

没有答案