是否可以删除R tm软件包中的文档的部分或部分?

时间:2016-01-12 13:54:12

标签: r tm corpus

我已经用R tm包构建了一个包含几篇论文的语料库,我想删除所有这些文件的参考部分。这可能吗?

1 个答案:

答案 0 :(得分:1)

你的意思是文件中的一节吗?是:

library(tm)
txt <- c("Reference Section 1: Foo", "Reference Section 2: Bar")
corp <- Corpus(VectorSource(txt))
removeRefSec <- content_transformer(function(x) sub("^Reference Section \\d+: ", "", x))

corp[[1]]
# <<PlainTextDocument>>
# Metadata:  7
# Content:  chars: 24

removeRefSec(corp[[1]])
# <<PlainTextDocument>>
# Metadata:  7
# Content:  chars: 3

corp <- tm_map(corp, removeRefSec)
corp[[2]]
# <<PlainTextDocument>>
# Metadata:  7
# Content:  chars: 3