我已经用R tm包构建了一个包含几篇论文的语料库,我想删除所有这些文件的参考部分。这可能吗?
答案 0 :(得分:1)
你的意思是文件中的一节吗?是:
library(tm)
txt <- c("Reference Section 1: Foo", "Reference Section 2: Bar")
corp <- Corpus(VectorSource(txt))
removeRefSec <- content_transformer(function(x) sub("^Reference Section \\d+: ", "", x))
corp[[1]]
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 24
removeRefSec(corp[[1]])
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 3
corp <- tm_map(corp, removeRefSec)
corp[[2]]
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 3