我是R的新程序员。我有一些文章(.txt)保存在文件夹中。 现在我可以在R中导入文章。我有两种方法,我不知道哪种方法更好。
这是我的代码:
# 1
library(tm)
cname <- file.path("D:/magazine_pass")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))
# 2
dir.list <- list.files("D:/magazine_pass" , full.name = TRUE)
for(i in 1:length(dir.list)){
file0 <- dir.list[i]
s <- readLines(file0,encoding="ASCII")
s <- sapply(s,function(row) iconv(row, "ASCII", "ASCII", sub=""))
}
我还尝试使用一些biokeywords(ex.clean energy,wearable device)
来查找包含这些关键字的文章。
我该怎么做?
请告诉我代码并简单描述一下。非常感谢。
答案 0 :(得分:0)
label1 = subset(docs, grepl(paste(c("clean energy","wearable device"), collapse = "|"), docs))
这应该查看您的语料库并提取包含grepl函数内的单词的任何条目。基本的grep函数在文件中搜索与提供的模式匹配的字符串模式。 grepl返回逻辑向量TRUE / FALSE,以确定模式是否在函数内匹配。