如何使用某些关键字查找哪些文章包含这些关键字?

时间:2016-07-11 16:31:23

标签: r text-mining tm

我是R的新程序员。我有一些文章(.txt)保存在文件夹中。 现在我可以在R中导入文章。我有两种方法,我不知道哪种方法更好。

这是我的代码:

# 1
library(tm)   
cname <- file.path("D:/magazine_pass")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

# 2
dir.list <- list.files("D:/magazine_pass" , full.name = TRUE)
for(i in 1:length(dir.list)){
      file0 <- dir.list[i]
      s <- readLines(file0,encoding="ASCII")
      s <- sapply(s,function(row) iconv(row, "ASCII", "ASCII", sub=""))
   }

我还尝试使用一些biokeywords(ex.clean energy,wearable device)来查找包含这些关键字的文章。 我该怎么做?

请告诉我代码并简单描述一下。非常感谢。

1 个答案:

答案 0 :(得分:0)

label1 = subset(docs, grepl(paste(c("clean energy","wearable device"), collapse = "|"), docs))

这应该查看您的语料库并提取包含grepl函数内的单词的任何条目。基本的grep函数在文件中搜索与提供的模式匹配的字符串模式。 grepl返回逻辑向量TRUE / FALSE,以确定模式是否在函数内匹配。