在R上对多个文件进行文本挖掘 - 挖掘文件中的类似单词

时间:2016-01-05 10:28:29

标签: r csv text text-mining mining

我最近学会了如何选择单个CSV文件并使用R中的文本挖掘查找文件中最常用的单词。我现在要做的是让R搜索多个CSV文件(在我的示例中)我有5)并挑选出每个CSV文件中出现的类似单词。仅供参考 - 在我的5个文件中,我已经人工插入了“#34; hieroglyphics"”这个词,我希望我的代码能够将其作为所有5个文件中的匹配词,以及任何在所有5个文件中匹配的其他词语。

我已经按照以下方式设置了代码,但我真的在努力解决这个问题。有人可以帮忙吗?

非常感谢,

P.S。作为扩展(如果以上对你们中的某些人来说太容易了!) - 有没有办法可以提取包含单词的5个CSV文件的数量?继续上面的例子,如果"埃及"只包含在5个CSV文件中的4个中,R程序是否可以拉出每个单词并说出" hieroglypics - 5","埃及 - 4"等所有单词中的所有单词5个文件?

install.packages('tm')
library(tm)
setwd('C:\\Users\\900369\\Documents\\R\\Text Mining\\')
reviews1 <- read.csv("Evo-USA-Oct-Nov-141-160.csv",stringsAsFactors=FALSE)
reviews2 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (2).csv",stringsAsFactors=FALSE)
reviews3 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (3).csv",stringsAsFactors=FALSE)
reviews4 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (4).csv",stringsAsFactors=FALSE)
reviews5 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (5).csv",stringsAsFactors=FALSE)
filenames <- list.files('C:\\Users\\900369\\Documents\\R\\Text Mining\\',"*csv",FALSE,FALSE,FALSE,FALSE,FALSE)

0 个答案:

没有答案