检查英语词典中是否存在单词r

时间:2017-07-07 05:43:23

标签: r shiny text-mining

我正在对多个简历执行一些文本分析,以使用wordcloud包以及wordcloud包生成tm,以便预处理语料库R中的文件。

我面临的问题是:

  1. 检查语料库中的单词是否具有某种含义,即。它属于英语词典。

  2. 如何一起挖掘/处理多份简历。

  3. 检查 tech 等术语,如r,java,eclipse等。

  4. 感谢帮助。

2 个答案:

答案 0 :(得分:3)

我以前遇到过一些问题,所以分享问题的解决方案:

1。有一个包qdapDictionaries,它是一个字典和单词列表的集合,用于' qdap'封装

library(qdapDictionaries)

#create custom function
is.word  <- function(x) x %in% GradyAugmented # or use any dataset from package

#use this function to filter words, df = dataframe from corpus
df <- df[which(is.word(df$terms)),]

2。使用VCorpus(DirSource(...))从包含所有简历的目录创建语料库

resumeDir <- "path/all_resumes/"
myCorpus <- VCorpus(DirSource(resumeDir))

3。创建包含tech条款的 my_dict.csv 等自定义词典文件。

#read custom dictionary
tech_dict <- read.csv("path/to/my_dict.csv", stringsAsFactors = FALSE)
#create tech function
is.tech <- function(x) x %in% tech_dict
#filter
tech_df <- df[which(is.tech(df$terms)),]

希望这有帮助。

答案 1 :(得分:0)

您还可以通过以下方式添加新词或合并两个词典:

library(qdapDictionaries)

#create custom function
is.word  <- function(x) x %in% c(GradyAugmented, Dictionary2, "new_word1", "new_word2")