在r中使用tm包查找关键短语

时间:2015-07-15 09:27:23

标签: r data-mining text-mining tm

我有一个项目要求我搜索各公司的年度报告,并在其中找到关键短语。我已将报告转换为文本文件,创建并清理了语料库。然后我创建了一个文档术语矩阵。 tm_term_score函数似乎只适用于单个单词而不适用于短语。是否有可能在语料库中搜索关键短语(不一定是最常见的)?

例如 -

我想看看语料库中每个文档中“供应链融资”这个短语的次数。但是,当我使用tm_term_score运行代码时 - 它返回没有文档有短语..当它们实际上是。

我的进展如下

library(tm)
library(stringr)

setwd(‘C:/Users/Desktop/Annual Reports’)

dest<-“C:/Users/Desktop/Annual Reports”

a<-Corpus(DirSource(“C:/Users/Desktop/Annual Reports”), readerControl ≈ list (language ≈“lat”))

a<-tm_map(a, removeNumbers)
a<-tm_map(a, removeWords, stopwords(“english”))
a<-tm_map(a, removePunctuation)
a<-tm_map(a, stripWhitespace)

tokenizing.phrases<-c(“supply growth”,“import revenues”, “financing projects”) 

我很软弱并且不熟悉r并且无法解析如何在我的语料库中搜索这些关键短语。

0 个答案:

没有答案