我有一个项目要求我搜索各公司的年度报告,并在其中找到关键短语。我已将报告转换为文本文件,创建并清理了语料库。然后我创建了一个文档术语矩阵。 tm_term_score函数似乎只适用于单个单词而不适用于短语。是否有可能在语料库中搜索关键短语(不一定是最常见的)?
例如 -
我想看看语料库中每个文档中“供应链融资”这个短语的次数。但是,当我使用tm_term_score运行代码时 - 它返回没有文档有短语..当它们实际上是。
我的进展如下
library(tm)
library(stringr)
setwd(‘C:/Users/Desktop/Annual Reports’)
dest<-“C:/Users/Desktop/Annual Reports”
a<-Corpus(DirSource(“C:/Users/Desktop/Annual Reports”), readerControl ≈ list (language ≈“lat”))
a<-tm_map(a, removeNumbers)
a<-tm_map(a, removeWords, stopwords(“english”))
a<-tm_map(a, removePunctuation)
a<-tm_map(a, stripWhitespace)
tokenizing.phrases<-c(“supply growth”,“import revenues”, “financing projects”)
我很软弱并且不熟悉r并且无法解析如何在我的语料库中搜索这些关键短语。