我正在尝试从目录中的许多pdf中提取关键字和计数

时间:2019-07-10 15:17:44

标签: r

我创建了一个函数来搜索特定的关键字以及目录中多个pdf的计数。

library(pdfsearch)
library(pdftools)
library(dplyr)

directory <- system.file('pdf','../pdfs', package = 'pdfsearch')

result <- keyword_directory(directory,
                            keyword = c('risk','upside','downside'),
                            surround_lines = 1, full_names = TRUE)
head(result)

该代码有效,但仅显示零输出


[1] ID       pdf_name
<0 rows> (or 0-length row.names)

我该如何解决?

1 个答案:

答案 0 :(得分:0)

不要使用system.file,它只能读取文件,您可以使用以下内容,

directory<-"/Users/Documents/Personal/Consultancy 2020/IMF-2020/staff-reports/"

result<-keyword_directory(directory,
                       keyword=c('The staff', "encourages"),
                       full_names=TRUE, remove_hyphen = TRUE, surround_lines=1)