如何在PDF中搜索特定单词并生成整个文件的输出?

时间:2019-03-28 21:24:08

标签: r pdf pdftotext

我有一个8000多页长的PDF文档。每个页面都与一个特定的遭遇有关,并带有标识符编号,日期等。我试图弄清楚如何在整个文件中搜索特定的单词,并创建一个输出,该输出将告诉我哪些标识符记录包含该单词。 / p>

result <- keyword_search(x, 
                         keyword = c('ID', 'yeast'),
                         path = TRUE)

但是我得到了输出

  

normalizePath(pdf,mustWork = TRUE)中的错误:path [1] =“”:否这样   文件或目录

我期望什么

ID:12345

Date:2/1/19

Special staining reveals fungal elements consistent with yeast.  Can not rule-out Candida. 

我希望结果看起来如何

Page# .           ID .             Word

 1 .              12345 .          yeast

0 个答案:

没有答案