根据R中的页面拆分PDF

时间:2018-03-16 21:20:47

标签: r pdf split

我有一个包含多个页面的pdf文件,但我只对它们的一个子组感兴趣。 例如,我的原始PDF有30页,我只想要10到16页。

我尝试使用tabulizer包中的split_pdf函数,它只将pdf页面拆分为页面(产生200个文件,每页一个),然后是merge_pdfs(合并pdf文件)。 它运作正常,但需要很长时间(我有大约2000个pdf文件,我必须拆分)。

这是我正在使用的代码:

ORDER BY decode(STATUS, 'Open', 1, 'Closed',2,3)

我无法找到更好的选择。 任何帮助都会受到赞赏。

2 个答案:

答案 0 :(得分:0)

不幸的是,我发现您的PDF中有哪些数据以及您要从中提取的数据有点不清楚。所以我概述了两种方法。

  1. 如果您在pdf中有表格,您应该能够使用以下方法从所述页面中提取数据:

    tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)

  2. 如果你只想要tex,你应该使用pdftools,这甚至要快得多:

    text <- pdftools::pdf_text("path/file.pdf")[10:16]

答案 1 :(得分:0)

安装pdftk(如果您还没有安装)。假设它在你的路径上并且myfile.pdf在当前目录中,则从R:

运行
system("pdftk myfile.pdf cat 10-16 output myfile_10to16.pdf")