我有一个包含多个页面的pdf文件,但我只对它们的一个子组感兴趣。 例如,我的原始PDF有30页,我只想要10到16页。
我尝试使用tabulizer包中的split_pdf函数,它只将pdf页面拆分为页面(产生200个文件,每页一个),然后是merge_pdfs(合并pdf文件)。 它运作正常,但需要很长时间(我有大约2000个pdf文件,我必须拆分)。
这是我正在使用的代码:
ORDER BY decode(STATUS, 'Open', 1, 'Closed',2,3)
我无法找到更好的选择。 任何帮助都会受到赞赏。
答案 0 :(得分:0)
不幸的是,我发现您的PDF中有哪些数据以及您要从中提取的数据有点不清楚。所以我概述了两种方法。
如果您在pdf中有表格,您应该能够使用以下方法从所述页面中提取数据:
tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)
如果你只想要tex,你应该使用pdftools
,这甚至要快得多:
text <- pdftools::pdf_text("path/file.pdf")[10:16]
答案 1 :(得分:0)
安装pdftk
(如果您还没有安装)。假设它在你的路径上并且myfile.pdf
在当前目录中,则从R:
system("pdftk myfile.pdf cat 10-16 output myfile_10to16.pdf")