Question

我有一个包含多个页面的pdf文件，但我只对它们的一个子组感兴趣。例如，我的原始PDF有30页，我只想要10到16页。

我尝试使用tabulizer包中的split_pdf函数，它只将pdf页面拆分为页面（产生200个文件，每页一个），然后是merge_pdfs（合并pdf文件）。它运作正常，但需要很长时间（我有大约2000个pdf文件，我必须拆分）。

这是我正在使用的代码：

ORDER BY decode(STATUS, 'Open', 1, 'Closed',2,3)

我无法找到更好的选择。任何帮助都会受到赞赏。

Answer 1

不幸的是，我发现您的PDF中有哪些数据以及您要从中提取的数据有点不清楚。所以我概述了两种方法。

如果您在pdf中有表格，您应该能够使用以下方法从所述页面中提取数据：

tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)
如果你只想要tex，你应该使用pdftools，这甚至要快得多：

text <- pdftools::pdf_text("path/file.pdf")[10:16]

Answer 2

安装pdftk（如果您还没有安装）。假设它在你的路径上并且myfile.pdf在当前目录中，则从R：

运行

system("pdftk myfile.pdf cat 10-16 output myfile_10to16.pdf")