Question

以下代码从PDF中提取表格。

install.packages("tabulizer"); install.packages("tidyverse")
library(tabulizer); library(tidyverse)

n_tables <- extract_tables("filename.pdf") %>% length()

但是，这需要永远做。我们是否可以绕过实际的表提取步骤（可能是非常耗时的过程），并直接使用制表器或任何其他R包从pdf中获取表的数量？

Answer 1

此处的原始制表师开发人员：不。该算法一页一页地工作，识别表并提取它们。提取本身并不昂贵-识别是很费时的。

该软件包以及底层的Tabula Java库完全存在的原因是，与HTML或docx不同，PDF规范中没有“表”的内部表示形式。 PDF中的表格只是字形的排列，在人眼看来就像表格一样。因此，由于文件中不存在这样的列表，因此无法快速查询是否存在表或所有表的列表。

这么简短，令人失望的答案：不。

获取嵌入在PDF中的表数

1 个答案: