以下代码从PDF中提取表格。
install.packages("tabulizer"); install.packages("tidyverse")
library(tabulizer); library(tidyverse)
n_tables <- extract_tables("filename.pdf") %>% length()
但是,这需要永远做。我们是否可以绕过实际的表提取步骤(可能是非常耗时的过程),并直接使用制表器或任何其他R包从pdf中获取表的数量?
答案 0 :(得分:0)
此处的原始制表师开发人员:不。该算法一页一页地工作,识别表并提取它们。提取本身并不昂贵-识别是很费时的。
该软件包以及底层的Tabula Java库完全存在的原因是,与HTML或docx不同,PDF规范中没有“表”的内部表示形式。 PDF中的表格只是字形的排列,在人眼看来就像表格一样。因此,由于文件中不存在这样的列表,因此无法快速查询是否存在表或所有表的列表。
这么简短,令人失望的答案:不。