Question

我有一个包含文本，图像和表格的pdf文件。我想使用Python或R从该pdf文件中提取表格。

Answer 1

如果您正在考虑使用 R ，我建议您使用tabulizer包它可用here并且非常易于使用。要安装它，您必须使用以下命令：

install.packages("devtools")
devtools::install_github("ropensci/tabulizer")

并使用他们的一个例子：

library("tabulizer")
f <- system.file("examples", "data.pdf", package = "tabulizer")
# When f is your selected pdf file.
out1 <- extract_tables(f)
# Or even better, say what page the tables are in.
out2 <- extract_tables(f, pages = 1, guess = FALSE, method = "data.frame")

Answer 2

你可能会发现PyPI很有用 - 你可以在那里搜索特定的东西，比如'PDF'，它会给你一个与PDF相关的模块列表（here）。你可能希望PDF 1.0从它对PyPI的权重来判断。这应该可以帮助您入门！

从PDF中提取表格

2 个答案: