我有一个包含文本,图像和表格的pdf文件。我想使用Python或R从该pdf文件中提取表格。
答案 0 :(得分:2)
如果您正在考虑使用 R ,我建议您使用tabulizer包 它可用here并且非常易于使用。 要安装它,您必须使用以下命令:
install.packages("devtools")
devtools::install_github("ropensci/tabulizer")
并使用他们的一个例子:
library("tabulizer")
f <- system.file("examples", "data.pdf", package = "tabulizer")
# When f is your selected pdf file.
out1 <- extract_tables(f)
# Or even better, say what page the tables are in.
out2 <- extract_tables(f, pages = 1, guess = FALSE, method = "data.frame")
答案 1 :(得分:1)
你可能会发现PyPI很有用 - 你可以在那里搜索特定的东西,比如'PDF',它会给你一个与PDF相关的模块列表(here)。你可能希望PDF 1.0从它对PyPI的权重来判断。这应该可以帮助您入门!