我最近在实习期间进行了拼抢(以及一般的编程),我遇到了PDF拼写。每当我尝试用R读取扫描的pdf时,我都无法让它工作。我尝试使用file.choose()
功能无济于事。我是否需要更改目录,或者如何将文件中的pdf格式化为R?
代码看起来像这样:
> library(pdftools)
> text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
> text
[1] ""
另外,使用pdftables引导我:
> library(pdftables)
> convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
Error in get_content(input_file, format, api_key) :
Bad Request (HTTP 400).
答案 0 :(得分:0)
您应该使用包pdftools
和pdftables
。
如果您尝试阅读pdf中的文本,请使用pdf_text()
功能。内部的是pdf的路径(在您的计算机或网络中)。例如
tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")
如果你更具体,并且给我们可重复的例子,那将是很好的。
答案 1 :(得分:0)
要使用PDFTables R软件包,您需要运行以下命令:
convert_pdf('test/index.pdf', output_file = NULL, format = "xlsx-single", message = TRUE, api_key = "insert_API_key")
答案 2 :(得分:0)
如果您希望获取表格数据,则可以尝试tabulizer
。这是完整的代码教程:https://www.business-science.io/code-tools/2019/09/23/tabulizer-pdf-scraping.html
基本上,您可以在教程中使用以下代码:
library(tabulizer)
extract_tables(
file = "2019-09-23-tabulizer/endangered_species.pdf",
method = "decide",
output = "data.frame")